Google Gemini 2.5 Flash, ‘düşünce bütçeleri’ ile AI maliyetlerini %600 düşürüyor

Günlük ve haftalık haber bültenlerimize katılarak endüstriyel liderlikteki yapay zeka ile ilgili en son güncellemeler ve özel içerikler hakkında bilgi edinin. Daha Fazla Bilgi Alın

Google, işletmelere ve geliştiricilere, AI sistemlerinin “düşünme” gücü üzerinde benzeri görülmemiş kontrol sağlayan Gemini 2.5 Flash modelini tanıttı. Bugün, Google AI Stüdyosu ve Vertex AI aracılığıyla önizleme olarak piyasaya sürülen bu yeni model, daha iyi akıl yürütme yetenekleri sunmayı amaçlayarak giderek kalabalıklaşan AI pazarında rekabetçi fiyatlandırmayı koruma çabası içerisinde.

Bu model, geliştiricilerin karmaşık sorunları yanıtlamadan önce ne kadar hesaplama gücü kullanacağını belirtebileceği bir “düşünme bütçesi” mekanizması sunuyor. Bu yaklaşım, mevcut AI pazarında daha iyi bir mantık yürütmenin genellikle yüksek gecikme süresi ve maliyetle geldiği temel bir gerilimi ele almayı amaçlıyor.

Düşünce Bütçesi: Gereksiz Maliyetlerden Kaçının

Google DeepMind’tan Gemini Modelleri Ürün Direktörü Tulsee Doshi, “Maliyet ve gecikme birçok geliştirici kullanımı için önem taşıyor, bu nedenle geliştirme ihtiyaçlarına dayalı olarak modelin ne kadar düşünme gerçekleştireceği konusunda esneklik sunmak istiyoruz,” dedi. Bu esneklik, Google’ın teknolojiyle ilgili uygulamalarda daha fazla maliyet tahmin edilebilirliği sağlamak amacıyla pragmatik bir yaklaşım sergilediğini gözler önüne seriyor.

Yeni fiyatlandırma yapısı, günümüzün AI sistemlerindeki düşünme sürecinin maliyetlerini vurguluyor.Gemini 2.5 Flash kullanırken geliştiriciler, girişler için milyon başına $0.15 ödüyor. Çıktı maliyetleri, düşünme ayarlarına bağlı olarak büyük farklılıklar gösteriyor: düşünme devre dışı bırakıldığında milyon başına $0.60, düşünme etkinleştirildiğinde ise $3.50.

Rekabetçi Olmanın Yolu: Performans ve Maliyet Optimize Edildi

Bu, yaklaşık altı katlık bir fiyatta farklılık yaratıyor ve AI sisteminin vermiş olduğu mantıklı cevapların arkasındaki hesaplamaların yoğunluğunu yansıtıyor. Doshi, “Müşteriler, modelin ürettiği her düşünme ve çıktı jetonunu ödüyor. AI Stüdyosu UX’inde, bir yanıtı oluşturulmadan önce bu düşünceleri görebilirsiniz,” diye ekliyor.

Düşünme bütçesi, 0 ila 24,576 token arasında ayarlanabilir ve bu, kesin bir tahsis yerine bir maksimum limit olarak hareket eder. Google’a göre, model, görevin karmaşıklığına bağlı olarak bu bütçeden ne kadarını kullanacağına akıllıca karar veriyor ve gereksiz harcamaları önlüyor.

Doğru Zaman, Doğru Düşünme: AI’niz Ne Zaman Derin Düşünmeli?

Ayrıca, Google’ın sunduğu değişken düşünme mantığı, işletmelerin AI uygulamalarıyla ilgili nasıl yeni bir yaklaşım benimseyebileceğini gösteriyor. Geleneksel modellerde, kullanıcıların modelin iç mantığını kontrol etme veya görünürlük sağlama şansı yoktur. Google’ın yaklaşımı, geliştiricilerin farklı senaryolara göre optimizasyon yapabilmesini sağlıyor.

Düşünme yeteneğinin, sorguya dayalı olarak ne kadar uygun olacağını belirleyebilmesi de önemli bir yenilik. Örneğin, “Kanada’nın kaç eyaleti var?” gibi basit bir soru, minimal mantık gerektirirken; karmaşık mühendislik sorularında ise daha derin düşünme süreçleri otomatik olarak devreye giriyor. “Ana Gemini modellerimize düşünme kabiliyetlerini entegre etmek ve tüm bu alanlarda iyileştirmeler yapmak, daha kaliteli yanıtlar elde etmemizi sağladı,” diyor Doshi.

AI’nin günden güne geliştiği bu ortamda, Google’ın kişiselleştirilmiş düşünme yaklaşımları, işletmelerinAI kullanımını daha etkili yönetmelerine katkı sunacak gibi görünüyor.