Uygulama ile Aç

OpenAI’ın “düşünen” yapay zekasına 50 dolarlık rakip geldi

Araştırmacılar sadece 50 dolarlık bulut işlem kredisiyle OpenAI’ın “düşünen” o1 modeliyle rekabet edebilecek kadar güçlü olan bir yapay zeka modeli eğitmeyi başardı.

Stanford ve Washington Üniversitesi’nden araştırmacılar, yalnızca 50 dolarlık bulut işlem kredisiyle oldukça yetenekli, “akıl yürütebilen” yapay zeka modeli geliştirdi. “s1” adı verilen bu model, OpenAI’ın o1 ve DeepSeek’in R1 modelleriyle benzer performans sergileyerek yapay zeka dünyasında önemli bir soru işareti yarattı: Milyon dolarlık yatırımlara gerçekten gerek var mı?

50 dolara düşünen yapay zeka

s1 modeli, GitHub üzerinden açık kaynak olarak erişime sunuldu. Araştırmacılar, bu modeli oluştururken mevcut bir yapay zeka modelini alıp “damıtma” (distillation) adı verilen bir yöntemle eğitti. Bu süreçte, Google’ın Gemini 2.0 Flash Thinking Experimental modelinin yanıtları kullanılarak s1’in akıl yürütme yetenekleri geliştirildi.

Bu tip damıtma yöntemi daha önce de kullanılmıştı. Örneğin, Berkeley Üniversitesi’nden araştırmacılar geçen ay benzer bir yapay zeka modeli geliştirmek için yaklaşık 450 dolar harcamıştı. Ancak s1’in en dikkat çekici yönü, sadece 50 dolarlık bir maliyetle ortaya çıkmış olması. Hatırlanacağı üzere DeepSeek’in de OpenAI modellerini “damıtarak” kendi modellerini eğittiği söylenmişti.

Bu tip başarıların yapılmasıyla birlikte kafalarda doğal olarak soru işaretleri de oluşuyor. Eğer nispeten küçük araştırma grupları birkaç yüz dolara yüksek performanslı modeller üretebiliyorsa, milyarlarca dolarlık yatırımların sürdürülebilirliği sorgulanıyor.

Bu arada, s1’in eğitimi sırasında kullanılan Gemini 2.0 Flash Thinking Experimental modeli, Google AI Studio üzerinden ücretsiz erişime açık olsa da, Google’ın kullanım şartları, modellerin tersine mühendislik ile yeniden oluşturulmasını yasaklıyor. Google, bu konuda henüz bir açıklama yapmadı.

Taklit etmek için harika bir yol

s1’in araştırma makalesi, bir yapay zeka modeline bir veri kümesindeki belirli davranışları taklit etmesi için açıkça talimat verildiği denetimli ince ayar (SFT) adı verilen bir süreç kullanılarak akıl yürütme modellerinin nispeten küçük bir veri kümesiyle damıtılabileceğini öne sürüyor.

s1 modeli, Çinli teknoloji devi Alibaba’nın Qwen laboratuvarına ait küçük ölçekli bir açık kaynak model üzerine inşa edildi. Araştırmacılar, 1.000 özenle seçilmiş soru ve bu soruların ayrıntılı düşünme süreçleriyle eğitimi gerçekleştirdi. Bu süreç sadece 30 dakika sürdü ve 16 adet Nvidia H100 GPU kullanıldı.

Meta, Google ve Microsoft, 2025 yılı içinde yapay zeka altyapısına yüz milyarlarca dolar yatırım yapmayı planlıyor. Ancak s1 gibi projeler, büyük yatırımlar olmadan da güçlü modellerin üretilebileceğini gösteriyor.

Buraya kadar elbette her şey harika ancak bu tartışmalarda yine ıskalanan önemli bir nokta var. Damıtma yöntemi her zaman harika sonuçlar vermeyecektir. Bunu bir öğretmen-öğrenci ilişkisi şeklinde hayal edebilirsiniz. Öğretmen bildiklerini öğrencisine öğretebilir ancak bunu yaparken aynı zamanda kendi yanılgılarını, yanlı duruşunu ve hatalarını da aktarabilir.

Damıtma, genellikle mevcut modellerin yeteneklerini daha küçük ve daha verimli bir yapıya dönüştürmek için kullanılır. Ancak bu süreç, sıfırdan yeni ve daha güçlü modeller yaratmaya uygun değildir. Yani, damıtılmış modeller genellikle kendilerini eğiten modelin kapasitesini aşamaz. Evet, gerçek dünyada boynuz kulağı geçebilir ama yapay zeka dünyasında bir modeli damıtarak, küçük modeli çok daha yetkin hale getiremezsiniz. Dolayısıyla damıtma yöntemleri ile güçlü modelleri oldukça isabetli şekilde taklit edebilir, ince ayarlar ile modeli daha da güçlendirebilirsiniz. Ancak tamamıyla yeni bir şey yapmak için halen yüksek miktarda yatırım yapmak gerekiyor.



Haberi DH'de Gör Yorumlar ve Diğer Detaylar
Whatsapp ile Paylaş

Beğenilen Yorumlar

Tümünü Gör
5 Yorumun Tamamını Gör