Yapay zeka için korkulan oldu: Eğitim verileri tükendi

Çözüm var mı?
Yorumlar

Metin Akpınar

Teknoloji Editörü

Yapay zeka için korkulan oldu: Eğitim verileri tükendi — Geride bıraktığımız birkaç yıl içinde yapay zekanın inanılması güç bir hızla geliştiğini gördük. Her yeni çıkan teknolojide kaydedilen gelişim insanları şaşırtırken bu durumun son dönemde tersine döndüğünü görüyoruz. Artık tanıtılan yeni modeller bir “devrim” olmaktan ziyade daha iyi bir “revizyon” olarak karşımıza çıkıyor. Bu duruma teknoloji dünyasının önde gelen isimlerinden **Elon Musk** da dikkat çekiyor. Uzmanlara göre bu problem, **eğitim verilerinin tükenmesi** nedeniyle oluyor.

Bugün herkesin bildiği ChatGPT veya Gemini gibi yapay zekaları eğitmek için milyarlarca gerçek dünya verisi (resim, ses, video, metin vb.) kullanıldı. Musk’a göre ise bu araçlara güç veren modelleri eğitmek için kullanılan gerçek dünya verilerinin tükendi. Musk, Mark Penn ile canlı yayınlanan bir sohbet sırasında, “Artık yapay zeka eğitiminde insanlığın sahip olduğu bilginin kümülatif toplamını tükettik. Bu esasen geçen yıl oldu.” dedi.

Çözüm var mı?

Elbette onlarca şirketin milyarlarca dolar yatırım yaptığı bir sektörün kullanacak veri kalmaması nedeniyle çökeceğini düşünmek yanlış olur. Ve aslında bir süredir konuşan bir çözüm de var. Musk’ın vurguladığı çözüm, giderek daha fazla şirketin benimsediği bir yöntem: Sentetik veri.

Bu yaklaşım, gerçek dünya verilerinin eksik kaldığı durumlarda, yapay zeka modellerinin kendi ürettiği verilerle eğitilmesini içeriyor. Musk, bu süreci “Sentetik verilerle ... yapay zeka kendi kendini derecelendirecek ve bu kendi kendine öğrenme sürecinden geçecek.” şeklinde tanımladı.

Microsoft, Meta, OpenAI ve Anthropic gibi devler, sentetik veriyi hali hazırda eğitim süreçlerinde kullanıyor. Gartner’ın tahminlerine göre, 2024’te yapay zeka ve analiz projelerinde kullanılan verilerin yüzde 60’ı sentetik olarak üretildi. Örneğin, Microsoft’un Phi-4 modeli ve Meta’nın Llama serisi, gerçek dünya verileriyle birlikte sentetik veriyle de eğitildi.

Sentetik verinin en büyük avantajlarından biri, maliyetleri ciddi oranda düşürmesi. Örneğin, yapay zeka girişimi Writer’ın Palmyra X 004 modeli neredeyse tamamen sentetik kaynaklarla geliştirildi ve 700 bin dolara mal oldu. Buna karşın, benzer boyuttaki bir OpenAI modelinin geliştirme maliyeti 4,6 milyon dolar olarak hesaplanıyor.

Her ne kadar sentetik veri umut vaat etse de, beraberinde ciddi riskler de getiriyor. Araştırmalar, sentetik veriyle eğitilen modellerde yaratıcılık kaybı ve işlevsellikte bozulma gibi sorunların ortaya çıkabileceğini gösteriyor. Özellikle, kullanılan sentetik verilerdeki önyargıların modele taşınması, uzun vadede ciddi bir “çöküş” riskini beraberinde getiriyor.