DeepSeek V3, sorulduğunda, OpenAI’nin 2023’te piyasaya sürdüğü GPT-4 modeli olduğunu iddia ediyor. Model, DeepSeek’in API’si hakkında bilgi verileceği bir soruya bile OpenAI’ın API kullanım talimatlarını paylaşıyor. Dahası, ChatGPT’nin aynı şakalarını yapıyor. Peki bu garipliğin ardında ne var?
Eğitim verilerinin “kirlenmesi”
Yapay zeka modelleri, milyonlarca veri örneği üzerinde eğitilerek dil kalıplarını öğrenir ve tahminlerde bulunur. DeepSeek V3 yapay zeka modellerinin temelli büyük dil modellerine (LLM) dayanıyor. Bu modeller ise firmaların genellikle açıklamadığı devasa veri kümeleri (metinler, kitaplar, videolar, görseller vb.) üzerinde eğitiliyor. Ortaya çıkan modeller ise kendilerine sorulan sorulara, bu verilere dayalı istatistiksel bir hesaplamaya dayanan yanıtlar veriyor.
DeepSeek, DeepSeek V3’ün eğitim verilerini açıklamadığı için modelin neden ChatGPT olduğunu söylediğini belirlemek zor. Ancak bu durum, modelin GPT-4 tarafından ChatGPT aracılığıyla oluşturulan kamuya açık veriler üzerinde eğitilmiş olabileceğine işaret ediyor. Eğer bu veriler modele dahil edildiyse, DeepSeek V3 muhtemelen ChatGPT’nin çıktılarının bir kısmını ezberleyip tekrar ediyor.
Bir yapay zeka modelinin başka bir yapay zeka modelin verileri üzerinde eğitilmesi ise kalite anlamında pek de istenen bir şey değil. Bu, fotokopinin fotokopisini çekmek gibi bilgi kaybına yol açabilir. Üstelik bu uygulama, OpenAI’nin hizmet kullanım koşullarına da aykırı olabilir. Ayrıca örnekte olduğu gibi halüsinasyonları da artırabilir.
OpenAI CEO’su Sam Altman, doğrudan DeepSeek’i hedef almasa da, bu tür uygulamalara bir gönderme yaptığı düşünülen bir paylaşım yaptı: “Çalıştığını bildiğiniz bir şeyi kopyalamak (göreceli olarak) kolaydır. Ancak işe yarayıp yaramayacağını bilmediğiniz yeni, riskli ve zor bir şey yapmak inanılmaz derecede zordur.”
Bir diğer problem ise internetin giderek daha fazla yapay zeka tarafından üretilen içeriklerle doluyor olması. AI kullanılarak hazırlanan tık tuzağı makaleler ve botlar, veri setlerini dolduruyor. Bir tahmine göre, 2026 yılına kadar internetteki içeriklerin yüzde 90’ı yapay zeka tarafından üretilmiş olacak. Bu da yeni modellerin eğitiminde “kaliteli” veri bulmayı zorlaştıracak.
Bu haberi, mobil uygulamamızı kullanarak indirip,istediğiniz zaman (çevrim dışı bile) okuyabilirsiniz: