MLE-bench ölçütü, her biri makine öğrenimi mühendisliğini test eden 75 Kaggle testinden oluşan bir derleme konumunda. Bu çalışma, yapay zeka modellerinin eğitilmesini, veri kümelerinin hazırlanmasını ve bilimsel deneylerin yürütülmesini içeriyor ve makine öğrenimi algoritmalarının belirli görevlerde ne kadar iyi performans gösterdiğini ölçmeyi amaçlıyor. Bu testlerin her birinin gerçek dünyada pratik bir karşılığı olduğunun altı çiziliyor.
OpenAI bilim insanları, MLE-bench'i "otonom makine öğrenimi mühendisliği" alanında yapay zeka modellerinin performansını ölçmek amacıyla geliştirdiklerini belirtiyor. Bu tür testler, yapay zekanın karşılaşabileceği en zorlu sınavlardan biri olarak kabul ediliyor.
Riskler ve kazançlar büyük
Öte yandan araştırmacılar yapay zeka alanındaki yeniliklerin, onların etkilerini anlama yeteneğimizden daha hızlı üretilmesi halinde “yıkıcı etkileri olabilen ve kötüye kullanma” riski taşıyan modellerin ortaya çıkacağında dikkat çekiyorlar. MLE-bench'in “büyük bir kısmını” çözebilen herhangi bir modelin muhtemelen birçok açık uçlu makine öğrenimi görevini (kendi kendini geliştirme gibi) kendi başına yürütebileceğini de eklediler.
Bilim insanları OpenAI'nin şimdiye kadar tasarlanmış en güçlü yapay zeka modelini MLE-bench üzerinde de test etti. Bu kapsamda OpenAI o1 modeli, 75 testin yüzde 16.9'unda en az bir Kaggle bronz madalya seviyesine ulaştı. Daha fazla deneme yapıldıkça bu oran arttı. Bronz madalya kazanmak, Kaggle liderlik tablosundaki insan katılımcılar arasında en üst yüzde 40’lik dilime girmek anlamına geliyor. OpenAI'nin o1 modeli, MLE-bench'te ortalama yedi altın madalya kazandı ki bu, bir insanın "Kaggle Grandmaster" olarak kabul edilmesi için gerekenin iki katı seviyesinde. Bilim insanları makalede, 75 farklı Kaggle yarışmasında şimdiye kadar sadece iki insanın madalya kazandığını da yazdı.
Haberi DH'de Gör
{{body}}
{{/longBody}} {{^longBody}}{{body}}
{{/longBody}}