Google Gemini vs ChatGPT: Bard neden devrimsel bir teknoloji?

Geçtiğimiz saatler içerisinde Google ve Google DeepMind merakla beklenen yapay zeka modeli Gemini'yi duyurdu. Ne kadar iyi çalıştığına dair hala çok fazla uygulamalı geri bildirim yok ancak yazılım devinin gösterdikleri açıkçası çılgınca. Dev teknoloji şirketleri son yıllarda, özellikle de ChatGPT’nin hayatımıza girmesiyle inanılmaz bir yapay zeka yarışına soyunmuş durumda. Şimdiye kadar ChatGPT geliştiricisi OpenAI ve yatırımcısı Microsoft’un önde olduğunu gördük. Ancak Google, Gemini AI ile gizlediği elini nihayet gösterdi.

Bu makale, şu ana kadar edindiğimiz bilgilere ve okuduklarımdan edindiğim ilk izlenimlere genel bir bakış sunabilmek için hazırlandı. Gemini'nin neler yapabildiğini ve yapay zekanın geleceği için ne anlama geldiğini aktarmaya çalışacağız. Sıkı tutunun başlıyoruz.

Google Gemini nedir?

Öncelikle biraz basitten başlayalım. Gemini, Google'ın sadece metinleri değil aynı zamanda görüntüleri, videoları ve sesleri de anlayabilen yeni ve en güçlü yapay zeka modeli konumunda. Çok modlu (multimodal) bir model olan Gemini'nin matematik, fizik ve diğer alanlardaki karmaşık görevleri tamamlayabildiği ve çeşitli programlama dillerinde yüksek kaliteli kodları anlayıp üretebildiği belirtiliyor.

Şu anda Google Bard ve Google Pixel 8 entegrasyonlarıyla kullanılabiliyor ve kademeli olarak diğer Google hizmetlerine de eklenecek. Google DeepMind CEO'su ve kurucu ortağı Dennis Hassabis'e göre "Gemini, sıfırdan çok modlu olacak şekilde tasarlandı, yani metin, kod, ses, görüntü ve video dahil olmak üzere farklı bilgi türlerini genelleştirebilir ve sorunsuz bir şekilde anlayabilir, bunlar arasında çalışabilir ve birleştirebilir."

Gemini'nin 3 farklı sürümü var

Google, Gemini'yi şirketin veri merkezlerinden mobil cihazlara kadar her yerde çalışabilen esnek bir model olarak tanımlıyor. Bu ölçeklenebilirliği sağlamak için Gemini üç boyutta piyasaya sürülüyor: Gemini Nano, Gemini Pro ve Gemini Ultra.

Gemini Nano: Bu model daha çok cihazları hedefleyen bir mode. Google, Ultra ve Pro'nun parametre sayısını açıklamadı, ancak Nano'nun düşük ve yüksek bellekli cihazlar için Nano 1 (1.8B) ve Nano 2 (3.25B) olmak üzere iki katmana ayrıldığını biliyoruz. Bu versiyonlar cihaz üzerinde sohbet, metin özetleme ve görsel oluşturma gibi işlevleri yerine getirecek. Gemini Nano, Google'ın yapay zeka ile geliştirilmiş bir akıllı telefon haline gelecek olan Pixel 8 Pro'da yerleşik olarak bulunuyor. Bu, açıkçası süper mobil asistanların başlangıcı diyebiliriz. Gemini ayrıca Arama, Reklamlar, Chrome ve Duet AI gibi daha fazla ürün ve hizmetimizde mevcut olacak ancak ne boyutta veya ne zaman olacağını belirtmiyor.

Gemini Pro: GPT-3.5 ile karşılaştırılabilir olan model her koşulda olmasa da bazı alanlarda rakibini geçiyor. Google, bu modeli hızlı yanıt ve maliyet için optimize ettiğini söylüyor. En iyinin en iyisine ihtiyacınız yoksa ve maliyetler bir kısıtlamaysa, Pro muhtemelen Ultra'dan daha iyi bir seçim olacak gibi. Gemini Pro halihazırda Bard'da İngilizce olarak mevcut. Google daha sonra diğer ülkelerde ve dillerde de kullanıma sunulacağını açıkladı.

Gemini Ultra: Gemini Ultra ise ailenin en güçlüsü ve OpenAI’ın en gelişmiş modeli olan GPT-4'ü geçen sürüm konumunda. Veri merkezlerinde çalışmak üzere tasarlandığından bunu ev bilgisayarınıza kurmayacaksınız. Henüz yaygın kullanıma sunulmamış olsa da Google, Gemini Ultra'yı büyük dil modeli (LLM) araştırma ve geliştirmesinde yaygın olarak kullanılan 32 akademik ölçütten 30'unda rakiplerini aşan en yetenekli modeli olarak tanımlıyor. Oldukça karmaşık görevler için tasarlanan Gemini Ultra, mevcut test aşamasını tamamladıktan sonra piyasaya sürülecek. 2024’ün başlarında Google'ın sohbet robotu “Bard Advanced” sürümünde kullanıma sunulacak.

Tüm modellerin 32K bağlam penceresi bulunuyor ki bu da en büyükleri olan Claude 2 (200K) ve GPT-4 Turbo'dan (128K) oldukça küçük. Ancak hangi boyuttaki bağlam penceresinin en uygun olduğunu söylemek zordur (tabii ki göreve bağlıdır) çünkü boyutun çok büyük olması durumunda modellerin bağlam bilgisinin büyük bir kısmını unutma eğiliminde olduğu biliniyor.

Açıkçası Google Gemini hakkında teknik bilgilerimiz ve işleyiş şekli hakkında çok fazla bir şey bilmiyoruz zira Google bunları paylaşmıyor. Bunu söylemek oldukça komik ama daha fazlasını öğrenmek için Meta'nın bir sonraki modelini yayınlamasını beklememiz gerekecek. Açık kaynaklı bir Llama 3 - eğer GPT-4 ve Gemini ile karşılaştırılabilirse - bu modellerin nasıl oluşturulduğuna ve ne üzerinde eğitildiklerine biraz ışık tutabilir.

Gemini vs ChatGPT 4

Öncelikle, Gemini doğal çok modlu özelliği nedeniyle öne çıkarken, GPT-4 gibi diğer modeller gerçekten çok modlu olmak için eklentilere ve entegrasyonlara (DALL-E3 ve Whisper gibi) ihtiyaç duyuyor. Gemini ile ChatGPT’nin ücretli sürümünde olan GPT-4 arasındaki fark hangi Google modelini kullandığınıza göre değişiyor. Gemini Nano zaten bu kıyaslamalar için uygun güçte değil ancak Gemini Pro ve Gemini Ultra karşılaştırma olarak kullanılabilir. Bu bağlamda Gemini Pro’nun Google’ın yaptığı testlerde çoğunlukla GPT-3.5’i geçtiğini ancak GPT-4’ün gerisinde kaldığını görüyoruz. Hatırlatalım, bu model mevcuttaki Bard’a eklenmiş durumda. Ve Gemini Ultra destekli Bard Advanced sürümü 2024’e kadar gelmeyecek.

Gemini Ultra demişken vizörü biraz daha genişletelim.

Google, burada yayınladığı blog yazısında şu şekilde bir tanımlama yapıyor:

“Gemini Ultra, hem dünya bilgisini hem de problem çözme yeteneklerini test etmek için matematik, fizik, tarih, hukuk, tıp ve etik gibi 57 konuyu bir arada kullanan MMLU'da (devasa çok görevli dil anlama) %90,0'lık bir skorla insan uzmanlardan daha iyi performans gösteren ilk modeldir... Gemini Ultra ayrıca, kasıtlı muhakeme gerektiren farklı alanları kapsayan çok modlu görevlerden oluşan yeni MMMU ölçütünde %59,4'lük en yüksek skoru elde ediyor.”

Gemini Ultra, MMLU (yeni bir tür Düşünce Zinciri yaklaşımı kullanılarak %90'a karşı %86,4) ve yeni çok modlu ölçüt MMMU (%59,4'e karşı %56,8) dahil olmak üzere aşağıda gösterilen 18 ölçütten 17'sinde GPT-4'ü geride bırakıyor. Şunun üzerinde tekrar durmak istiyorum: Gemini Ultra, yapay zeka modellerinin bilgi ve problem çözme yeteneklerini test etmek için kullanılan en popüler yöntemlerden biri olan MMLU'da (Massive Multitask Language Understanding) insan uzmanlardan daha iyi performans gösteren ilk modeldir.

Rakamlara ve tablolara bakıldığında Gemini Ultra ile GPT-4 arasında aslında çok büyük farkların olmadığını görüyoruz. Aslında bu durum Google’ın yetersizliğini değil, tam tersine bu tip sistemleri geliştirmenin ne kadar zor olduğunu gösteriyor.

Gemini'nin gerçek dünya testlerindeki yetenekleri hakkında daha fazla bilgi edinmek istiyorsanız (örneğin, muhakeme ve anlama, matematik ve kodlama problemlerini çözme vb.) Google DeepMind'ın interaktif blog yazısındaki videoları ve CEO Sundar Pichai'nin X'te yayınladığı alttaki kapsamlı demo videoyu izlemenizi tavsiye ederim. Yukarıdaki sayıları pekiştirmek için her ikisine de bakmak gerek.

Google Gemini neden devrimsel?

Gemini, henüz geliştirilme aşamasında olmasına rağmen, bilgisayarlarla etkileşim şeklimizi değiştirme potansiyeliyle şimdiden fark yaratıyor. Onu özel kılan şeyleri şu şekilde açıklamaya çalışalım:

Yapay zeka modellerinin çoğunun aksine, sadece metin değil, çok çeşitli bilgi kaynaklarını kavrayabilir ve bunlara yanıt verebilir. Gemini sizin dilinizi konuşabilecek kadar zekidir. Sonuç olarak, tıpkı bir insan gibi doğal ve sofistike tartışmalar yürütebilir. Ek olarak, Gemini kod üretme yeteneğine de sahip. Ayrıca Gemini'nin gelişmiş veri analizi becerileri, sağlıktan finansa kadar çeşitli sektörlerde faydalı içgörüler elde etmemize yardımcı olabilir. Google, geliştiricilerin yeni yapay zeka uygulamaları tasarlamasına olanak tanıyacak Gemini'nin daha hafif versiyonlarını üretmeyi planlıyor. Bu, geliştiriciler için bir rüyanın gerçekleşmesi anlamına geliyor.

Ayrıca bkz.

Google, yeni yapay zeka hızlandırıcısını duyurdu

Gemini, Google için büyük bir adım, ancak bir bütün olarak yapay zeka endüstrisi için dev bir sıçrama değil, olması da gerekmiyor. Yukarıda da dediğimiz gibi; Gemini, 32 standart performans ölçütün 30'unda GPT-4'ü geride bırakıyor ancak küçük marjlarla. Gemini’nin asıl alameti farikası yapay zekanın mevcut en iyi yeteneklerini tek bir güçlü pakette toplamak.

Gemini’yi tam olarak gösteren en güçlü örnek ise tavada pişmekte olan bir omletin pişip pişmediğinin sorulması (metin değil, konuşma yoluyla). Gemini, "Hazır değil çünkü yumurtalar hala cıvık" diye yanıt verdi. Bu bize çok basit geliyor belki ama bu zor bir süreç. Gemini, söyleneni tam olarak anlayıp omlet görüntüleri ile ilişkilendiriyor. İlişki kurulduktan sonra ise bir omletin piştiğinde nasıl görülmesi gerektiğiyle bağlantı kuruyor. Tüm bunlar tek bir temel modelde gerçekleşiyor.

Son sözler, halüsinasyonlar ve üst düzey muhakeme

Google Gemini AI gerçekten etkileyici, bunu kabul etmek gerekiyor. Ancak yapay zekanın temel sorunu halen çözülebilmiş değil: Halüsinasyonlar ve üst düzey muhakeme.

Google’ın yayınladığı 60 sayfalık teknik raporun sonuçlar kısmında şu ifadelere yer veriliyor:

“Etkileyici yeteneklerine rağmen, LLM'lerin kullanımında sınırlamalar olduğunu belirtmeliyiz. Model çıktılarının daha güvenilir ve doğrulanabilir olmasını sağlamak için LLM'ler tarafından üretilen "halüsinasyonlar" üzerinde devam eden araştırma ve geliştirmeye ihtiyaç duyulmaya devam ediyor. LLM'ler ayrıca sınav ölçütlerinde etkileyici performans göstermelerine rağmen nedensel anlama, mantıksal çıkarım ve karşı olgusal akıl yürütme gibi üst düzey akıl yürütme becerileri gerektiren görevlerde zorlanmaktadır.”

Yapay zekanın potansiyel olarak tehlikeli bir hızla geliştiğine dair artan söylentiler işleri pek de yavaşlatmıyor. OpenAI'ın ChatGPT'yi piyasaya sürerek yapay zeka teknolojisi geliştirme yarışını tetiklemesinden bir yıl sonra, Google tekrardan lider konuma yükselmek için devam adımlar arıyor.

Metin, resim ve video ile çalışabilen yeni bir yapay zeka modeli olan Gemini, arama motorunu halkın zihnine yerleştiren ve kurumsal bir dev yaratan PageRank'ten sonra Google'ın tarihindeki en önemli algoritma olabilir.

Gemini, bu üretken yapay zeka dalgasının zirvesi olabilir. Ancak büyük dil modelleri üzerine inşa edilen yapay zekanın bundan sonra nereye gideceği henüz belli değil. Bazı araştırmacılar bunun bir sonraki zirveden ziyade bir plato olabileceğine inanıyor.

CEO Pichai’ye göre ise yolun başındayız; “Bu modellere daha fazla akıl yürütmeyi öğrettikçe, daha büyük ve daha büyük atılımlar olacak. Daha derin atılımlar henüz gelmedi. Tüm bunları göz önüne aldığımda, gerçekten de daha işin başında olduğumuzu hissediyorum.”

Haberi DH'de Gör Yorumlar ve Diğer Detaylar