ChatGPT ve Dall-E ile başlayan serüven Sora ile devam ederek büyüme devam ediyor. Bu yapay zeka araçlarının arkasında olan OpenAI ise araçlarına güç veren modellerini sürekli olarak geliştirmeyi sürdürüyor. Bu bağlamda yapay zeka devi kısa süre önce ses, görüntü ve metin arasında gerçek zamanlı olarak mantık yürütebilen yeni amiral gemisi GPT-4o'yu resmen duyurdu. GPT-4o’nun ne olduğunu, bu modelin neler yapabileceği, yeteneklerini ve çok daha fazlasına değiniyoruz:
OpenAI GPT-4o nedir, ne yapar?
- GPT-4 seviyesinde zeka deneyimi
- Hem modelden hem de internetten yanıtlar alabilme
- Verileri analizi ve grafik oluşturabilme
- Çektiğiniz fotoğraflar hakkında sohbet edebilme
- Video aracılığıyla sohbet edebilme
- Gerçek zamanlı çeviri
- İnsan benzeri ses, tonlama, mimiklendirme
- Özetleme, yazma veya analiz yardımı için dosya yükleme
- GPT Store erişimi ve GPT’leri kullanma
- Memory (Önceki konuşulanları hatırlama) ile daha derin iletişim kurabilme
OpenAI’a göre GPT-4o, çok daha doğal insan-bilgisayar etkileşimine doğru atılmış bir adımdır; metin, ses ve görüntünün herhangi bir kombinasyonunu girdi olarak kabul bu model aynı şekilde metin, ses ve görüntü çıktılarının herhangi bir kombinasyonunu üretebiliyor. Bu arada isimlendirmedeki “o” harfi "omni" anlamına geliyor ve modelin metin, konuşma ve videoyu işleme yeteneğine atıfta bulunuyor.
Gelişmiş metin, ses ve görüntü muhakemesi
İnsan düzeyinde sesli yanıt
OpenAI, modelin "gerçek zamanlı" yanıt verme özelliği sunduğunu ve hatta kullanıcının sesindeki nüansları algılayarak "bir dizi farklı duygusal tarzda" (şarkı söylemek dahil) sesler üretebildiğini söylüyor. Teknik olarak firma, ses girdilerine 232 milisaniye gibi kısa bir sürede yanıt verebilir. Tek başına bu süre bir şey ifade etmiyor, o yüzden; bu, bir insanın ortalama yanıt süresiyle eş.
Her şey için tek model
GPT-4o ile metin, görüntü ve seste uçtan uca tek model kullanılıyor, yani tüm girdiler ve çıktılar aynı sinir ağı tarafından işleniyor. Bu firma için de bir ilk zira daha öncekiler tüm bu modaliteleri birleştiremiyordu. Tüm bu gelişmeye rağmen OpenAI, modelin neler yapabileceğini ve sınırlarını keşfetme konusunda henüz başlangıç aşamasında olduklarını söylüyor.
Görüntü analizi ve cepte taşınan bir tercüman
GPT-4o ayrıca ChatGPT'nin görme yeteneklerini de geliştiriyor. Bir fotoğraf - ya da bir masaüstü ekranı - verildiğinde ChatGPT artık en detay sorulara (örneğin, “bu kişinin giydiği gömleğin markası ne?” gibi) hızlı yanıtlar verebiliyor. OpenAI CTO'su Mira Murati, bu özelliklerin gelecekte daha da gelişeceğini söylüyor.
An itibariyle GPT-4o farklı bir dildeki bir menünün resmine bakıp onu tercüme edebilirken, gelecekte bu model ChatGPT'nin örneğin canlı bir spor karşılaşmasını izleyip size kuralları açıklamasına olanak tanıyabilecek. Yani yanınızda bir nevi tercüman taşıyormuş gibi olacaksınız. Zira çeviriler, yukarıda da dediğimiz gibi anlık olarak gerçekleşiyor.
OpenAI, GPT-4o'nun daha çok dilli olduğunu ve 50 farklı dilde performansının arttığını da ekliyor. Şirket, OpenAI'ın API'sinde GPT-4o'nun GPT-4'ten (özellikle GPT-4 Turbo) iki kat daha hızlı, yarı fiyatına ve daha yüksek hız limitlerine sahip olduğunun altını çiziyor.
Ses şu anda tüm müşteriler için GPT-4o API'sinin bir parçası değil. OpenAI, kötüye kullanım riskini gerekçe göstererek, GPT-4o'nun yeni ses yeteneklerini önümüzdeki haftalarda bazı ortaklara sunmayı planladığını söylüyor.
Geleneksel ölçütlere göre GPT-4o, metin, akıl yürütme ve kodlama zekasında GPT-4 Turbo düzeyinde performans gösterirken çok dilli, ses ve görüntü yeteneklerinde yeni yüksek puanlara erişiyor. Akıl yürütme performansında ise yeni bir barem (%88,7) belirliyor.
GPT-4o’nun kullanılabilirliği
OpenAI, GPT-4o’yu derin öğrenmenin sınırlarını bu kez pratik kullanılabilirlik yönünde zorlamak için atılan bir adım olarak görüyor ve aynı zamanda GPT-4o'nun yeteneklerinin yinelemeli olarak kullanıma sunulacağını söylüyor.
GPT-4o'nun metin ve görüntü özellikleri bugün ChatGPT'de kullanıma sunulmaya başlanıyor. GPT-4o'yu ücretsiz katmanda ve Plus kullanıcıları için ise 5 kata kadar daha yüksek mesaj limitleriyle kullanıma sunuluyor. Önümüzdeki haftalarda OpenaI, ChatGPT Plus'ta GPT-4o ile Ses Modu'nun yeni bir sürümünü alfa olarak kullanıma alacak.
Geliştiriciler de artık GPT-4o'ya API'de bir metin ve görüntü modeli olarak da erişebilirler. GPT-4o, GPT-4 Turbo'ya kıyasla 2 kat daha hızlı, yarı fiyatına ve 5 kat daha yüksek hız limitlerine sahip. GPT-4o'nun yeni ses ve video özelliklerine yönelik desteği önümüzdeki haftalarda API'deki küçük bir gruba sunulacak.
Filmlerin gerçekle buluşması
CEO Sam Altman, yaptığı açıklamada vurgulamak istediği ilk şeyin insanlara yetenekli yapay zeka araçlarını ücretsiz olarak sunmak olduğunu belirtti. Altman, istedikleri şeyin bir yapay zeka oluşturmak ve bunu insanların kullanımına sunarak onların yaratacakları şeyleri izlemek olduğunu aktarıyor. Bunu yaparken de ücretsiz kalınacağını söylüyor. Ancak yine de kendilerinin bir işletme olduğunu ve süreç içerisinde (ve mevcut durumda) ücretlendirilecek çok şeyin olacağının altını çiziyor.
Altman, yeni GPT-4o hakkında ise şimdiye kadar kullandığı iyi bilgisayar arayüzü olduğunu söylüyor. CEO, modellerinin filmlerdeki yapay zeka gibi hissettirdiğini ve bunun gerçekten yaşanıyor oluşunun şaşırtıcı olduğunu söylüyor. Altman’ın atıf yaptığı filmin “Her” olduğunu düşünüyorum.
GPT-4o ile yapılan örnekler
Teknik detaylar ve genel bilgilerden sonra şimdi de OpenAI’ın GPT-4o hakkında paylaştığı bazı örnek videolara göz atalım. Zira bu videolar yukarıda yazdıklarımızın tamamını en ideal şekilde sizlere gösteriyor. Örneğin hemen üstteki köpek videosu. Kullanıcı GPT-4o’ya köpeğini göstererek “seni birisiyle tanıştıracağım” diyor. GPT-4o’nun verdiği tepkiler ise bir insandan farksız, tonlamalar , benzetmeler yapıyor ve adını soruyor. Adını öğrendikten sonra ise ona adıyla seslenmeye devam ediyor.
Hemen üstteki bir diğer örnekte ise etkileşim kuran ve şarkı söyleyen iki GPT-4o’yu görüyoruz. Bunlardan birisi kamera aracılığıyla görebiliyor diyesi ise göremiyor. Görme yeteneğine sahip olan ise diğerine çevreyi yardımsever bir şekilde açıklayarak tanıtıyor. Ve evet, birlikte şarkı da söylüyorlar.
Bu, görme engelli bireyler için harika bir kullanım örneği olabilir gibi duruyor değil mi? Zaten OpenAI da bunu o amaçla kullanıyor. Firma, Be My Eyes girişimi ile bu konuda yakından çalışıyor.
GPT-4o ile gerçek zamanlı çeviri de artık bir “gerçeklik” haline geliyor. Yukarıdaki örnekte İngilizce-İspanyolca ve İspanyolca-İngilizce şeklinde anlık olarak doğal bir dilde ve insan gibi çeviri yaptığını görüyoruz.
Bir diğer örnekte ise GPT-4o ile ninniler ve fısıltıların nasıl işlediğini görüyoruz. Kullanıcı bir patates hakkında ninni anlatmasını istiyor, ardından bunu fısıltı tonuyla aktarmasını söylüyor. Hatta GPT-4o, anlatımında aşırı fısıltıya kaçtığında ise ona biraz daha yüksek tona çıkmasını söylüyor. Elbette tüm bunlar olurken verilen yanıtlar ve gülümseme ifadeleri de kullanıcıya aktarılıyor.
Evet, şaşırtıcı olmayacak şekilde GPT-4o aynı zamanda süper alaycı da olabiliyor.
(Güncellendi: )
Haberi DH'de Gör
{{body}}
{{/longBody}} {{^longBody}}{{body}}
{{/longBody}}