Derinlemesine: GPT-4o hakkında merak edilen her şey ve daha fazlası

ChatGPT ve Sora ile ses getiren OpenAI, ses, görüntü ve metin arasında gerçek zamanlı olarak mantık yürütebilen yeni amiral gemisi yapay zeka modeli GPT-4o'yu resmen duyurdu.

OpenAI GPT-4o nedir, ne yapar?
Gelişmiş metin, ses ve görüntü muhakemesi
İnsan düzeyinde sesli yanıt
Her şey için tek model
Görüntü analizi ve cepte taşınan bir tercüman
GPT-4o’nun kullanılabilirliği
Filmlerin gerçekle buluşması
GPT-4o ile yapılan örnekler
Yorumlar

Metin Akpınar

Teknoloji Editörü

ChatGPT ve Dall-E ile başlayan serüven Sora ile devam ederek büyüme devam ediyor. Bu yapay zeka araçlarının arkasında olan OpenAI ise araçlarına güç veren modellerini sürekli olarak geliştirmeyi sürdürüyor. Bu bağlamda yapay zeka devi kısa süre önce ses, görüntü ve metin arasında gerçek zamanlı olarak mantık yürütebilen yeni amiral gemisi GPT-4o'yu resmen duyurdu. GPT-4o’nun ne olduğunu, bu modelin neler yapabileceği, yeteneklerini ve çok daha fazlasına değiniyoruz:

OpenAI GPT-4o nedir, ne yapar?

GPT-4 seviyesinde zeka deneyimi
Hem modelden hem de internetten yanıtlar alabilme
Verileri analizi ve grafik oluşturabilme
Çektiğiniz fotoğraflar hakkında sohbet edebilme
Video aracılığıyla sohbet edebilme
Gerçek zamanlı çeviri
İnsan benzeri ses, tonlama, mimiklendirme
Özetleme, yazma veya analiz yardımı için dosya yükleme
GPT Store erişimi ve GPT’leri kullanma
Memory (Önceki konuşulanları hatırlama) ile daha derin iletişim kurabilme

OpenAI’a göre GPT-4o, çok daha doğal insan-bilgisayar etkileşimine doğru atılmış bir adımdır; metin, ses ve görüntünün herhangi bir kombinasyonunu girdi olarak kabul bu model aynı şekilde metin, ses ve görüntü çıktılarının herhangi bir kombinasyonunu üretebiliyor. Bu arada isimlendirmedeki “o” harfi "omni" anlamına geliyor ve modelin metin, konuşma ve videoyu işleme yeteneğine atıfta bulunuyor.

Gelişmiş metin, ses ve görüntü muhakemesi

OpenAI GPT-4o hakkında merak edilen her şey ve daha fazlası — Temel anlamda GPT-4o, "GPT-4 düzeyinde" zeka sağlıyor ancak GPT-4'ün **birden fazla modalite** ve ortamdaki yeteneklerini geliştirmeyi amaçlıyor. Hatırlanacağı üzere GPT-4 Turbo, görüntü ve metin kombinasyonuyla eğitilmişti ve görüntülerden metin çıktısı üretmek ve bu görüntülerin içeriğini tanımlamak gibi görevleri yerine getirebiliyordu. GPT-4o ise **sürece konuşmayı da ekliyor**.

İnsan düzeyinde sesli yanıt

OpenAI, modelin "gerçek zamanlı" yanıt verme özelliği sunduğunu ve hatta kullanıcının sesindeki nüansları algılayarak "bir dizi farklı duygusal tarzda" (şarkı söylemek dahil) sesler üretebildiğini söylüyor. Teknik olarak firma, ses girdilerine 232 milisaniye gibi kısa bir sürede yanıt verebilir. Tek başına bu süre bir şey ifade etmiyor, o yüzden; bu, bir insanın ortalama yanıt süresiyle eş.

Her şey için tek model

GPT-4o ile metin, görüntü ve seste uçtan uca tek model kullanılıyor, yani tüm girdiler ve çıktılar aynı sinir ağı tarafından işleniyor. Bu firma için de bir ilk zira daha öncekiler tüm bu modaliteleri birleştiremiyordu. Tüm bu gelişmeye rağmen OpenAI, modelin neler yapabileceğini ve sınırlarını keşfetme konusunda henüz başlangıç aşamasında olduklarını söylüyor.

Görüntü analizi ve cepte taşınan bir tercüman

GPT-4o ayrıca ChatGPT'nin görme yeteneklerini de geliştiriyor. Bir fotoğraf - ya da bir masaüstü ekranı - verildiğinde ChatGPT artık en detay sorulara (örneğin, “bu kişinin giydiği gömleğin markası ne?” gibi) hızlı yanıtlar verebiliyor. OpenAI CTO'su Mira Murati, bu özelliklerin gelecekte daha da gelişeceğini söylüyor.

An itibariyle GPT-4o farklı bir dildeki bir menünün resmine bakıp onu tercüme edebilirken, gelecekte bu model ChatGPT'nin örneğin canlı bir spor karşılaşmasını izleyip size kuralları açıklamasına olanak tanıyabilecek. Yani yanınızda bir nevi tercüman taşıyormuş gibi olacaksınız. Zira çeviriler, yukarıda da dediğimiz gibi anlık olarak gerçekleşiyor.

OpenAI, GPT-4o'nun daha çok dilli olduğunu ve 50 farklı dilde performansının arttığını da ekliyor. Şirket, OpenAI'ın API'sinde GPT-4o'nun GPT-4'ten (özellikle GPT-4 Turbo) iki kat daha hızlı, yarı fiyatına ve daha yüksek hız limitlerine sahip olduğunun altını çiziyor.

Ses şu anda tüm müşteriler için GPT-4o API'sinin bir parçası değil. OpenAI, kötüye kullanım riskini gerekçe göstererek, GPT-4o'nun yeni ses yeteneklerini önümüzdeki haftalarda bazı ortaklara sunmayı planladığını söylüyor.

Geleneksel ölçütlere göre GPT-4o, metin, akıl yürütme ve kodlama zekasında GPT-4 Turbo düzeyinde performans gösterirken çok dilli, ses ve görüntü yeteneklerinde yeni yüksek puanlara erişiyor. Akıl yürütme performansında ise yeni bir barem (%88,7) belirliyor.

GPT-4o’nun kullanılabilirliği

OpenAI, GPT-4o’yu derin öğrenmenin sınırlarını bu kez pratik kullanılabilirlik yönünde zorlamak için atılan bir adım olarak görüyor ve aynı zamanda GPT-4o'nun yeteneklerinin yinelemeli olarak kullanıma sunulacağını söylüyor.

GPT-4o'nun metin ve görüntü özellikleri bugün ChatGPT'de kullanıma sunulmaya başlanıyor. GPT-4o'yu ücretsiz katmanda ve Plus kullanıcıları için ise 5 kata kadar daha yüksek mesaj limitleriyle kullanıma sunuluyor. Önümüzdeki haftalarda OpenaI, ChatGPT Plus'ta GPT-4o ile Ses Modu'nun yeni bir sürümünü alfa olarak kullanıma alacak.

Geliştiriciler de artık GPT-4o'ya API'de bir metin ve görüntü modeli olarak da erişebilirler. GPT-4o, GPT-4 Turbo'ya kıyasla 2 kat daha hızlı, yarı fiyatına ve 5 kat daha yüksek hız limitlerine sahip. GPT-4o'nun yeni ses ve video özelliklerine yönelik desteği önümüzdeki haftalarda API'deki küçük bir gruba sunulacak.

Filmlerin gerçekle buluşması

CEO Sam Altman, yaptığı açıklamada vurgulamak istediği ilk şeyin insanlara yetenekli yapay zeka araçlarını ücretsiz olarak sunmak olduğunu belirtti. Altman, istedikleri şeyin bir yapay zeka oluşturmak ve bunu insanların kullanımına sunarak onların yaratacakları şeyleri izlemek olduğunu aktarıyor. Bunu yaparken de ücretsiz kalınacağını söylüyor. Ancak yine de kendilerinin bir işletme olduğunu ve süreç içerisinde (ve mevcut durumda) ücretlendirilecek çok şeyin olacağının altını çiziyor.

Altman, yeni GPT-4o hakkında ise şimdiye kadar kullandığı iyi bilgisayar arayüzü olduğunu söylüyor. CEO, modellerinin filmlerdeki yapay zeka gibi hissettirdiğini ve bunun gerçekten yaşanıyor oluşunun şaşırtıcı olduğunu söylüyor. Altman’ın atıf yaptığı filmin “Her” olduğunu düşünüyorum.

GPT-4o ile yapılan örnekler

Teknik detaylar ve genel bilgilerden sonra şimdi de OpenAI’ın GPT-4o hakkında paylaştığı bazı örnek videolara göz atalım. Zira bu videolar yukarıda yazdıklarımızın tamamını en ideal şekilde sizlere gösteriyor. Örneğin hemen üstteki köpek videosu. Kullanıcı GPT-4o’ya köpeğini göstererek “seni birisiyle tanıştıracağım” diyor. GPT-4o’nun verdiği tepkiler ise bir insandan farksız, tonlamalar , benzetmeler yapıyor ve adını soruyor. Adını öğrendikten sonra ise ona adıyla seslenmeye devam ediyor.

Hemen üstteki bir diğer örnekte ise etkileşim kuran ve şarkı söyleyen iki GPT-4o’yu görüyoruz. Bunlardan birisi kamera aracılığıyla görebiliyor diyesi ise göremiyor. Görme yeteneğine sahip olan ise diğerine çevreyi yardımsever bir şekilde açıklayarak tanıtıyor. Ve evet, birlikte şarkı da söylüyorlar.

Bu, görme engelli bireyler için harika bir kullanım örneği olabilir gibi duruyor değil mi? Zaten OpenAI da bunu o amaçla kullanıyor. Firma, Be My Eyes girişimi ile bu konuda yakından çalışıyor.

GPT-4o ile gerçek zamanlı çeviri de artık bir “gerçeklik” haline geliyor. Yukarıdaki örnekte İngilizce-İspanyolca ve İspanyolca-İngilizce şeklinde anlık olarak doğal bir dilde ve insan gibi çeviri yaptığını görüyoruz.

Bir diğer örnekte ise GPT-4o ile ninniler ve fısıltıların nasıl işlediğini görüyoruz. Kullanıcı bir patates hakkında ninni anlatmasını istiyor, ardından bunu fısıltı tonuyla aktarmasını söylüyor. Hatta GPT-4o, anlatımında aşırı fısıltıya kaçtığında ise ona biraz daha yüksek tona çıkmasını söylüyor. Elbette tüm bunlar olurken verilen yanıtlar ve gülümseme ifadeleri de kullanıcıya aktarılıyor.

Evet, şaşırtıcı olmayacak şekilde GPT-4o aynı zamanda süper alaycı da olabiliyor.

Kaynakça https://openai.com/index/gpt-4o-and-more-tools-to-chatgpt-free/ https://openai.com/index/hello-gpt-4o/ https://blog.samaltman.com/gpt-4o

Yorum Yaz Paylaş Tweetle

Bu haberi, mobil uygulamamızı kullanarak indirip,
istediğiniz zaman (çevrim dışı bile) okuyabilirsiniz:

Daha Fazla Video

donanimhabercom Instagram Takip Et

Dünyanın en büyük otomobil taşıma gemisi ilk seferine çıkıyor

Haftanın Beğenilen Yorumcuları

Riazor +98 BursaliEfsane +81 halocanaydin +77 MilesTeg +73 PikaTak +60 Mr. Jingles +54 R0llingMan +51 gun +47 dJ_bLoW +46 emr12 +43 DaRK_KniGHT_ +42 ry4n +40 alaz1903 +39 TheCraxy +37 the flying dutchman +37 musyun +33 DreamSs +33 aksinaletinsan +32 Vain +29 Şıh Hazretleri +28 adnansetek +27 Seto-Kaiba +25 mystiery_ +23 porsche911gt2 +23 circassianman +22

Önceki Haftalar

1 typhoone ilk kez +137 2 buradan bir taytlı geçti 3. kez +77 3 gcb1903 2. kez +66

Tüm Zamanların En İyi Yorumcuları

ANLIK GÖRÜNTÜLEMELER
3 Kişi Okuyor (0 Üye, 3 Misafir) 3 Masaüstü GENEL İSTATİSTİKLER
17534 kez okundu.
25 kişi, toplam 25 yorum yazdı.

HABERİN ETİKETLERİ
OpenAI, chatgpt ve

3 etiket daha GPT-4o Teknoloji Haberleri Yazılım

Facebook Sayfası243,2b

Twitter Profili113,6b

Instagram Sayfası50,2b

YouTube Kanalı359b

TikTok Sayfası2,9b

RSS Yayını

Mobil Uygulamamızı İndirin Tanıtım

Forumdan Konular

Editörün Seçtiği Sıcak Fırsatlar

{{Title}}

{{Description}}
{{Price}} {{PriceUnit}} {{DiscountInformation}}

Sıcak Fırsatlar Forumunda Tıklananlar

adidas RUNFALCON 5 J Spor AyakkabıUnisex Yetişkin : Amazon.com.tr: Moda

https://www.amazon.com.tr/dp/B0CKXTB9WX
PUMA Transport Koşu AyakkabısıUnisex Yetişkin : Amazon.com.tr: Moda

https://www.amazon.com.tr/gp/product/B0CM1HG1ZR
adidas DURAMO Mickey EL K Spor AyakkabıUnisex Yetişkin : Amazon.com.tr: Moda

https://www.amazon.com.tr/dp/B0D8K2CXZJ
Tık Hızı Kupon Kampanyası - n11

https://www.n11.com/kampanyalar/tik-hizinda-indirim
https://www.ciceksepeti.com/logitech-g502-x-plus-910-006163-siyah-lightspeed-hero-sarjli-optik-kablosuz-oyun-kcm22523921

https://www.ciceksepeti.com/logitech-g502-x-plus-910-006163-siyah-lightspeed-hero-sarjli-optik-kablosuz-oyun-kcm22523921
VIEWSONIC VX2758A-2K-PRO-3 27&#39&#39 1Ms 240Hz IPS GAMING MONITOR - Vatan Bilgisayar

https://www.vatanbilgisayar.com/viewsonic-vx2758a-2k-pro-3-27-1ms-240hz-ips-gaming-monitor.html

Tavsiyelerimiz

Telefon Tavsiyesi Tümü

50.000 TL Üstündeki Telefonlar

Apple iPhone 15 Pro Max

Bu Telefonu Satın Al

Notebook Tavsiyesi Tümü

20.000-30.000 TL Arası Laptoplar

HP Victus 15-FB2028NT

Bu Notebook'u Satın Al

Sistem Tavsiyesi Tümü

Orta Seviye Sistem

Bu Sistemi Satın Al