Uygulama ile Aç

ChatGPT’nin insan benzeri gelişmiş ses modu için tarih verildi

OpenAI, geçtiğimiz aylarda tanıttığı GPT-4o ile birlikte sergilediği yeni insan benzeri gelişmiş ses modunun önümüzdeki hafta itibariyle ChatGPT Plus abonelerine sunulacağını söyledi.

OpenAI, ses, görüntü ve metin arasında gerçek zamanlı olarak mantık yürütebilen yeni amiral gemisi yapay zeka modeli GPT-4o'yu geçtiğimiz mayıs ayında duyurmuştu. Firmaya göre yüz ifadelerinizi okuyabilen ve konuşulan dili gerçek zamanlı olarak tercüme edebilen GPT-4o, farklı duygu türlerini taklit edebilecekti. Bunları yapmasını sağlayacak olan gelişmiş, insan benzeri ses özelliği şimdiye kadar piyasaya sürülmedi ancak CEO Sam Altman bunun için beklenen tarihi verdi.

Gelişmiş ses özelliği haftaya geliyor

CEO Sam Altman, X hesabından bir paylaşıma verdiği yanıttı GPT-4o’nun gelişmiş Ses Modu özelliğinin önümüzde hafta itibariyle ChatGPT Plus abonelerine sunulacağını açıkladı. Altman daha fazla detay vermedi, o yüzden tüm Plus abonelerine mi yoksa yine küçük bir kullanıcı kitlesine mi sunulacağı belirsiz. Ancak her halükarda yeni ses modu için daha fazla örnek paylaşımlar göreceğiz ve modelin OpenAI’ın gösterdiği kadar iyi olup olmadığını anlayabileceğiz.

OpenAI, modelin "gerçek zamanlı" yanıt verme özelliği sunduğunu ve hatta kullanıcının sesindeki nüansları algılayarak "bir dizi farklı duygusal tarzda" (şarkı söylemek dahil) sesler üretebildiğini söylüyor. Teknik olarak GPT-4o’nun Ses Modu, ses girdilerine 232 milisaniye gibi kısa bir sürede yanıt verebiliyor. Bu da bir insanın ortalama yanıt süresiyle eşleşiyor.

Ayrıca bkz.

OpenAI, yapay zeka destekli arama motoru SearchGPT'yi duyurdu

GPT-4o'dan önce, ChatGPT ile konuşmak için Ses Modunu ortalama 2,8 saniye (GPT-3,5) ve 5,4 saniye (GPT-4) gecikme süreleriyle kullanılıyor. Bu eski modellerde Ses Modu için aslında üç ayrı modelden oluşan bir süreç kullanılıyordu: basit bir model sesi metne dönüştürüyor, GPT-3.5 veya GPT-4 metni alıyor ve metin çıktısı veriyor ve üçüncü bir basit model bu metni tekrar sese dönüştürüyordu. Ancak GPT-4o ile her şey tek modelde birleşiyor. Ses, metin ve görsel bilgiler tek model tarafından analiz edip çıktıya dönüştürülüyor. Bu da daha hızlı ve yetkin bir modelle sonuçlanıyor.

Sam Altman, bu ses modu için şu cümleleri kullanmıştı: "Yeni ses (ve video) modu şimdiye kadar kullandığım en iyi bilgisayar arayüzü. Filmlerdeki yapay zeka gibi hissettiriyor; ve gerçek olması benim için hala biraz şaşırtıcı. İnsan seviyesinde tepki sürelerine ve ifade gücüne ulaşmak büyük bir değişiklik olacak gibi görünüyor."



Haberi DH'de Gör Yorumlar ve Diğer Detaylar
Whatsapp ile Paylaş

Beğenilen Yorumlar

Tümünü Gör
5 Yorumun Tamamını Gör