OpenAI, son derece gerçekçi yeni nesil ses modellerini tanıttı
Yapay zekaların yetenekleri artsa da etkili bir şekilde iletişim kurmak için doğal konuşma dilini kullanmaları bir gereklilik. Bu bağlamda OpenAI, oldukça gerçekçi yeni nesil ses modellerini tanıttı.
Tam Boyutta GörGeçtiğimiz birkaç ayda, Operator, Deep Research ve Computer-Using Agents gibi yeteneklerle metin tabanlı aracılara (veya kullanıcılar adına görevleri bağımsız olarak gerçekleştiren sistemlerin) odaklanan OpenAI, şimdi de yeni nesil ses modellerine el atıyor. Zira firmaya göre yapay zekalar, metnin ötesinde daha sezgisel etkileşimler kurabilmeli; etkili bir şekilde iletişim kurmak için de doğal konuşma dili gerekiyor.
Yeni ses modelleri daha gerçekçi
Tam Boyutta GörOpenAI, yaptığı açıklamada API'sine, şirketin önceki sürümlerini geliştirdiğini iddia ettiği yeni konuşma metni ve ses üreten yapay zeka modelleri getiriyor. OpenAI, yeni metinden konuşmaya modeli gpt-4o-mini-tts’in sadece daha nüanslı ve gerçekçi bir konuşma sunmakla kalmayıp aynı zamanda önceki nesil konuşma sentezleme modellerine göre daha ’yönlendirilebilir” olduğunu iddia ediyor. Geliştiriciler gpt-4o-mini-tts'e doğal dilde bir şeyleri nasıl söyleyeceği konusunda talimat verebiliyor; örneğin, “Ortaçağ şövalyesi gibi konuş” gibi.Tam Boyutta GörÖte yandan, OpenAI'nin yeni konuşmadan metne modelleri gpt-4o-transcribe ve gpt-4o-mini-transcribe, şirketin eskimiş Whisper modelinin yerini alıyor. Bu yeni modeller, "çeşitli ve yüksek kaliteli ses veritabanları" üzerinde eğitildiği için aksanlı ve farklı konuşma biçimlerini daha iyi anlayabiliyor. Ayrıca, Whisper'ın geçmişte yaşadığı hatalar da giderilmiş.
Son olarak, OpenAI, yeni transkripsiyon modellerini açık kaynak olarak sunmama kararı aldı. Geçmişte Whisper'ı açık kaynak olarak yayımlayan şirket, bu kez modellerin çok daha büyük ve karmaşık olduğunu belirterek, yalnızca belirli kullanım ihtiyaçlarına yönelik özelleştirilmiş açık kaynak modelleri sunmayı planlıyor. Bu yeni ses modelleri artık tüm geliştiriciler için API'ler aracılığıyla kullanılabilir durumda.
yine kore'nin yaptığı birşeyi 3-5 sene sonra bizde yapmışız!