Amazon, yeni ses modeli Nova Sonic’i tanıttı

En uygun maliyetli ses modeli
Daha doğru ve daha hızlı
Yorumlar

Metin Akpınar

Teknoloji Editörü

Amazon, yapay zeka alanında önemli bir adım atarak yeni nesil sesli yapay zeka modeli Nova Sonic'i duyurdu. Şirketin yaptığı açıklamaya göre Nova Sonic, doğal konuşmalar üretme ve sesli komutları anlama konusunda OpenAI ve Google gibi devlerin öncü modelleriyle yarışacak düzeyde performans sunuyor.

Nova Sonic, Amazon’un erken dönem dijital asistanı Alexa’dan çok daha esnek ve insan benzeri bir konuşma deneyimi sunuyor. Teknolojik ilerlemeler sayesinde artık Alexa ve Siri gibi eski dijital asistanlar, yeni nesil yapay zeka modelleriyle karşılaştırıldığında oldukça mekanik kalıyor. Nova Sonic ise bu algıyı değiştirmeye hazırlanıyor.

En uygun maliyetli ses modeli

Amazon’un geliştirme platformu Bedrock üzerinden sunulan Nova Sonic, çift yönlü akış destekleyen yeni bir API ile geliştiricilerin kullanımına açıldı. Şirket, Nova Sonic’in piyasadaki en uygun maliyetli yapay zeka ses modeli olduğunu belirtiyor. Amazon’un iddiasına göre bu model, OpenAI’ın GPT-4o modeline kıyasla yaklaşık yüzde 80 daha düşük maliyetle çalışıyor.

Amazon’un AGI biriminin başındaki isim Rohit Prasad, Nova Sonic’in bazı bileşenlerinin hali hazırda Alexa Plus adlı yeni nesil dijital asistanda kullanıldığını belirtti. Prasad’a göre Nova Sonic, özellikle farklı uygulamalara isabetli şekilde yönlendirme yapabilen “büyük orkestrasyon sistemleri” konusunda rakiplerinin önünde.

Bu sistem sayesinde Nova Sonic, kullanıcıdan gelen bir talebin gerçek zamanlı veri mi yoksa özel bir kaynak mı gerektirdiğini ayırt edebiliyor ve doğru API ya da dış uygulamaya yönelerek işlem gerçekleştirebiliyor.

Amazon CEO’su Andy Jassy, Nova Sonic’in yalnızca sesli komutları anlamakla kalmayıp, konuşmanın tonunu, tarzını, akışını, duraklamaları ve araya girilen cümleleri de doğru şekilde algılayabildiğini vurguladı. Jassy, modelin sesli anlayış ve ses üretimini tek ve birleşik bir yapı içinde gerçekleştirdiğini belirtiyor.

Daha doğru ve daha hızlı

Amazon’un verilerine göre Nova Sonic, ses tanıma hataları konusunda rakiplerinden çok daha başarılı. Kullanıcılar mırıldansa, yanlış konuşsa ya da gürültülü bir ortamda bulunsa dahi, modelin doğru anlam çıkarma oranının yüksek olduğu söyleniyor. Örneğin İngilizce, Fransızca, Almanca, İtalyanca ve İspanyolca dillerinde yapılan testlerde, ortalama kelime hata oranı yalnızca yüzde 4,2 olarak ölçülmüş durumda. Çok katılımcılı ve yüksek sesli ortamlarda yapılan testlerde ise, OpenAI’ın GPT-4o transkripsiyon modeline göre yüzde 46,7 daha iyi sonuçlar verdiği ifade ediliyor.

Bu arada firmaya göre Nova Sonic’in ortalama tepki süresi 1,09 saniye ile sektör lideri konumda. Bu da OpenAI’ın gerçek zamanlı API’sinden daha hızlı bir yanıt süresi anlamına geliyor.

Amazon, Nova Sonic’i yalnızca bir sesli model olarak görmüyor. Şirketin AGI stratejisi doğrultusunda bu model, bilgisayar başındaki bir insanın yapabileceği her şeyi gerçekleştirme potansiyeline sahip sistemlerin ilk örneklerinden biri. Prasad, yakın gelecekte görüntü, video ve diğer duyusal verileri anlayabilen çok modlu modellerin de geliştirileceğini açıkladı.

Geçtiğimiz hafta tanıtılan, internet tarayıcısı kullanabilen Nova Act adlı model de bu stratejinin bir parçası. Alexa Plus ve “Buy for Me” gibi yeni nesil özelliklerde bu modellerin rollerini görmeye başladık.