Microsoft VALL-E 2 korkutuyor
Daha önce de metinden konuşmaya (text-to-speech - TTS) yapay zeka araçları görmüştük ancak VALL-E 2, ilk defa karşılaştırma ölçütlerinde insanlarla aynı seviyeye ulaşan türünün tek örneği oluyor. Bu da modelin çok gerçekçi ses taklitleri yapabildiği anlamına geliyor. Microsoft'un VALL-E 2'yi halka açık bir şekilde yayınlamama nedeni de aslında bu. Aşağıdaki bağlantıdan bir örneğe bakabilirsiniz. Ayrıca Microsoft'un kendi sitesindeki örneklere de bakmanızı tavsiye ederiz.
VALL-E 2 ile tek bir ses dosyasıyla yapılan ilk denemede modelin insan seviyesinde performans gösterdiği belirtiliyor. Bununla birlikte VALL-E 2, karmaşıklığı veya tekrar eden ifadeleri nedeniyle geleneksel olarak zor olan cümlelerde bile konuşma sentezini bozmuyor. VALL-E 2 esasında ilk modelin üzerine inşa ediliyor ancak iki önemi geliştirmeyle destekleniyor: "Tekrara Duyarlı Örnekleme" ve "Gruplandırılmış Kod Modelleme".
LibriSpeech ve VCTK veri kümelerini kullanarak test edilen VALL-E 2 için araştırmacılar, konuşma sağlamlığı, doğallık ve konuşma benzerliği açısından önceki TTS sistemlerinin geride bırakıldığını söyledi.
Microsoft, sahip olduğu yeteneklere rağmen potansiyel kötüye kullanım riskleri nedeniyle VALL-E 2'yi halka sunmayacak. Ses klonlama ve deepfake teknolojisinin son derece erişilebilir olduğu düşünüldüğünde bu, yerinde bir karar. OpenAI gibi diğer yapay zeka şirketleri de kendi ses teknolojilerine benzer kısıtlamalar uyguluyor.
Haberi DH'de Gör
{{body}}
{{/longBody}} {{^longBody}}{{body}}
{{/longBody}}