Enstrümanın görüntüsünden sese ulaşıyor
MIT'nin Bilgisayar Bilimi ve Yapay Zeka Laboratuvarı(CSAIL) tarafından geliştirilen PixelPlayer isimli yapay zeka videolardaki enstrümanları piksel düzeyinde tanımlayıp bu enstrümanlarla ilişkili sesleri ortaya çıkarabiliyor. Kendi kendini denetleyen derin öğrenme tekniğini kullanan PixelPlayer, 60 saatlik eğitimin ardından 20 farklı enstrümandan gelen sesleri ayırt edebiliyor. Üstelik ön plana çıkarılması istenilen enstrümanın ne olduğunu PixelPlayer'a söylemek gerekmiyor.
CASIL'de doktora öğrencisi Hang Zhao liderliğinde geliştirilen PixelPlayer'ı kullanmak oldukça kolay. Birden fazla enstrümanın çalındığı bir videoda istenilen enstrümanın üzerine tıklayarak PixelPlayer'ın o enstrümanın sesini ön plana çıkarmasını sağlamak mümkün. İlk olarak sesi üreten görüntü ögelerini(enstrümanları) bulan PixelPlayer, onları tanıyıp her bir pikselden gelen sesi videodan ayrıştırabiliyor. Böylece çok sayıda enstrümanın olduğu videolarda bile sadece tek bir enstrümana odaklanmak daha kolay bir hale geliyor.
Tabi PixelPlayer şu aşamada amatör müzisyenler için oldukça faydalı bir araç olarak değerlendirilse de halen birtakım eksikleri var. PixelPlayer 20 farklı enstrümanı tanıyıp seslerini ayrıştırabiliyor olsa da bu enstrümanların alt çeşitlerini (örneğin saksafonun alt çeşidi olan alto saksafonu) tanımakta güçlük çekiyor. Hang Zhao ve ekibi şimdi PixelPlayer'ın enstrüman kütüphanesini genişletip onu daha etkili bir araca dönüştürmek istiyor. Araştırmacılara göre şu anki PixelPlayer'ın çok daha gelişmiş bir versiyonu eski konser görüntülerindeki sesleri iyileştirmek için kullanılabilir. PixelPlayer'ın yeteneklerinin robotların; insanları, hayvanları ve taşıtları ayırt etmesinde kullanılabileceği de belirtiliyor.
istediğiniz zaman (çevrim dışı bile) okuyabilirsiniz:
Bana çok korkutucu geliyor bunlar.