Enstrümanın sesini görüntüsünden anlayan yapay zeka: PixelPlayer

Enstrümanın görüntüsünden sese ulaşıyor
Yorumlar

YouTube gibi platformlar özellikle amatör müzisyenler için oldukça önemli bir kaynak. Enstrüman becerilerini geliştirmek isteyen müzisyenler, çaldıkları enstrümanların yer aldığı videolarla pratik yapabiliyor ancak videoların(ve bestelerin) büyük bir kısmında tek bir enstrüman kullanılmadığı için videoda sadece ilgili enstrümana odaklanmak zor olabiliyor. Bu durumda müzisyenlerin bir video üzerinde saatlerce çalışmaları gerekiyor. MIT(Massachusetts Teknoloji Enstitüsü)'nin geliştirdiği yeni yapay zeka ise bu sorunu ortadan kaldırabilir.

Enstrümanın görüntüsünden sese ulaşıyor

MIT'nin Bilgisayar Bilimi ve Yapay Zeka Laboratuvarı(CSAIL) tarafından geliştirilen PixelPlayer isimli yapay zeka videolardaki enstrümanları piksel düzeyinde tanımlayıp bu enstrümanlarla ilişkili sesleri ortaya çıkarabiliyor. Kendi kendini denetleyen derin öğrenme tekniğini kullanan PixelPlayer, 60 saatlik eğitimin ardından 20 farklı enstrümandan gelen sesleri ayırt edebiliyor. Üstelik ön plana çıkarılması istenilen enstrümanın ne olduğunu PixelPlayer'a söylemek gerekmiyor.

CASIL'de doktora öğrencisi Hang Zhao liderliğinde geliştirilen PixelPlayer'ı kullanmak oldukça kolay. Birden fazla enstrümanın çalındığı bir videoda istenilen enstrümanın üzerine tıklayarak PixelPlayer'ın o enstrümanın sesini ön plana çıkarmasını sağlamak mümkün. İlk olarak sesi üreten görüntü ögelerini(enstrümanları) bulan PixelPlayer, onları tanıyıp her bir pikselden gelen sesi videodan ayrıştırabiliyor. Böylece çok sayıda enstrümanın olduğu videolarda bile sadece tek bir enstrümana odaklanmak daha kolay bir hale geliyor.

Tabi PixelPlayer şu aşamada amatör müzisyenler için oldukça faydalı bir araç olarak değerlendirilse de halen birtakım eksikleri var. PixelPlayer 20 farklı enstrümanı tanıyıp seslerini ayrıştırabiliyor olsa da bu enstrümanların alt çeşitlerini (örneğin saksafonun alt çeşidi olan alto saksafonu) tanımakta güçlük çekiyor. Hang Zhao ve ekibi şimdi PixelPlayer'ın enstrüman kütüphanesini genişletip onu daha etkili bir araca dönüştürmek istiyor. Araştırmacılara göre şu anki PixelPlayer'ın çok daha gelişmiş bir versiyonu eski konser görüntülerindeki sesleri iyileştirmek için kullanılabilir. PixelPlayer'ın yeteneklerinin robotların; insanları, hayvanları ve taşıtları ayırt etmesinde kullanılabileceği de belirtiliyor.