Nvidia'dan çığır açan gelişme
Yalnızca birkaç ay önce metinden videoya üretken yapay zekalar "Will Smith'in spagetti yemesi" örneğiyle sadece bir şaka malzemesi olarak görülüyordu. Ancak Nvidia’nın VideoLDM modeli önceki örnekleri unutturacak bir araç olarak karşımıza çıkıyor. Nvidia’nın bu teknolojiyi Cornell Üniversitesi araştırmacılarıyla el ele vererek yarattığını da belirtelim. Basit bir ifadeyle, bu yapay zeka modeli 2048 x 1280 piksele kadar çözünürlüğe, saniyede 24 kare hızına ve metne dayalı olarak 4,7 saniyeye kadar videolar oluşturabiliyor.
Nvidia, geliştirdiği modelinde 4,1 milyar parametre kullanıyor ancak bunların sadece 2,7 milyarı video eğitiminde kullanıldı. Bunun çok büyük bir sayı olduğunu düşünseniz de günümüzün yapay zeka standartlarına göre küçük bir sayı. Nvidia, video oluşturmak için eğitilmiş Latent Diffusion (LDM) modelini kullanıyor. Bu model zamanı izlenen bir boyut olarak algılıyor ve belirli bir süre boyunca bir görüntünün her alanında neyin değişebileceğini tahmin etmeye çalışıyor. Araç, sekans boyunca bir dizi ana kare oluşturuyor, ardından ana kareler arasındaki kareleri enterpole etmek için başka bir LDM kullanıyor.
Elbette VideoLDM şimdiki haliyle herhangi birini kandıracak kalitede videolar üretemiyor. Ancak daha bir veya iki ay önce gördüğümüz örneklere göre gelişimin boyutu çok büyük. Şu anda, Nvidia’nın tanıttığı gibi metinden videoya yapay zekalar GIF'ler oluşturmak için kullanılıyor. Bu nedenle Nvidia’nın daha uzun metinden video klipler oluşturmak için daha gelişmiş teknolojiler getirmesinin uzun sürmeyeceğini tahmin ediyoruz. Firmanın hazırladığı teknoloji 18-22 Haziran tarihleri arasında Vancouver'da düzenlenecek olan Machine Vision and Pattern Recognition Konferansında sunulacak.
Kaynakça https://research.nvidia.com/labs/toronto-ai/VideoLDM/assets/text_to_video/video22.mp4 https://newatlas.com/technology/nvidia-text-to-video-ai/ Bu haberi, mobil uygulamamızı kullanarak indirip,istediğiniz zaman (çevrim dışı bile) okuyabilirsiniz:
Bana çok korkutucu geliyor bunlar.