Yapay zeka video oluşturmada devrimsel gelişme kaydedildi

ChatGPT ile hayatımızda büyük yer kaplamaya başlayan yapay zeka ürünleri artık sadece metinsel ve görsel çıktılar değil doğruda video çıktıları veriyor. Nvidia’nın VideoLDM modeli devrimsel görünüyor.

Nvidia'dan çığır açan gelişme
Yorumlar

Yapay Zeka

Metin Akpınar

Teknoloji Editörü

Bildirimi Aç Bildirim Açık

Nvidia yapay zeka video oluşturmada devrimsel gelişme kaydetti — ChatGPT, DALL-E ve Midjourney artık sadece teknoloji medyasında değil diğer geleneksel haber mecralarında da gündemde yer alıyor. Ancak bir sonraki yapay zeka devrimi metin ve görsel çıktıları üzerinde değil, video çıktıları üzerinde gerçekleşecek. **Nvidia**’nın bir süre önce tanıtımını yaptığı yeni metinden videoya yapay zeka modeli **VideoLDM**, bahsettiğimiz devrimin kapısını aralamışa benziyor.

Nvidia'dan çığır açan gelişme

Yalnızca birkaç ay önce metinden videoya üretken yapay zekalar "Will Smith'in spagetti yemesi" örneğiyle sadece bir şaka malzemesi olarak görülüyordu. Ancak Nvidia’nın VideoLDM modeli önceki örnekleri unutturacak bir araç olarak karşımıza çıkıyor. Nvidia’nın bu teknolojiyi Cornell Üniversitesi araştırmacılarıyla el ele vererek yarattığını da belirtelim. Basit bir ifadeyle, bu yapay zeka modeli 2048 x 1280 piksele kadar çözünürlüğe, saniyede 24 kare hızına ve metne dayalı olarak 4,7 saniyeye kadar videolar oluşturabiliyor.

Nvidia, geliştirdiği modelinde 4,1 milyar parametre kullanıyor ancak bunların sadece 2,7 milyarı video eğitiminde kullanıldı. Bunun çok büyük bir sayı olduğunu düşünseniz de günümüzün yapay zeka standartlarına göre küçük bir sayı. Nvidia, video oluşturmak için eğitilmiş Latent Diffusion (LDM) modelini kullanıyor. Bu model zamanı izlenen bir boyut olarak algılıyor ve belirli bir süre boyunca bir görüntünün her alanında neyin değişebileceğini tahmin etmeye çalışıyor. Araç, sekans boyunca bir dizi ana kare oluşturuyor, ardından ana kareler arasındaki kareleri enterpole etmek için başka bir LDM kullanıyor.

Elbette VideoLDM şimdiki haliyle herhangi birini kandıracak kalitede videolar üretemiyor. Ancak daha bir veya iki ay önce gördüğümüz örneklere göre gelişimin boyutu çok büyük. Şu anda, Nvidia’nın tanıttığı gibi metinden videoya yapay zekalar GIF'ler oluşturmak için kullanılıyor. Bu nedenle Nvidia’nın daha uzun metinden video klipler oluşturmak için daha gelişmiş teknolojiler getirmesinin uzun sürmeyeceğini tahmin ediyoruz. Firmanın hazırladığı teknoloji 18-22 Haziran tarihleri arasında Vancouver'da düzenlenecek olan Machine Vision and Pattern Recognition Konferansında sunulacak.

Kaynakça https://research.nvidia.com/labs/toronto-ai/VideoLDM/assets/text_to_video/video22.mp4 https://newatlas.com/technology/nvidia-text-to-video-ai/