Çinli ByteDance, yapay zeka ile video üretiminde devrim yapıyor: İşte inanılmaz örnekler

Çinli teknoloji şirketlerinin yapay zeka atılımı sürüyor. TikTok’un sahibi olan Çinli dev şirket ByteDance, OmniHuman modeliyle yapay zeka ile video oluşturmaya boyut atlatıyor.

Gerçekçiliği zirveye taşıyan yapay zeka
Yorumlar

Yapay Zeka

Metin Akpınar

Teknoloji Editörü

Bildirimi Aç Bildirim Açık

Çinli ByteDance, yapay zeka ile video üretiminde devrim yapıyor — Teknoloji devi **Bytedance**, insan animasyonu alanında çığır açan yeni yapay zeka modelini tanıttı: **OmniHuman-1**. Bu yenilikçi sistem, yalnızca **tek bir görüntü ve hareket sinyali** (ses, video veya her ikisi birden) kullanarak son derece gerçekçi insan videoları oluşturabiliyor.

Yapay zeka teknolojilerinin son dönemlerde gösterdiği gelişim artık akılalmaz bir boyutta. Yeni bilimsel keşiflerin yanı sıra üretken modellerin artık son derece gerçekçi videolar da üretmesiyle dünya, farklı bir yola doğru gidiyor. Bu araçların kullanım potansiyeli açık olmak gerekirse sınırsız. En azından ByteDance’in OmniHuman-1 modeli buna işaret ediyor.

Gerçekçiliği zirveye taşıyan yapay zeka

OmniHuman, hareket ve görsel detayların doğallığını artırmak için çok modlu hareket koşullandırma (multimodal motion conditioning) stratejisini benimsiyor. Bu yaklaşım, daha önce yüksek kaliteli veri eksikliği nedeniyle karşılaşılan zorlukları aşarak, gerçeğe yakın insan hareketleri üretebilen bir sistem sunuyor.

OmniHuman, başta ses olmak üzere zayıf sinyal girdilerine dayalı olarak son derece gerçekçi insan videoları üreterek mevcut yöntemlerden önemli ölçüde daha iyi performans gösteriyor. Portre, yarım vücut veya tam vücut görüntüleri olsun, her en boy oranındaki görüntü girişlerini destekleyerek çeşitli senaryolarda daha gerçekçi ve yüksek kaliteli sonuçlar sunuyor.

OmniHuman, özellikle şarkı söyleme ve konuşma gibi senaryolarda rakipsiz bir performans sergiliyor. Farklı müzik türlerine uygun jestler ve vücut hareketleri üretebilirken, yüksek perdeli şarkılar ve kompleks mimiklerle gerçeğe yakın sonuçlar sunuyor. Hemen üstteki ve bir alttaki videoda Nvidia CEO'su Jensen Huang ve Taylor Swift'in Çince ve Japonca dilinde şarkı söylemelerini izleyebilirsiniz.

OmniHuman sadece insan görüntüleriyle sınırlı değil. Animasyon karakterleri, yapay nesneler ve hatta hayvanlar için bile gerçeğe yakın hareket animasyonları oluşturabiliyor. Özellikle karmaşık pozlar ve detaylı el hareketleri gibi mevcut sistemlerin zorlandığı konularda başarılı sonuçlar elde ediliyor. Model, video hareketlerini de kopyalayarak belirli bir vücut bölgesini veya genel vücut hareketlerini taklit edebiliyor. Bu özellik, sanal avatarlar ve dijital insan projelerinde yeni kapılar açabilir. Çeşitli örnekleri bir araya getirdiğim videoyu hemen aşağıdan izleyebilirsiniz.