Kling, Sora’yı unutturdu
OpenAI, Sora’yı bu yılın başında göstermiş olsa da halen genel kullanıma açmış değil. Öte yandan Kuaishou, Kling’i halihazırda piyasaya sürmüş durumda. Dolayısıyla Kling, halkın test etmesi için ücretsiz olarak sunulan ilk metinden videoya üretken yapay zeka modellerinden birisi olarak tarihe geçiyor.
Aktif kullanıcı sayısı 600 milyonu aşan kısa video platformu, yeni aracını bu ayın başlarında duyurdu. Kling, 30 FSP kare hızı ve 1080p'ye kadar video çözünürlüğü ile iki dakikaya kadar uzunlukta videolar üretebiliyor. Bilindiği üzere Sora, 1 dakikalık klipler üretebiliyordu. Kuaishou ve kullanıcılar tarafından yayınlanan Kling örneklerine baktığımızda üretken video modelinin istemlere (prompt) bağlı kaldığını ve fizik konusunda oldukça iyi iş çıkardığını görüyoruz. Kling aynı zamanda bir fotoğrafı girdi olarak kullanarak onu videoya da dönüştürebiliyor.
Kling, en temelinde Sora ile aynı tür difüzyon transformatör modeline dayanıyor ve çeşitli en boy oranları ile farklı çekim türlerini destekleyebiliyor. Yapay zekada kullanılan modelin de şirket içinde tescilli bir model olduğunu söyleyelim. Şirketin web sitesinde göre Kling, uzuv hareketini iyileştirmek için gelişmiş 3D yüz ve vücut yapılandırma yeteneğine sahip. Zaten fiziksel doğruluk da buradan geliyor.
Kling’in örneklerine yakından baktığımızda ise etkileyici fotogerçekçi sahneler sunabildiğini ancak diğer yapay zeka videolarında gördüğümüz benzer bulanıklıkların da var olduğunu görebiliyoruz. Papağan videosu gibi bazı örneklerde videonun yapay zeka tarafından üretildiğini tespit etmek ilgili gözler için bile zor olabiliyor. Bu da modelin gücünü gözler önüne seriyor.
Kling’in bir diğer önemli gücü de sıvılarla olan ilişkisi. Sora, Runway ve diğerleri sıvılar konusunda zorlanabiliyor. Kling’in ise tutarlı bir şekilde bir bardak kahveye süt dökebiliyor. Kling ve diğer benzer yapay zekaların çalışmaları dediğimiz gibi oldukça benzer: Geleneksel olarak video oluşturma yapay zekalarında kullanılan difüzyon modellerini, daha büyük video veri dosyalarını anlamasına ve daha verimli sonuçlar üretmesine yardımcı olan bir transformatör mimarisiyle birleştiriyor.
Ancak Kling’in en büyük gücü ise bu veriler üzerindeki hakimiyeti. Firma Çin’in en büyük kısa video platformlarından birisi ve kullanıcılar platforma milyonlarca video yüklüyor. Tüm bunlara rağmen Kling, şimdilik en azından halka açık sürümünde sadece birkaç saniyelik çıktılar üretiyor. Sora’nın da birçok örnekte kısa videolar yaptığını da söyleyelim. Bu aslında halüsinasyon sorununu azaltmaya yönelik bir adım. Video süresi ne kadar uzarsa modelin daha fazla olasılığı tahmin etmesi ve haliyle hatalara daha açık olması beklenir.
Rekabet artıyor
Şimdilik piyasada bulunan metinden videoya yapay zekalar genellikle birkaç saniyelik videolar üretebiliyor. Ancak bu birkaç saniyelik (5-20sn) videoların bile sektörde büyük değişiklikler yapması bekleniyor. Günümüz sosyal medya mecralarında insanlar dikey formatta genellikle birkaç saniyelik videolar izleyip kaydırmaya devam ediyor. Yapay zekalar tarafından üretilen kısa ama etkileyici videolar bu tüketime uyuyor. Ayrıca reklam noktasında da kullanılabilirler.
Ancak önümüzdeki dönemlerde bu araçlar içerik üreticilerini destekleyen üretkenlik araçları olarak kalacak. İlerleyen zamanlarda ise bu araçların video kliplerinde ve hatta sinema dünyasında kullanıldığını göreceğiz.
Sora için söyleyecek yeni bir şey yok ancak başlıca rakibi Runway, Gen-3 Alpha ile video üretken yapay zekasında büyük geliştirmeler yaptı. Artık ince kontroller, daha fazla tutarlılık ve kalite sunuyor.
Adını daha önce duymadığımız Luma AI adlı bir girişim de benzer bir modeli genel kullanım için yayınlamış durumda ve o da etkileyici görünüyor. Kuaishou'nun en büyük rakibi olan ByteDance'ın da yakında üretken video aracını piyasaya süreceği söyleniyor. ByteDance bilindiği üzere TikTok’un sahibi konumunda. Dolayısıyla üretken yapay zeka ile video üretme alanındaki rekabet hızla artıyor.
Kling vs Sora vs Runway vs Luma
Kling, Sora, Runway ve Luma’dan bahsetmişken bunların kıyaslamalarını yapmamak da olmaz. Aşağıdaki GIF’ler aracılığıyla modeller arasındaki farkları görebilirsiniz. Bazıları aynı sahne ve prompttaki performansı doğrudan gösterirken bazıları ise genel kaliteyi sunuyor.
Runway Gen 3
Runway Gen 3
Luma AI
Luma AI
Haberi DH'de Gör
{{body}}
{{/longBody}} {{^longBody}}{{body}}
{{/longBody}}