Anlık Bildirim

Daha gelişmişi yok! Meta’nın ImageBind yapay zekası insan algısını taklit ediyor

Meta, geliştirdiği yeni ImageBind yapay zekası ile devrim yapmaya hazırlanıyor. ImageBind modeli metin, ses, görsel, hareket, termal ve derinlik verileri birleştirerek yapay zekada çığır açıyor.
Meta’nın ImageBind yapay zekası insan algısını taklit ediyor Tam Boyutta Gör
Meta, metin, ses, görsel veriler, sıcaklık ve hareketokumaları dahil olmak üzere birden fazla veri akışını birbirine bağlayan yeni açık kaynaklı AI modeli ImageBind’ı duyurdu. Model, bu noktada yalnızca bir araştırma projesi olsa da sunulan örnekler, yapay zekada gelinen noktayı gösteriyor ve ağızları açık bırakıyor. ImageBind, bir kuş fotoğrafından kuş sesi, bir tiren sesinden tren fotoğrafı, veya bir araç motor sesi ve deniz fotoğrafından deniz kenarına park etmiş bir araba fotoğrafı oluşturabiliyor. Bu yapabildikleri ise Meta'nın hedeflediği şeyin sadece görünen kısmı.

Çok modlu ImageBind, “çok” farklı

Meta, insanların bir ortamı nasıl algıladığına veya hayal ettiğine benzer şekilde veriler arasındaki bağlantıları tahmin eden ImageBind adlı bir yapay zeka aracını açık kaynak olarak sundu. Midjourney, Stable Diffusion ve DALL-E 2 gibi görüntü oluşturucular kelimeleri görüntülerle eşleştirerek yalnızca bir metin açıklamasına dayalı görsel sahneler oluşturmanıza olanak tanırken, ImageBind daha geniş bir ağ oluşturuyor. Metin, görüntü / video, ses, 3D ölçümler (derinlik), sıcaklık verileri (termal) ve hareket verilerini (atalet ölçüm birimlerinden) birbiriyle birleştiren ImageBind, bunu her olasılık üzerinde eğitim almak zorunda kalmadan yapıyor.

İnsan algısı taklit ediliyor

Meta’nın ImageBind yapay zekası insan algısını taklit ediyor Tam Boyutta Gör
ImageBind'ı makine öğrenimini insan öğrenmesine yaklaştıran bir araç olarak görebilirsiniz. Örneğin, yoğun bir şehir caddesi gibi uyarıcı bir ortamda duruyorsanız, beyniniz (büyük ölçüde bilinçsizce) geçen arabalar ve yayalar, yüksek binalar, hava durumu ve çok daha fazlası hakkında bilgi çıkarmak için manzaraları, sesleri ve diğer duyusal deneyimleri emer. İnsanlar ve diğer hayvanlar, genetik avantajımız olan hayatta kalmak ve DNA'mızı aktarmak için bu verileri işlemek üzere şekillenmiştir. Bilgisayarlar hayvanların çoklu duyusal bağlantılarını taklit etmeye yaklaştıkça, bu bağlantıları yalnızca sınırlı veri parçalarına dayalı olarak tamamen gerçekmiş gibi üretilmiş sahneler oluşturmak için kullanabilirler.

Fotoğrafı çekmiyor, doğruda o anı oluşturmayı hedefliyor

Meta’nın ImageBind yapay zekası insan algısını taklit ediyor Tam Boyutta Gör
Yani Midjourney'i kullanarak "bir plaj topunun üzerinde dengede dururken Gandalf kıyafeti giyen bir av köpeği" sorusunu sorabilir ve bu tuhaf sahnenin nispeten gerçekçi bir fotoğrafını elde edebilirsiniz, ancak ImageBind gibi çok modlu bir yapay zeka aracı sonunda köpeğin bir videosunu, ayrıntılı bir banliyö oturma odası, odanın sıcaklığı ve köpeğin ve sahnedeki diğer herkesin kesin konumları da dahil olmak üzere ilgili seslerle birlikte oluşturabilir. Kısaca, ImageBind bir anın fotoğrafını çekmiyor, doğruda o anı oluşturmayı hedefliyor.

Hedef VR ve meteverse mi?

Meta, bu yeni oyuncakla nelerin yapılacağına örnekler vermekten kaçınmıyor. Doğrusu Meta açıkça temel hedefini belli etmekten de çekinmiyor: VR, karma gerçeklik ve metaverse. Örneğin, gelecekte tamamen gerçek 3D sahneleri (ses, hareket vb. ile) anında oluşturabilen bir başlık hayal edin. Ya da sanal oyun geliştiricileri, tasarım süreçlerindeki ayak işlerinin çoğunu ortadan kaldırmak için bunu kullanabilirler.

Meta’nın ImageBind yapay zekası insan algısını taklit ediyor Tam Boyutta Gör
Benzer şekilde, içerik oluşturucular sadece metin, görüntü veya ses girdisine dayalı olarak gerçekçi ses manzaraları ve hareket içeren sürükleyici videolar hazırlayabilirler. ImageBind gibi bir aracın erişilebilirlik alanında yeni kapılar açacağını, görme veya işitme engelli kişilerin yakın çevrelerini daha iyi algılamalarına yardımcı olmak için gerçek zamanlı multimedya açıklamaları oluşturacağını hayal etmek de zor değil.

Meta blog yazısında, "Tipik yapay zeka sistemlerinde, her bir modalite için belirli bir gömme (yani, verileri ve makine öğrenimindeki ilişkilerini temsil edebilen sayı vektörleri) vardır. ImageBind, her farklı modalite kombinasyonuna sahip veriler üzerinde eğitim yapmaya gerek kalmadan birden fazla modalite genelinde ortak bir gömme alanı oluşturmanın mümkün olduğunu gösteriyor.” diyor.

Meta, ImageBind’ı bu noktada durdurmak da istemiyor. Evet, model 6 farklı duyuyu veya modu birleştiriyor ancak Meta ilerleyen dönemlerde altı modalitenin yanında dokunma, konuşma, koku ve beyin fMRI sinyalleri gibi mümkün olduğunca çok sayıda duyuyu birbirine bağlayan yeni modaliteler sunmayı da hedefliyor.

Kaynakça https://ai.facebook.com/blog/imagebind-six-modalities-binding-ai/ https://imagebind.metademolab.com/ https://www.engadget.com/metas-open-source-imagebind-ai-aims-to-mimic-human-perception-181500560.html Bu haberi, mobil uygulamamızı kullanarak indirip,
istediğiniz zaman (çevrim dışı bile) okuyabilirsiniz:
DH Android Uygulamasını İndir DH iOS Uygulamasını İndir
Önceki Haftalar
Tüm Zamanların En İyi Yorumcuları
ANLIK GÖRÜNTÜLEMELER
1 Kişi Okuyor (0 Üye, 1 Misafir) 1 Masaüstü

GENEL İSTATİSTİKLER
4003 kez okundu.
7 kişi, toplam 11 yorum yazdı.

HABERİN ETİKETLERİ
meta, ImageBind ve
Sorgu:

Editörün Seçtiği Sıcak Fırsatlar

Sıcak Fırsatlar Forumunda Tıklananlar

Tavsiyelerimiz

Yeni Haber
şimdi
Geri Bildirim