Robotlar, zincirleme görevlerde ustalaşıyor
1X, güvenli, akıllı androidler aracılığıyla fiziksel işgücü sağlamayı isterken attığı adımlar da bu amaca hizmet ediyor. Şirket tarafından yayınlanan yeni videoda insansı robot Eve'in otonom görevleri arka arkaya tamamlama yeteneği gösteriliyor. Ancak şirket bunun henüz yolculuğun başı olduğuna da dikkat çekiyor.
Firma daha önce birçok görevi tek bir hedef koşullu sinir ağında birleştirebilen otonom bir model geliştirmişti. Ancak, çoklu görev modelleri küçük olduğunda (<100M parametre), bir görevin davranışını düzeltmek için veri eklemek genellikle diğer görevlerdeki davranışları olumsuz etkiliyordu. Bunun için ilk çözüm olarak akıllara parametre sayısını artırmak geliyor olsa da bu sefer de eğitim daha uzun sürüyor ve robot davranışını iyileştirmek için hangi göstergelerin toplanması gerektiğini geciktiriyor.
Peki, Tek bir sinir ağıyla birçok görevi yerine getirebilen genel bir robot oluştururken veriler üzerinde nasıl hızlı bir şekilde yineleme yapabiliriz? 1X’in buna cevabı ise oldukça zekice. Firma, görev performansını hızlı bir şekilde iyileştirme yeteneğini birden fazla yeteneği tek bir sinir ağında birleştirme sürecinden ayırdığını söylüyor. Firma bunu başarmak için, birden fazla küçük modelde kısa vadeli yetenekleri daha uzun olanlara zincirlemek için ses kontrollü bir doğal dil arayüzü oluşturdu.
Tam bu noktada hemen alttaki yeni videoyu izlemenizi tavsiye ediyorum. Bu videoda yetenek zincirlemesini yönlendiren insanlar sayesinde uzun dönemli davranışların gerçekleştirildiği gösteriliyor.
İnsanlar uzun dönemli işleri kolayca yapabilse de, birden fazla otonom robot becerisini bir dizi halinde zincirlemek oldukça zor çünkü sonraki her beceri, bir önceki becerinin sonuçları üzerinde bir genelleme yapılmasını gerektiriyor. Bu durum birbirini takip eden her beceri ile daha da artıyor; yani üçüncü beceri, ikinci becerinin sonuçlarındaki değişkenliği ele almak zorunda ve bu sürekli devam ediyor.
İnsan diktesi yeni veri havuzu oluşturuyor
Tek görev modelleri, gölge modu değerlendirmeleri için sağlam bir temel sunarak ekibin test sırasında yeni bir modelin tahminlerini mevcut referans noktasıyla karşılaştırmasına olanak tanıyor. Hedef koşullu model, tek görev modelinin tahminleriyle iyi bir uyum sağladığında 1X, kullanıcı iş akışını değiştirmeden daha güçlü, birleşik bir modele geçiş yapabileceklerini söylüyor.
Robotları yönlendirmek için bu üst düzey dil arayüzünü kullanmak, veri toplama için de yepyeni bir kapı açıyor. Tek bir robotu kontrol etmek için VR kullanmak yerine, bir operatör birden fazla robotu doğal dil ile yönlendirebilir. Bu yönlendirme seyrek olarak gönderildiği için insanlar robotların yanında olmak zorunda da değil, uzaktan da kontrolü sağlayabilirler.
Bu arada 1X, videodaki robotların insan yönlendirmesine dayalı olarak görev değiştirdiğini, haliyle otonom olunmadığını da söylüyor. Görme ve doğal dil komut çiftlerinden oluşan bir veri kümesi oluşturduktan sonra bir sonraki adım ise üst düzey eylemlerin tahminlerini otomatikleştirmek. 1X, bunların GPT-4o, VILA ve Gemini Vision gibi çok modlu, görebilen dil modelleriyle gerçekleşebileceğini söylüyor.
Haberi DH'de Gör
{{body}}
{{/longBody}} {{^longBody}}{{body}}
{{/longBody}}