Uygulama ile Aç

Microsoft, Phi-3-vision yapay zekasını tanıttı: Boyundan büyük işler yapıyor

Microsoft, mobil platform odaklı çok modlu Phi-3-vision yapay zeka modelini duyurdu. 4,2 milyar parametreli Phi-3-vision, hem metin hem de görsellerle birlikte çalışabiliyor.

Microsoft Build 2024'te küçük, açık modellerden oluşan Phi-3 ailesine yeni modeller eklendi. Yazılım devi, dil ve görme yeteneklerini bir araya getiren çok modlu bir model olan Phi-3-vision modelini de tanıttı. Yapılan açıklamaya göre Phi-3-vision, bugünden itibaren denenebiliyor. Performans tarafında ise Microsoft, rakiplerinden daha iyi olduğunu iddia ediyor.

Microsoft, ChatGPT kadar güçlü küçük AI modeli ailesi Phi-3’ü geçtiğimiz ay tanıtmıştı. Bu bağlamda Phi-3-mini, Phi-3-small ve Phi-3-medium artık Azure’da mevcut durumda. Microsoft’a göre Phi-3 modelleri, mevcut en yetenekli ve uygun maliyetli küçük dil modelleri olma özelliğini taşıyor. Aynı zamanda bunlar çeşitli dil, akıl yürütme, kodlama ve matematik ölçütlerinde aynı boyuttaki ve bir üst boyuttaki modellerden daha iyi performans gösteriyor. En azından firmanın iddiası ve paylaşılan kıyaslamalarla gösterilenler bu.

Phi-3-vision, büyük rakiplerini yeniyor

Microsoft, Phi-3-mini, Phi-3-small ve Phi-3-medium modellerine şimdi de Phi-3-vision modelini ekliyor. Bu model 4.2B parametreye sahip ve dil ile görme yeteneklerini birlikte barındırıyor. Phi-3-vision, metin ile görüntüleri bir araya getirerek gerçek dünya görüntüleri üzerinde mantık yürütme veya görüntülerden metin çıkarıp mantık yürütme becerisi sunuyor. Ayrıca grafikleri ve diyagramları da anlamlandırabiliyor.
Microsoft’a göre 4,2B parametreye sahip Phi-3-vision, genel görsel muhakeme görevleri, OCR, tablo ve grafik anlama görevlerinde Claude-3 Haiku ve Gemini 1.0 Pro V gibi daha büyük modellerden daha iyi performans gösteriyor.

Ayrıca bkz.

Microsoft Team Copilot işinizi kolaylaştırmaya geliyor

Phi-3-vision, anlaşılacağı gibi bir görsel üretim yapmıyor, daha çok bunlardan çıkarım yapıyor. Aynı zamanda ses desteği de yok. Öte yandan Phi-3-vision, dediğimiz gibi küçük bir model (SLM) ve esasında mobil platformlarda kullanılmak için tasarlanmış durumda. Bu tip modeller dizüstü bilgisayarlarda veya telefonlarda yerel olarak çalıştırılabilirler. Elbette profesyonel dünyada da kullanım olasılıkları geniş.



Haberi DH'de Gör Yorumlar ve Diğer Detaylar
Whatsapp ile Paylaş

Beğenilen Yorumlar

Tümünü Gör
1 Yorumun Tamamını Gör