Anlık Bildirim

Çinli şirketten çığır açan başarı: 11 kat az işlem gücüyle yapay zeka modeli eğitti!

Çinli bir yapay zeka girişimi olan DeepSeek, çığır açan bir duyuruda bulunarak, önde gelen yapay zeka şirketlerinin modellerine benzer bir modeli 11 kat düşük hesaplama gücüyle eğittiğini açıkladı.  
Çinli şirket, 11 kat az işlem gücüyle yapay zeka modeli eğitti! Tam Boyutta Gör
Çinli bir yapay zeka girişimi olan DeepSeek, çığır açan bir duyuruda bulunarak, OpenAI, Meta ve Anthropic gibi önde gelen yapay zeka şirketlerinin modellerine benzer bir yapay modelini, 11 kat düşük GPU hesaplama gücüyle eğittiğini açıkladı.  

Deepseek makalesinde, DeepSeek-V3 Mixture-of-Experts (MoE) isimli dil modelini sadeceiki ayda 2.048 Nvidia H800 GPU'sunu içeren bir küme kullanarak 671 milyar parametreyle eğitti, bu da 2,8 milyon GPU saati anlamına geliyor. Karşılaştırma yapmak gerekirse, Meta'nın 54 gün boyunca 16.384 adet H100 GPU içeren bir küme kullanarak 405 milyar parametreli Llama 3'ünü eğitmesi 11 kat daha fazla işlem gücü (30,8 milyon GPU saati) gerektirdi.

Çeşitli optimizasyonlar yapıldı

DeepSeek, gelişmiş iletişim hattı (pipeline) algoritmaları, optimize edilmiş iletişim çerçevesi ve FP8 düşük hassasiyetli hesaplama kullanarak bu ölçekteki modeller için tipik olarak gerekli olan hesaplama ve bellek taleplerini önemli ölçüde azalttığını iddia ediyor.

DeepSeek, DeepSeek-v3'ünün işlem gereksinimlerini azaltmak için onlarca optimizasyon tekniği uygularken, birkaç önemli teknoloji etkileyici sonuçlarını mümkün kıldı.

DeepSeek, hesaplama ve iletişim aşamalarınnda DualPipe algoritmasını kullandığını ve bu nedenle iletim hattındaki verimsizlikleri azalttığını söylüyor. DualPipe algoritması, özellikle MoE mimarisinin gerektirdiği düğümler arası uzman paralelliği için eğitim darboğazlarını en aza indirdi ve bu optimizasyon, kümenin ön eğitim sırasında sıfıra yakın iletişim yüküyle 14,8 trilyon jetonu (token) işlemesine olanak sağladı, 

DeepSeek, DualPipe'ı uygulamaya ek olarak, iletişime dahil olan düğüm sayısını sınırlamak için her jetonu maksimum dört düğümle sınırladı. Bu da trafiği azalttı ve iletişimin ve hesaplamanın etkili bir şekilde örtüşmesini sağladı.

DeepSeek-v3 nasıl performans sergiliyor?

Çinli şirket, 11 kat az işlem gücüyle yapay zeka modeli eğitti! Tam Boyutta Gör
Performansa gelirsek, şirket DeepSeek-v3 MoE dil modelinin kıyaslamaya bağlı olarak GPT-4x, Claude-3.5-Sonnet ve LLlama-3.1 ile karşılaştırılabilir veya daha iyi performansa sahip olduğunu söylüyor. Ancak bu iddiaların üçüncü taraflarca ispatlanması gerekiyor. Şirket modeli ve ağırlıkları açık kaynaklı hale getirdi, bu nedenle yakın zamanda karşılaştırma testleri ortaya çıkacaktır.
Çinli şirket, 11 kat az işlem gücüyle yapay zeka modeli eğitti! Tam Boyutta Gör
DeepSeek-V3, parametre sayısı veya muhakeme yetenekleri açısından GPT-4o veya o3 gibi öncü modellerin gerisinde kalsa da, sonuçlar nispeten sınırlı kaynak kullanarak gelişmiş bir MoE dil modelinin eğitilmesinin mümkün olduğunu gösteriyor. Elbette, bu çok fazla optimizasyon ve düşük seviyeli programlama gerektiriyor, ancak sonuçlar şaşırtıcı derecede iyi görünüyor.

DeepSeek ekibi, DeepSeek-V3 modelinin uygulanmasının, gelişmiş donanımın yanı sıra ön doldurma (prefilling) ve kod çözme aşamalarını ayıran bir dağıtım stratejisi gerektirdiğini ve bunun kaynak eksikliği nedeniyle küçük şirketler için erişilemez olabileceğini kabul ediyor.

Kaynakça https://www.tomshardware.com/tech-industry/artificial-intelligence/chinese-ai-company-says-breakthroughs-enabled-creating-a-leading-edge-ai-model-with-11x-less-compute-deepseeks-optimizations-highlight-limits-of-us-sanctions https://github.com/deepseek-ai/DeepSeek-V3/blob/main/DeepSeek_V3.pdf Bu haberi, mobil uygulamamızı kullanarak indirip,
istediğiniz zaman (çevrim dışı bile) okuyabilirsiniz:
DH Android Uygulamasını İndir DH iOS Uygulamasını İndir
Sorgu:

Editörün Seçtiği Sıcak Fırsatlar

Sıcak Fırsatlar Forumunda Tıklananlar

Tavsiyelerimiz

Yeni Haber
şimdi
Geri Bildirim