Uygulama ile Aç

Çinli şirketten çığır açan başarı: 11 kat az işlem gücüyle yapay zeka modeli eğitti!

Çinli bir yapay zeka girişimi olan DeepSeek, çığır açan bir duyuruda bulunarak, önde gelen yapay zeka şirketlerinin modellerine benzer bir modeli 11 kat düşük hesaplama gücüyle eğittiğini açıkladı.

Çinli bir yapay zeka girişimi olan DeepSeek, çığır açan bir duyuruda bulunarak, OpenAI, Meta ve Anthropic gibi önde gelen yapay zeka şirketlerinin modellerine benzer bir yapay modelini, 11 kat düşük GPU hesaplama gücüyle eğittiğini açıkladı.  

Deepseek makalesinde, DeepSeek-V3 Mixture-of-Experts (MoE) isimli dil modelini sadece iki ayda 2.048 Nvidia H800 GPU'sunu içeren bir küme kullanarak 671 milyar parametreyle eğitti, bu da 2,8 milyon GPU saati anlamına geliyor. Karşılaştırma yapmak gerekirse, Meta'nın 54 gün boyunca 16.384 adet H100 GPU içeren bir küme kullanarak 405 milyar parametreli Llama 3'ünü eğitmesi 11 kat daha fazla işlem gücü (30,8 milyon GPU saati) gerektirdi.

Çeşitli optimizasyonlar yapıldı

DeepSeek, gelişmiş iletişim hattı (pipeline) algoritmaları, optimize edilmiş iletişim çerçevesi ve FP8 düşük hassasiyetli hesaplama kullanarak bu ölçekteki modeller için tipik olarak gerekli olan hesaplama ve bellek taleplerini önemli ölçüde azalttığını iddia ediyor.

DeepSeek, DeepSeek-v3'ünün işlem gereksinimlerini azaltmak için onlarca optimizasyon tekniği uygularken, birkaç önemli teknoloji etkileyici sonuçlarını mümkün kıldı.

Ayrıca bkz.

Microsoft ve OpenAI’dan ilginç AGI tanımı: Hedef 100 milyar dolar

DeepSeek, hesaplama ve iletişim aşamalarınnda DualPipe algoritmasını kullandığını ve bu nedenle iletim hattındaki verimsizlikleri azalttığını söylüyor. DualPipe algoritması, özellikle MoE mimarisinin gerektirdiği düğümler arası uzman paralelliği için eğitim darboğazlarını en aza indirdi ve bu optimizasyon, kümenin ön eğitim sırasında sıfıra yakın iletişim yüküyle 14,8 trilyon jetonu (token) işlemesine olanak sağladı, 

DeepSeek, DualPipe'ı uygulamaya ek olarak, iletişime dahil olan düğüm sayısını sınırlamak için her jetonu maksimum dört düğümle sınırladı. Bu da trafiği azalttı ve iletişimin ve hesaplamanın etkili bir şekilde örtüşmesini sağladı.

DeepSeek-v3 nasıl performans sergiliyor?

Performansa gelirsek, şirket DeepSeek-v3 MoE dil modelinin kıyaslamaya bağlı olarak GPT-4x, Claude-3.5-Sonnet ve LLlama-3.1 ile karşılaştırılabilir veya daha iyi performansa sahip olduğunu söylüyor. Ancak bu iddiaların üçüncü taraflarca ispatlanması gerekiyor. Şirket modeli ve ağırlıkları açık kaynaklı hale getirdi, bu nedenle yakın zamanda karşılaştırma testleri ortaya çıkacaktır.
DeepSeek-V3, parametre sayısı veya muhakeme yetenekleri açısından GPT-4o veya o3 gibi öncü modellerin gerisinde kalsa da, sonuçlar nispeten sınırlı kaynak kullanarak gelişmiş bir MoE dil modelinin eğitilmesinin mümkün olduğunu gösteriyor. Elbette, bu çok fazla optimizasyon ve düşük seviyeli programlama gerektiriyor, ancak sonuçlar şaşırtıcı derecede iyi görünüyor.

DeepSeek ekibi, DeepSeek-V3 modelinin uygulanmasının, gelişmiş donanımın yanı sıra ön doldurma (prefilling) ve kod çözme aşamalarını ayıran bir dağıtım stratejisi gerektirdiğini ve bunun kaynak eksikliği nedeniyle küçük şirketler için erişilemez olabileceğini kabul ediyor.

(Güncellendi: )



Haberi DH'de Gör Yorumlar ve Diğer Detaylar
Whatsapp ile Paylaş