DeepSeek, ein chinesisches KI-Unternehmen, hat kürzlich ein Open-Source-KI-Modell namens DeepSeek V3 vorgestellt. Dieses Modell zeichnet sich durch mehrere Eigenschaften aus. In internen Benchmark-Tests übertrifft es sowohl offene als auch geschlossene KI-Modelle, einschließlich Meta’s Llama 3.1 405B und OpenAI’s GPT-4o.
Es ist besonders leistungsstark bei Programmieraufgaben, textbasierten Arbeiten wie Übersetzen sowie beim Verfassen von Aufsätzen und E‑Mails. Technisch gesehen wurde DeepSeek V3 mit einem Datensatz von 14,8 Billionen Tokens trainiert und verfügt über 671 Milliarden Parameter.
Zu den wichtigsten Merkmalen gehören:
- Textbasierte Fähigkeiten: Hervorragend in Aufgaben wie Codierung, Übersetzung und Schreiben
- Mixture-of-Experts (MoE)-Architektur: Aktiviert nur relevante Parameter für jede Aufgabe, was die Effizienz steigert
- Open-Source-Verfügbarkeit: Gehostet auf Hugging Face mit einer permissiven Lizenz für weit verbreitete Nutzung und Modifikation
- Beeindruckende Benchmarks: Übertrifft andere Open-Source-Modelle und erreicht das Niveau einiger proprietärer Modelle
Es nutzt eine spezielle Architektur, die Multi-Head Latent Attention (MLA) und DeepseekMoE kombiniert.Das Modell wurde in nur zwei Monaten trainiert, mit geschätzten Kosten von etwa 5,5 Millionen USD, wobei Nvidia H800 GPUs zum Einsatz kamen. Als Open-Source-Modell erlaubt es Entwicklern, es herunterzuladen und für verschiedene Anwendungen zu modifizieren.
Es gilt als effizienter als viele Konkurrenzmodelle, da es nur 37 Milliarden Parameter pro Token/Aufgabe nutzt. Trotz seiner beeindruckenden Fähigkeiten ist es wichtig zu beachten, dass DeepSeek-V3 primär auf textbasierte Aufgaben spezialisiert ist und keine multimodalen Fähigkeiten besitzt. Diese Spezialisierung ermöglicht es dem Modell, außergewöhnliche Leistungen in seinem Bereich zu erbringen und gleichzeitig durch seine innovative Mixture-of-Experts-Architektur effizient zu bleiben.
Quellen und weitere Informationen:
DeepSeek-V3 Open-Source AI Model With Mixture-of-Experts Architecture Released
DeepSeek’s new AI model appears to be one of the best ‘open’ challengers yet
DeepSeek-V3 Achieves Frontier AI Performance at a Fraction of the Cost
DeepSeek-V3 Breaks New Ground: The World’s Largest Open-Source AI Model!