Cerebras Systems gab kürzlich bekannt, dass es das bahnbrechende R1-Modell für künstliche Intelligenz von DeepSeek auf US-Servern hosten wird. Dabei verspricht das Unternehmen Geschwindigkeiten, die bis zu 57 Mal schneller sind als GPU-basierte Lösungen, während sensible Daten innerhalb der amerikanischen Grenzen bleiben.
Diese Ankündigung erfolgt vor dem Hintergrund wachsender Bedenken hinsichtlich Chinas rasanter KI-Fortschritte und Datenschutzfragen. Das KI-Chip-Startup wird eine 70-Milliarden-Parameter-Version von DeepSeek-R1 auf seiner proprietären Wafer-Scale-Hardware einsetzen und dabei 1.600 Token pro Sekunde verarbeiten — eine dramatische Verbesserung gegenüber herkömmlichen GPU-Implementierungen, die mit neueren “Reasoning”-KI-Modellen zu kämpfen hatten.
Cerebras erreicht seinen Geschwindigkeitsvorteil durch eine neuartige Chip-Architektur, die vollständige KI-Modelle auf einem einzigen wafergroßen Prozessor unterbringt und so die Speicherengpässe beseitigt, die GPU-basierte Systeme plagen. Das Unternehmen behauptet, dass seine Implementierung von DeepSeek-R1 die Leistung der proprietären Modelle von OpenAI erreicht oder übertrifft, während sie vollständig auf US-Boden läuft.
Diese Entwicklung stellt eine bedeutende Verschiebung in der KI-Landschaft dar, da sie amerikanischen Unternehmen eine Möglichkeit bietet, diese Fortschritte zu nutzen und gleichzeitig die Kontrolle über ihre Daten zu behalten.
Branchenanalysten deuten an, dass diese Entwicklung den Übergang von GPU-abhängiger KI-Infrastruktur beschleunigen könnte, da Cerebras argumentiert, dass seine Architektur besser für diese aufkommenden Arbeitslasten geeignet ist und möglicherweise die Wettbewerbslandschaft bei der Einführung von KI in Unternehmen neu gestaltet.
Potenzielle Auswirkungen der Wafer-Skalentechnologie auf NVIDIA
- Bedrohung der Marktdominanz: NVIDIAs bisher unangefochtene Führungsposition im KI-Chipmarkt wird durch DeepSeek-R1 und andere Konkurrenten wie Cerebras in Frage gestellt.
- Kostendruck: DeepSeek-R1 bietet vergleichbare Leistung zu deutlich niedrigeren Kosten. Der Betrieb des DeepSeek-Chatbots soll 95 Prozent günstiger sein als Standard-KI-Modelle auf NVIDIA-GPUs.
- Effizienzsteigerung: DeepSeek-R1 kann auf weniger leistungsstarken Chips laufen, was die Nachfrage nach NVIDIAs neuesten High-End-Produkten verringern könnte.
- Überdenken von Investitionen: Unternehmen könnten ihre milliardenschweren Investitionen in KI-Infrastruktur mit NVIDIA-Chips hinterfragen.
- Aktienkursverluste: NVIDIA erlitt bereits erhebliche Wertverluste an der Börse aufgrund dieser Entwicklungen.
- Technologischer Wettbewerb: Neben DeepSeek entwickeln auch andere Unternehmen wie Cerebras, Google und Amazon eigene Hardware-Alternativen zu NVIDIA-GPUs.
- Enorme Rechenleistung: Die Wafer Scale Engine (WSE) der zweiten Generation von Cerebras verfügt über 850.000 Rechenkerne und 2,6 Billionen Transistoren auf einem einzigen Chip. Im Vergleich dazu hat Nvidias GA100 GPU nur etwa 8.200 Kerne und 54 Milliarden Transistoren.
- Integrierte Architektur: Anders als bei herkömmlichen Chiplets vereint die WSE alle Komponenten auf einem einzigen Wafer, was die Kommunikation zwischen den Recheneinheiten optimiert und Latenzzeiten reduziert.
- Spezialisierung für KI: Die Rechenkerne der WSE sind speziell für Aufgaben im Bereich der künstlichen Intelligenz und des maschinellen Lernens optimiert, was sie besonders effizient für komplexe KI-Berechnungen macht.
- Skalierbarkeit: Durch die Nutzung des gesamten Wafers kann Cerebras die Leistung kontinuierlich steigern, wie der Sprung von 400.000 Kernen in der ersten Generation auf 850.000 Kerne in der zweiten Generation zeigt.
- Fortschrittliche Fertigung: Die Nutzung des 7‑Nanometer-Fertigungsverfahrens von TSMC ermöglicht eine höhere Dichte und Effizienz der Transistoren.
Diese Vorteile machen die Wafer-Skalentechnologie von Cerebras besonders geeignet für rechenintensive KI-Anwendungen und komplexe maschinelle Lernalgorithmen, bei denen traditionelle GPU-Architekturen an ihre Grenzen stoßen können.
Cerebras Launches World’s Fastest DeepSeek R1 Distill Llama 70B Inference
Cerebras Hosts DeepSeek’s R1 Model On U.S. Soil
Cerebras becomes the world’s fastest host for DeepSeek R1, outpacing Nvidia GPUs by 57x
DeepSeek-R1: Eine Herausforderung für NV