Von Ralf Keuper
Bislang galt in der KI-Branche die Maxime, dass Quantität im Zweifel wichtiger ist als Qualität. Die Datenmengen für das Training der KI-Modelle können nicht groß genug sein, was wiederum immer leistungsfähigere Chips und weitere Hardware erfordert, die in großen Rechenzentren, für die Milliarden-Investitionen nötig sind, betrieben werden. Die großen Technologiekonzerne haben erst kürzlich milliardenschwere Investitionsprogramme in KI und Rechenzentren angekündigt. Das Hauptaugenmerk hat sich mit der Zeit einzig auf die rein technologische Ebene verschoben. Dabei geriet die Frage aus dem Blick, ob nicht auch andere, effektivere Wege mit deutlich weniger Aufwand zum Ziel führen. Dafür ist jedoch nötig, den Schwerpunkt auf Fragen der Organisation und des Designs zu legen und einen Schritt zurück zu gehen — also in gewisser Weise in die theoretische Ebene (Abstraktion) zu wechseln. Bezugspunkte existieren zu alt bekannten Theorien aus der VWL und BWL wie Principal-Agent-Theorie und die Transaktionskostentheorie1man ersetze die Dichotomie Markt-Hierarchie durch Closed Source-Open Source .
Arbeitsteilung und Spezialisierung
In der Organisationsforschung ist die Aufgabenteilung, die Delegierung von Tätigkeiten an Spezialisten, ein Weg, die Effizienz in einem Unternehmen zu erhöhen. Anderenfalls konzentriert sich alle Entscheidungsgewalt an der Spitze, die mit der Fülle an Aufgaben und der Verarbeitung sich z.T. widersprechender Informationen schnell überfordert ist. Diesem Prinzip folgt der Mixture of Experts — Ansatz im Maschinellen Lernen. Bei dieser Methode wird ein großes neuronales Netzwerk in mehrere spezialisierte Teilnetze aufgeteilt, die als “Experten” bezeichnet werden. Die Vorteile bestehen darin, dass Rechenkosten und Speicherbedarf, besonders bei großen Modellen, reduziert und die Entwicklung von Modellen mit Milliarden von Parametern bei gleichzeitiger Beibehaltung der Effizienz ermöglicht werden.
Kollektive Intelligenz
Von nicht zu unterschätzender Bedeutung für den Erfolg und die Effizienz von DeepSeek und vergleichbarer Modell wie Tülu 3 405B ist die Nutzung der kollektiven Intelligenz in Gestalt des Open Source-Ansatzes. So stellt Tülu 3 405B nicht nur den gesamten Infrastruktur-Code, sondern auch die Trainingsdaten, Modellgewichte und Evaluierungsmethoden zur Verfügung. Dieser vollständig offene Ansatz ermöglicht es Nutzern, die gesamte Pipeline von der Datenauswahl bis zur Evaluierung anzupassen2Ai2 stellt neues Open-Source-KI-Modell Tülu 3 405B vor.
Rechen- und Lernverfahren
Weitere wichtige Elemente sind die die Multi-Head Latent Attention (MLA) Technik, die redundante Berechnungen reduziert und die Aufmerksamkeit auf Schlüsselmuster konzentriert, was die Effizienz weiter steigert und das reine Reinforcement Learning, mit dem DeepSeek R1 ausschließlich trainiert wurde, ohne vorheriges Supervised Fine-Tuning. Dies ermöglicht autonomes Lernen und Optimierung des Schlussfolgerns bei gleichzeitiger drastischer Reduzierung der Trainingskosten. Die effiziente Parameternutzung spielt ebenfalls eine wichtige Rolle: Mit insgesamt 671 Milliarden Parametern, von denen nur etwa 37 Milliarden pro Token aktiv sind, liefert das Modell eine außergewöhnliche Leistung bei gleichzeitiger Ressourceneffizienz.
Innovation durch Kombination
Das Beispiel DeepSeek zeigt auch, das durch die geschickte Kombination von KI-Modellen, Rechen- und Lernverfahren und ebenso wie durch intelligentes Systemdesign und moderne Organisation Innovationen geschaffen werden können, wie sie durch die Verwendung nur einiger dieser Faktoren nicht möglich sind. In der Ökonomie wäre als Vergleich bzw. Analogie die Durchsetzung neuer Kombinationen von Produktionsfaktoren nach Joseph Schumpeter zu nennen.
Ketten effizienter Agenten ersten große Modelle
Für Kiara Nirghin folgt aus dem “DeepSeek-Schock”, dass effiziente Architekturen, die auf KI-Agenten setzen, den Vorrang haben. Anstelle massiver Modelle sollten Ketten spezialisierter KI-Agenten zum Einsatz kommen. Die Unternehmen sollen in Systeme investieren, die sowohl die Leistung als auch die Umweltauswirkungen optimieren und eine Infrastruktur aufbauen, welche die iterative Entwicklung durch den Menschen im Kreislauf unterstützt3Clever architecture over raw compute: DeepSeek shatters the ‘bigger is better’ approach to AI development.
Statt wie heute noch zu fragen “Wie viel Rechenleistung können wir uns leisten?“ findet eine Verlagerung auf die Frage „Wie intelligent und damit ökonomisch können wir unsere Systeme gestalten?“ statt.