Chi­ne­sis­che quellof­fene Mod­elle wie DeepSeek-V3 erre­ichen ver­gle­ich­bare Leis­tung zu Train­ingskosten, die um Größenord­nun­gen unter west­lichen Schätzun­gen liegen. API-Preise fall­en um Fak­tor 10–20, US-Star­tups wan­dern massen­haft zu chi­ne­sis­chen Alter­na­tiv­en ab. Was auf den ersten Blick wie ein Vor­bote eines KI-Blasen-Zusam­men­bruchs erscheint, ent­pup­pt sich bei näher­er Betra­ch­tung als fun­da­men­tale Umverteilung der Wertschöp­fung. Die eigentliche Störung liegt nicht in fal­l­en­den Preisen, son­dern in der struk­turellen Neuord­nung: Grund­la­gen­mod­elle (Foun­da­tion Mod­els)  wer­den zur Massen­ware, während sich die Frage ver­schiebt, wo kün­ftig wirtschaftlich­er Wert entste­ht – und ob west­liche Anbi­eter ihre Geschäftsmod­elle schnell genug anpassen kön­nen.


Die Anatomie eines Kosten­sprungs

Die Zahlen wirken auf den ersten Blick spek­takulär: DeepSeek-V3 soll in seinem finalen Train­ings­durch­lauf etwa 5,6 Mil­lio­nen Dol­lar gekostet haben. 2.048 H800-Grafikprozes­soren über 2,79 Mil­lio­nen Prozes­sorstun­den, 14,8 Bil­lio­nen Token. Dem gegenüber ste­hen Schätzun­gen für GPT‑4, die von 20 bis 100 Mil­lio­nen Dol­lar für die reine Train­ingsrechen­leis­tung sprechen, von Gesamtkosten ganz zu schweigen. Die Dif­ferenz erscheint so drastisch, dass reflexar­tig Skep­sis ein­set­zt.

Die Skep­sis ist berechtigt, aber nicht im ver­muteten Sinne. Die 5,6 Mil­lio­nen erfassen nur den finalen Durch­lauf – nicht die explo­rativ­en Ver­suche, gescheit­erten Architek­turen, Infra­struk­turab­schrei­bun­gen, Per­son­al- und Forschungskosten, Date­nakqui­si­tion. GPT-4-Zahlen sind ver­mut­lich ähn­lich selek­tiv. Ein fair­er Ver­gle­ich müsste die Gesamtkosten­rech­nung über den gesamten Entwick­lungszyk­lus erfassen.

Den­noch bleibt die Ker­naus­sage selb­st bei kon­ser­v­a­tiv­en Annah­men valide: Mul­ti­pliziert man DeepSeeks Zahlen mit Fak­tor 5 bis 10 für ver­steck­te Kosten, erre­icht man immer noch nur 28 bis 56 Mil­lio­nen – deut­lich unter west­lichen Ver­gle­ich­swerten. Die Gren­zkosten für Train­ing sinken drama­tisch, und chi­ne­sis­che Teams erre­ichen Leis­tungspar­ität bei Bruchteil-Bud­gets.

Die Frage ist nicht, ob die Zahlen exakt stim­men, son­dern was die struk­turelle Ver­schiebung bedeutet.

Architek­tonis­che Effizienz als Wet­tbe­werb­shebel

Der tech­nis­che Kern liegt in der Mix­ture-of-Experts-Architek­tur (MoE). Statt bei jed­er Schlussfol­gerung das gesamte Mod­ell zu aktivieren, wer­den nur rel­e­vante Teil­bere­iche („Experten”) genutzt. Das senkt Rechenan­forderun­gen pro Token drastisch – und erk­lärt, warum DeepSeeks Schnittstel­len­preise bei 0,14 bis 0,55 Dol­lar pro Mil­lion Eingabe-Token liegen, während Ope­nAI für GPT-4o 2,50 Dol­lar ver­langt. Bei Aus­gabe-Token wird der Fak­tor noch deut­lich­er: 0,28 bis 2,19 Dol­lar ver­sus 10 Dol­lar.

Für ein Unternehmen mit hohem Schnittstel­len­vol­u­men bedeutet das: 92.000 Dol­lar jährlich auf DeepSeek ver­sus 1,95 Mil­lio­nen auf GPT-4o. Selb­st wenn man Qual­ität­sun­ter­schiede, Regelkon­for­mität­saufwand, Inte­gra­tionskosten ein­rech­net – die Größenord­nung erzwingt strate­gis­che Neube­w­er­tung.

MoE ist keine chi­ne­sis­che Erfind­ung, aber die kon­se­quente Opti­mierung unter Hard­warebeschränkun­gen hat zu Umset­zun­gen geführt, die sich nun als struk­turell über­le…

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert