Über die Kluft zwis­chen KI-Demo und Pro­duk­tion­sein­satz – und die betrieb­swirtschaftlichen Kon­se­quen­zen


Die Demon­stra­tion beein­druckt. Der KI-Agent durch­sucht Daten­banken, gener­iert Code, führt ihn aus, kor­rigiert Fehler und liefert inner­halb von Minuten eine fer­tige Analyse. Was in der kon­trol­lierten Umge­bung rei­bungs­los funk­tion­iert, ent­pup­pt sich im pro­duk­tiv­en Ein­satz jedoch häu­fig als frag­il. Diese Diskrepanz zwis­chen Demo und Deploy­ment beschäftigt ein inter­na­tionales Forschung­steam von 34 Wis­senschaftlern führen­der US-Uni­ver­sitäten – darunter Stan­ford, Har­vard, Berke­ley und Cal­tech – in ihrem aktuellen Sur­vey „Adap­ta­tion of Agen­tic AI”.

Die Diag­nose fällt ernüchternd aus: Aktuelle Agen­tic-AI-Sys­teme kämpfen sys­tem­a­tisch mit unzu­ver­läs­siger Tool-Nutzung, begren­zter Langzeit-Pla­nung, domä­nen­spez­i­fis­chen Rea­son­ing-Lück­en und schlechter Gen­er­al­isierung auf neue Umge­bun­gen. Das Paper liefert keine Mar­ket­ing-Nar­ra­tive, son­dern eine nüchterne Bestand­sauf­nahme der tech­nis­chen Real­ität – und ein Frame­work, das die Kom­plex­ität dieser Sys­teme erst­mals sys­tem­a­tisch kartiert.

Anatomie eines Agen­tic-AI-Sys­tems

Im Zen­trum ste­ht ein Foun­da­tion Mod­el – typ­is­cher­weise ein Large Lan­guage Mod­el –, das als Rea­son­ing- und Entschei­dungszen­trale fungiert. Dieses wird ergänzt durch drei wesentliche Kom­po­nen­ten: ein Plan­ning-Mod­ul zur Zer­legung kom­plex­er Ziele in aus­führbare Schritte, eine Tool-Use-Schicht für die Inter­ak­tion mit exter­nen Ressourcen wie APIs, Daten­banken oder Code-Execu­toren, sowie ein Mem­o­ry-Mod­ul für die kon­textbe­zo­gene Infor­ma­tionsver­ar­beitung über Sitzun­gen hin­weg.

Die entschei­dende Erken­nt­nis des Forschung­steams: Selb­st hochleis­tungs­fähige Foun­da­tion Mod­els erfordern zusät­zliche Adap­tion, um in spez­i­fis­chen Auf­gaben und realen Szenar­ien zuver­läs­sig zu funk­tion­ieren. Die Frage ist nicht, ob adap­tiert wer­den muss, son­dern wie – und diese Frage ist kom­plex­er als gemein­hin angenom­men.

Das Vier-Par­a­dig­men-Frame­work

Die Autoren unter­schei­den Adap­tion­sstrate­gien ent­lang zweier Dimen­sio­nen: Was wird opti­miert (Agent oder Tool)? Und woher stammt das Adap­tion­ssig­nal? Daraus ergeben sich vier fun­da­men­tale Par­a­dig­men.

A1 – Tool Exe­cu­tion Sig­naled Agent Adap­ta­tion opti­miert den Agen­ten anhand ver­i­fizier­bar­er Ergeb­nisse aus der Tool-Aus­führung. Wenn ein Agent Code gener­iert und eine Sand­box diesen aus­führt, liefert das Aus­führungsergeb­nis – Erfolg oder Fehler – das Lernsignal. Der Agent lernt aus den objek­tiv­en Kon­se­quen­zen sein­er Aktio­nen.

A2 – Agent Out­put Sig­naled Agent Adap­ta­tion evaluiert den finalen Out­put des Agen­ten. Hier zählt nicht die Kor­rek­theit einzel­ner Tool-Aufrufe, son­dern die Qual­ität der Gesam­tant­wort. Ein RAG-Sys­tem etwa wird danach bew­ertet, ob seine syn­thetisierte Antwort fak­tisch kor­rekt ist – unab­hängig davon, wie ele­gant die Retrieval-Queries for­muliert waren.

T1 – Agent-Agnos­tic Tool Adap­ta­tion trainiert Tools unab­hängig vom Agen­ten. Ein Dense Retriev­er kann mit kon­trastivem Ler­nen auf einem großen Kor­pus trainiert und dann als Plug-and-Play-Kom­po­nente in ver­schiedene Agent-Architek­turen inte­gri­ert wer­den. Der Tool-Entwick­ler muss den späteren Agen­ten nicht ken­nen.

T2 – Agent-Super­vised Tool Adap­ta­tion dreht die Logik um: Der Agent bleibt fix­iert, während die Tools anhand der Agent-Out­puts opti­miert wer­den. Ein prak­tisch rel­e­vantes Szenario, wenn der Agent eine leis­tungs­fähige, aber nicht trainier­bare Closed-Source-API ist. Die Tools wer­den darauf opti­miert, genau diesem spez­i­fis­chen Agen­ten zuzuar­beit­en.

Trade-offs: Es gibt kein kosten­los­es Mit­tagessen

Das Frame­work macht die inhärenten Zielkon­flik­te ver­schieden­er Adap­tion­sstrate­gien expliz­it. Agent-Adap­tion (A1/A2) erfordert erhe­bliche Rechen­res­sourcen für das Train­ing von Mil­liar­den-Para­me­ter-Mod­ellen, bietet aber max­i­male Flex­i­bil­ität. Tool-Adap­tion (T1/T2) opti­miert externe Kom­po­nen­ten zu deut­lich gerin­geren Kosten, kann aber durch die Fähigkeit­en des fix­ierten Agen­ten lim­i­tiert sein.

Bei der Gen­er­al­isierung zeigt sich ein weit­er­er Trade-off: T1-Tools, trainiert auf bre­it­en Daten­verteilun­gen, gen­er­al­isieren oft gut über ver­schiedene Agen­ten und Auf­gaben hin­weg. A1-Meth­o­d­en hinge­gen neigen zum Over­fit­ting auf spez­i­fis­che Umge­bun­gen, sofern nicht sorgfältig reg­u­lar­isiert wird.

Beson­ders rel­e­vant für den prak­tis­chen Ein­satz ist die Mod­u­lar­itäts­frage. T2-Ansätze ermöglichen unab­hängige Tool-Upgrades ohne Agent-Retrain­ing und erle­ichtern damit die kon­tinuier­liche Sys­temverbesserung. A1/A2-Meth­o­d­en lei­den poten­ziell unter katas­trophalem Vergessen bei der Anpas­sung an neue Auf­gaben – ein Prob­lem, das in der Lit­er­atur als bekan­nt gilt, in der Enter­prise-Kom­mu­nika­tion aber sel­ten the­ma­tisiert wird.

Die kom­bi­na­torische Real­ität

State-of-the-Art-Sys­teme kom­binieren zunehmend mehrere Adap­tion­spar­a­dig­men. Ein Deep-Research-Sys­tem kön­nte T1-trainierte Retriev­er (vor­trainierte Dense Retriev­ers), T2-adap­tive Such-Sub­agen­ten (trainiert via Feed­back eines fix­ierten LLMs) und A1-opti­mierte Rea­son­ing-Agen­ten (feinge­tunt mit Exe­cu­tion Feed­back) in ein­er kaskadierten Architek­tur vere­inen.

Diese Kom­bi­na­torik erk­lärt, warum die Entwick­lung pro­duk­tion­sreifer Agen­tic-AI-Sys­teme deut­lich aufwendi­ger ist als die Entwick­lung kon­ven­tioneller ML-Pipelines. Es genügt nicht, ein leis­tungs­fähiges Foun­da­tion Mod­el zu lizen­zieren und mit Prompts zu verse­hen. Die eigentliche Engi­neer­ing-Kom­plex­ität liegt in der sys­tem­a­tis­chen Adap­tion und der intel­li­gen­ten Orchestrierung der Kom­po­nen­ten.

Kri­tis­che Analyse aus betrieb­swirtschaftlich­er Per­spek­tive

Make-or-Buy wird zur strate­gis­chen Grund­satzfrage

Das Frame­work zwingt Unternehmen zu ein­er dif­feren­ziert­eren Make-or-Buy-Analyse als bei tra­di­tionellen Soft­ware­pro­jek­ten. Die Entschei­dung bet­rifft nicht mehr nur „bauen oder kaufen”, son­dern erstreckt sich auf jede einzelne Kom­po­nente des Agent-Sys­tems und ihre jew­eilige Adap­tion­sstrate­gie.

Wer einen Closed-Source-Agen­ten wie GPT‑4 oder Claude als Kern nutzt, beschränkt sich automa­tisch auf T1- und T2-Strate­gien – kann also nur Tools opti­mieren, nicht den Agen­ten selb­st. Das ist nicht per se nachteilig, aber es definiert den Lösungsraum. Wer hinge­gen auf Open-Source-Mod­elle set­zt, gewin­nt Zugang zu A1/A2-Strate­gien, übern­immt aber die Kom­plex­ität und die Kosten des Agent-Train­ings.

Die Imp­lika­tion für die Beschaf­fung: Die Auswahl eines Foun­da­tion-Mod­el-Anbi­eters ist keine rein tech­nis­che Entschei­dung, son­dern eine strate­gis­che Weichen­stel­lung, die das gesamte Spek­trum später­er Opti­mierungsmöglichkeit­en deter­miniert.

Ver­steck­te Kosten der Kon­ti­nu­ität

Die A1/A2-Adap­tion­spar­a­dig­men erfordern nicht nur ini­tiales Train­ing, son­dern kon­tinuier­liche Pflege. Katas­trophales Vergessen – das Phänomen, dass ein Mod­ell bei der Anpas­sung an neue Auf­gaben zuvor erlernte Fähigkeit­en ver­liert – ist kein the­o­retis­ches Prob­lem, son­dern ein oper­a­tives. Jede Erweiterung des Auf­gaben­spek­trums kann ein voll­ständi­ges Retrain­ing erfordern.

Die betrieb­swirtschaftliche Kon­se­quenz: Die Gesamt­be­trieb­skosten (Total Cost of Own­er­ship) von Agen­tic-AI-Sys­te­men sind sys­tem­a­tisch schw­er­er zu prog­nos­tizieren als bei kon­ven­tioneller Soft­ware. Die Investi­tion­srech­nung muss nicht nur Entwick­lungs- und Betrieb­skosten berück­sichti­gen, son­dern auch die Kosten der Adap­tion an verän­derte Anforderun­gen – und diese sind pfad­ab­hängig.

Skill-Eng­pass auf neuer Ebene

Das Paper doku­men­tiert impliz­it einen erhe­blichen Skill-Gap. Die sys­tem­a­tis­che Anwen­dung des Vier-Par­a­dig­men-Frame­works erfordert Kom­pe­ten­zen, die über klas­sis­ches ML-Engi­neer­ing hin­aus­ge­hen: Ver­ständ­nis der Trade-offs zwis­chen Agent- und Tool-Adap­tion, Erfahrung mit Rein­force­ment Learn­ing from Ver­i­fi­able Rewards (RLVR), Architek­turkom­pe­tenz für Mul­ti-Par­a­dig­men-Sys­teme.

Diese Spezial­isierung ist am Arbeits­markt noch nicht bre­it ver­füg­bar. Unternehmen, die heute in Agen­tic AI investieren, konkur­ri­eren um einen kleinen Pool von Experten – oder müssen interne Kom­pe­ten­zen­twick­lung als strate­gis­ches Invest­ment behan­deln, nicht als oper­a­tive Schu­lungs­maß­nahme.

Ven­dor-Lock-in nimmt neue For­men an

Die Abhängigkeit von Closed-Source-Foun­da­tion-Mod­els ist offen­sichtlich. Weniger offen­sichtlich ist die Lock-in-Prob­lematik bei T2-adap­tierten Tools. Ein Retriev­er, der spez­i­fisch für die Eigen­heit­en von GPT‑4 opti­miert wurde, funk­tion­iert nicht notwendi­ger­weise mit Claude oder Gem­i­ni. Die Investi­tion in Tool-Adap­tion ist damit teil­weise an den gewählten Agen­ten gebun­den.

Für die Sourc­ing-Strate­gie bedeutet das: Die Diver­si­fika­tion über mehrere Foun­da­tion-Mod­el-Anbi­eter – häu­fig als Risiko­min­derung propagiert – kann die Adap­tion­skosten mul­ti­plizieren, wenn jed­er Agent sein eigenes T2-opti­miertes Tool-Ökosys­tem erfordert.

ROI-Mes­sung als ungelöstes Prob­lem

Die Autoren beto­nen die Notwendigkeit stan­dar­d­isiert­er Evaluierung­spro­tokolle als offene Forschungs­frage. Für Unternehmen über­set­zt sich das in ein fun­da­men­tales Prob­lem der Wertmes­sung. Wie quan­tifiziert man den Beitrag ein­er A1-Opti­mierung zur Geschäftswertschöp­fung? Wie recht­fer­tigt man T2-Investi­tio­nen in Tool-Adap­tion gegenüber einem Man­age­ment, das konkrete ROI-Zahlen erwartet?

Die Ehrlichkeit des Papers in dieser Frage ist bemerkenswert – und für die betrieb­swirtschaftliche Prax­is unbe­quem. Solange die Forschung keine robusten Evaluierungs­stan­dards etabliert hat, operieren Unternehmensin­vesti­tio­nen in Agen­tic AI unter erhöhter Bew­er­tung­sun­sicher­heit.

Organ­isatorische Imp­lika­tio­nen

Das Frame­work legt nahe, dass erfol­gre­iche Agen­tic-AI-Imple­men­tierun­gen keine reinen IT-Pro­jek­te sind. Die Entschei­dung zwis­chen Agent- und Tool-Adap­tion hat Imp­lika­tio­nen für Organ­i­sa­tion­sstruk­turen, Kom­pe­ten­zpro­file und Gov­er­nance-Mod­elle.

T1/T2-Strate­gien mit fix­ierten Agen­ten erlauben eine klarere Tren­nung zwis­chen Agent-Nutzung (Busi­ness) und Tool-Entwick­lung (IT). A1/A2-Strate­gien erfordern eine engere Inte­gra­tion, weil die Qual­ität der Adap­tion­ssig­nale direkt von der Qual­ität der Auf­gaben­de­f­i­n­i­tion und der Erfol­gsmes­sung abhängt – Domä­nen­wis­sen wird zum kri­tis­chen Input für das ML-Engi­neer­ing.

Die organ­isatorische Kon­se­quenz: Unternehmen müssen nicht nur tech­nis­che, son­dern auch struk­turelle Entschei­dun­gen tre­f­fen. Die Wahl des Adap­tion­spar­a­dig­mas prägt die erforder­liche Zusam­me­nar­beit zwis­chen Fach­bere­ichen und Tech­nolo­gie.

Faz­it: Nüchtern­heit als Fortschritt

Das Stan­ford/Har­vard-Paper leis­tet einen Beitrag, der in der aktuellen Hype-Debat­te um Agen­tic AI sel­ten ist: Es kartiert die tech­nis­che Kom­plex­ität ohne Sim­pli­fika­tion und macht die inhärenten Trade-offs ver­schieden­er Entwick­lungsstrate­gien expliz­it. Für Entschei­der ist das unbe­quem, aber wertvoll.

Die betrieb­swirtschaftliche Botschaft ist klar: Agen­tic AI ist keine Plug-and-Play-Tech­nolo­gie. Der Pfad von der beein­druck­enden Demo zum zuver­läs­si­gen Pro­duk­tion­ssys­tem führt durch ein Ter­rain, dessen Kom­plex­ität sys­tem­a­tisch unter­schätzt wird. Wer diese Kom­plex­ität ignori­ert, riskiert nicht nur tech­nis­ches Scheit­ern, son­dern Fehlin­vesti­tio­nen erhe­blichen Aus­maßes.

Das Frame­work bietet keine ein­fachen Antworten, aber es stellt die richti­gen Fra­gen. In ein­er Tech­nolo­giede­bat­te, die von Mar­ket­ing-Nar­ra­tiv­en dominiert wird, ist das bere­its ein erhe­blich­er Erken­nt­nis­gewinn.


Quelle: Jiang, P. et al. (2025): Adap­ta­tion of Agen­tic AI. arXiv:2512.16301. Stan­ford Uni­ver­si­ty, Har­vard Uni­ver­si­ty, UC Berke­ley, Cal­tech, UIUC et al.

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert