Über die Kluft zwischen KI-Demo und Produktionseinsatz – und die betriebswirtschaftlichen Konsequenzen
Die Demonstration beeindruckt. Der KI-Agent durchsucht Datenbanken, generiert Code, führt ihn aus, korrigiert Fehler und liefert innerhalb von Minuten eine fertige Analyse. Was in der kontrollierten Umgebung reibungslos funktioniert, entpuppt sich im produktiven Einsatz jedoch häufig als fragil. Diese Diskrepanz zwischen Demo und Deployment beschäftigt ein internationales Forschungsteam von 34 Wissenschaftlern führender US-Universitäten – darunter Stanford, Harvard, Berkeley und Caltech – in ihrem aktuellen Survey „Adaptation of Agentic AI”.
Die Diagnose fällt ernüchternd aus: Aktuelle Agentic-AI-Systeme kämpfen systematisch mit unzuverlässiger Tool-Nutzung, begrenzter Langzeit-Planung, domänenspezifischen Reasoning-Lücken und schlechter Generalisierung auf neue Umgebungen. Das Paper liefert keine Marketing-Narrative, sondern eine nüchterne Bestandsaufnahme der technischen Realität – und ein Framework, das die Komplexität dieser Systeme erstmals systematisch kartiert.
Anatomie eines Agentic-AI-Systems
Im Zentrum steht ein Foundation Model – typischerweise ein Large Language Model –, das als Reasoning- und Entscheidungszentrale fungiert. Dieses wird ergänzt durch drei wesentliche Komponenten: ein Planning-Modul zur Zerlegung komplexer Ziele in ausführbare Schritte, eine Tool-Use-Schicht für die Interaktion mit externen Ressourcen wie APIs, Datenbanken oder Code-Executoren, sowie ein Memory-Modul für die kontextbezogene Informationsverarbeitung über Sitzungen hinweg.
Die entscheidende Erkenntnis des Forschungsteams: Selbst hochleistungsfähige Foundation Models erfordern zusätzliche Adaption, um in spezifischen Aufgaben und realen Szenarien zuverlässig zu funktionieren. Die Frage ist nicht, ob adaptiert werden muss, sondern wie – und diese Frage ist komplexer als gemeinhin angenommen.
Das Vier-Paradigmen-Framework
Die Autoren unterscheiden Adaptionsstrategien entlang zweier Dimensionen: Was wird optimiert (Agent oder Tool)? Und woher stammt das Adaptionssignal? Daraus ergeben sich vier fundamentale Paradigmen.
A1 – Tool Execution Signaled Agent Adaptation optimiert den Agenten anhand verifizierbarer Ergebnisse aus der Tool-Ausführung. Wenn ein Agent Code generiert und eine Sandbox diesen ausführt, liefert das Ausführungsergebnis – Erfolg oder Fehler – das Lernsignal. Der Agent lernt aus den objektiven Konsequenzen seiner Aktionen.
A2 – Agent Output Signaled Agent Adaptation evaluiert den finalen Output des Agenten. Hier zählt nicht die Korrektheit einzelner Tool-Aufrufe, sondern die Qualität der Gesamtantwort. Ein RAG-System etwa wird danach bewertet, ob seine synthetisierte Antwort faktisch korrekt ist – unabhängig davon, wie elegant die Retrieval-Queries formuliert waren.
T1 – Agent-Agnostic Tool Adaptation trainiert Tools unabhängig vom Agenten. Ein Dense Retriever kann mit kontrastivem Lernen auf einem großen Korpus trainiert und dann als Plug-and-Play-Komponente in verschiedene Agent-Architekturen integriert werden. Der Tool-Entwickler muss den späteren Agenten nicht kennen.
T2 – Agent-Supervised Tool Adaptation dreht die Logik um: Der Agent bleibt fixiert, während die Tools anhand der Agent-Outputs optimiert werden. Ein praktisch relevantes Szenario, wenn der Agent eine leistungsfähige, aber nicht trainierbare Closed-Source-API ist. Die Tools werden darauf optimiert, genau diesem spezifischen Agenten zuzuarbeiten.
Trade-offs: Es gibt kein kostenloses Mittagessen
Das Framework macht die inhärenten Zielkonflikte verschiedener Adaptionsstrategien explizit. Agent-Adaption (A1/A2) erfordert erhebliche Rechenressourcen für das Training von Milliarden-Parameter-Modellen, bietet aber maximale Flexibilität. Tool-Adaption (T1/T2) optimiert externe Komponenten zu deutlich geringeren Kosten, kann aber durch die Fähigkeiten des fixierten Agenten limitiert sein.
Bei der Generalisierung zeigt sich ein weiterer Trade-off: T1-Tools, trainiert auf breiten Datenverteilungen, generalisieren oft gut über verschiedene Agenten und Aufgaben hinweg. A1-Methoden hingegen neigen zum Overfitting auf spezifische Umgebungen, sofern nicht sorgfältig regularisiert wird.
Besonders relevant für den praktischen Einsatz ist die Modularitätsfrage. T2-Ansätze ermöglichen unabhängige Tool-Upgrades ohne Agent-Retraining und erleichtern damit die kontinuierliche Systemverbesserung. A1/A2-Methoden leiden potenziell unter katastrophalem Vergessen bei der Anpassung an neue Aufgaben – ein Problem, das in der Literatur als bekannt gilt, in der Enterprise-Kommunikation aber selten thematisiert wird.
Die kombinatorische Realität
State-of-the-Art-Systeme kombinieren zunehmend mehrere Adaptionsparadigmen. Ein Deep-Research-System könnte T1-trainierte Retriever (vortrainierte Dense Retrievers), T2-adaptive Such-Subagenten (trainiert via Feedback eines fixierten LLMs) und A1-optimierte Reasoning-Agenten (feingetunt mit Execution Feedback) in einer kaskadierten Architektur vereinen.
Diese Kombinatorik erklärt, warum die Entwicklung produktionsreifer Agentic-AI-Systeme deutlich aufwendiger ist als die Entwicklung konventioneller ML-Pipelines. Es genügt nicht, ein leistungsfähiges Foundation Model zu lizenzieren und mit Prompts zu versehen. Die eigentliche Engineering-Komplexität liegt in der systematischen Adaption und der intelligenten Orchestrierung der Komponenten.
Kritische Analyse aus betriebswirtschaftlicher Perspektive
Make-or-Buy wird zur strategischen Grundsatzfrage
Das Framework zwingt Unternehmen zu einer differenzierteren Make-or-Buy-Analyse als bei traditionellen Softwareprojekten. Die Entscheidung betrifft nicht mehr nur „bauen oder kaufen”, sondern erstreckt sich auf jede einzelne Komponente des Agent-Systems und ihre jeweilige Adaptionsstrategie.
Wer einen Closed-Source-Agenten wie GPT‑4 oder Claude als Kern nutzt, beschränkt sich automatisch auf T1- und T2-Strategien – kann also nur Tools optimieren, nicht den Agenten selbst. Das ist nicht per se nachteilig, aber es definiert den Lösungsraum. Wer hingegen auf Open-Source-Modelle setzt, gewinnt Zugang zu A1/A2-Strategien, übernimmt aber die Komplexität und die Kosten des Agent-Trainings.
Die Implikation für die Beschaffung: Die Auswahl eines Foundation-Model-Anbieters ist keine rein technische Entscheidung, sondern eine strategische Weichenstellung, die das gesamte Spektrum späterer Optimierungsmöglichkeiten determiniert.
Versteckte Kosten der Kontinuität
Die A1/A2-Adaptionsparadigmen erfordern nicht nur initiales Training, sondern kontinuierliche Pflege. Katastrophales Vergessen – das Phänomen, dass ein Modell bei der Anpassung an neue Aufgaben zuvor erlernte Fähigkeiten verliert – ist kein theoretisches Problem, sondern ein operatives. Jede Erweiterung des Aufgabenspektrums kann ein vollständiges Retraining erfordern.
Die betriebswirtschaftliche Konsequenz: Die Gesamtbetriebskosten (Total Cost of Ownership) von Agentic-AI-Systemen sind systematisch schwerer zu prognostizieren als bei konventioneller Software. Die Investitionsrechnung muss nicht nur Entwicklungs- und Betriebskosten berücksichtigen, sondern auch die Kosten der Adaption an veränderte Anforderungen – und diese sind pfadabhängig.
Skill-Engpass auf neuer Ebene
Das Paper dokumentiert implizit einen erheblichen Skill-Gap. Die systematische Anwendung des Vier-Paradigmen-Frameworks erfordert Kompetenzen, die über klassisches ML-Engineering hinausgehen: Verständnis der Trade-offs zwischen Agent- und Tool-Adaption, Erfahrung mit Reinforcement Learning from Verifiable Rewards (RLVR), Architekturkompetenz für Multi-Paradigmen-Systeme.
Diese Spezialisierung ist am Arbeitsmarkt noch nicht breit verfügbar. Unternehmen, die heute in Agentic AI investieren, konkurrieren um einen kleinen Pool von Experten – oder müssen interne Kompetenzentwicklung als strategisches Investment behandeln, nicht als operative Schulungsmaßnahme.
Vendor-Lock-in nimmt neue Formen an
Die Abhängigkeit von Closed-Source-Foundation-Models ist offensichtlich. Weniger offensichtlich ist die Lock-in-Problematik bei T2-adaptierten Tools. Ein Retriever, der spezifisch für die Eigenheiten von GPT‑4 optimiert wurde, funktioniert nicht notwendigerweise mit Claude oder Gemini. Die Investition in Tool-Adaption ist damit teilweise an den gewählten Agenten gebunden.
Für die Sourcing-Strategie bedeutet das: Die Diversifikation über mehrere Foundation-Model-Anbieter – häufig als Risikominderung propagiert – kann die Adaptionskosten multiplizieren, wenn jeder Agent sein eigenes T2-optimiertes Tool-Ökosystem erfordert.
ROI-Messung als ungelöstes Problem
Die Autoren betonen die Notwendigkeit standardisierter Evaluierungsprotokolle als offene Forschungsfrage. Für Unternehmen übersetzt sich das in ein fundamentales Problem der Wertmessung. Wie quantifiziert man den Beitrag einer A1-Optimierung zur Geschäftswertschöpfung? Wie rechtfertigt man T2-Investitionen in Tool-Adaption gegenüber einem Management, das konkrete ROI-Zahlen erwartet?
Die Ehrlichkeit des Papers in dieser Frage ist bemerkenswert – und für die betriebswirtschaftliche Praxis unbequem. Solange die Forschung keine robusten Evaluierungsstandards etabliert hat, operieren Unternehmensinvestitionen in Agentic AI unter erhöhter Bewertungsunsicherheit.
Organisatorische Implikationen
Das Framework legt nahe, dass erfolgreiche Agentic-AI-Implementierungen keine reinen IT-Projekte sind. Die Entscheidung zwischen Agent- und Tool-Adaption hat Implikationen für Organisationsstrukturen, Kompetenzprofile und Governance-Modelle.
T1/T2-Strategien mit fixierten Agenten erlauben eine klarere Trennung zwischen Agent-Nutzung (Business) und Tool-Entwicklung (IT). A1/A2-Strategien erfordern eine engere Integration, weil die Qualität der Adaptionssignale direkt von der Qualität der Aufgabendefinition und der Erfolgsmessung abhängt – Domänenwissen wird zum kritischen Input für das ML-Engineering.
Die organisatorische Konsequenz: Unternehmen müssen nicht nur technische, sondern auch strukturelle Entscheidungen treffen. Die Wahl des Adaptionsparadigmas prägt die erforderliche Zusammenarbeit zwischen Fachbereichen und Technologie.
Fazit: Nüchternheit als Fortschritt
Das Stanford/Harvard-Paper leistet einen Beitrag, der in der aktuellen Hype-Debatte um Agentic AI selten ist: Es kartiert die technische Komplexität ohne Simplifikation und macht die inhärenten Trade-offs verschiedener Entwicklungsstrategien explizit. Für Entscheider ist das unbequem, aber wertvoll.
Die betriebswirtschaftliche Botschaft ist klar: Agentic AI ist keine Plug-and-Play-Technologie. Der Pfad von der beeindruckenden Demo zum zuverlässigen Produktionssystem führt durch ein Terrain, dessen Komplexität systematisch unterschätzt wird. Wer diese Komplexität ignoriert, riskiert nicht nur technisches Scheitern, sondern Fehlinvestitionen erheblichen Ausmaßes.
Das Framework bietet keine einfachen Antworten, aber es stellt die richtigen Fragen. In einer Technologiedebatte, die von Marketing-Narrativen dominiert wird, ist das bereits ein erheblicher Erkenntnisgewinn.
Quelle: Jiang, P. et al. (2025): Adaptation of Agentic AI. arXiv:2512.16301. Stanford University, Harvard University, UC Berkeley, Caltech, UIUC et al.
