Warum die Technologie gleichzeitig scheitert und funktioniert – und was das für Unternehmen bedeutet
Die Ausgangslage
Zwei Nachrichten prägten den Jahreswechsel 2025/26 in der KI-Debatte. Sie scheinen sich zu widersprechen – und erklären sich doch gegenseitig.
Die erste Nachricht: Der neue AI Intelligence Index ersetzt akademische Benchmarks durch wirtschaftliche Realitätsprüfungen. Die Spitzenwerte der führenden Modelle fallen von 73 auf unter 50 Prozent. Bei wissenschaftlichem Reasoning erreicht selbst GPT‑5.2 nur 11 Prozent. Die Modelle, die in Pressemitteilungen als revolutionär angepriesen werden, scheitern an Aufgaben, die in Forschungs- und Entwicklungsabteilungen alltäglich sind.
Die zweite Nachricht: Boris Cherny, der Schöpfer von Claude Code, zeigt seinen Arbeitsalltag. Er betreibt 10 bis 15 parallele KI-Instanzen, die unterschiedliche Aufgaben bearbeiten. Die Entwickler-Community reagiert euphorisch. Von Produktivitätsmultiplikation ist die Rede, von einem Paradigmenwechsel.
Wie passt das zusammen? Scheitert die Technologie – oder funktioniert sie?
Die Auflösung des Widerspruchs
Der scheinbare Widerspruch löst sich auf, wenn man die Randbedingungen betrachtet. Die Ernüchterung und der Erfolg betreffen unterschiedliche Anwendungsszenarien – und genau diese Unterscheidung ist der Schlüssel.
Was die neuen Benchmarks messen
Der AI Intelligence Index v4.0 bewertet nicht mehr, ob Modelle akademische Prüfungen bestehen. Er misst, ob sie wirtschaftlich produktive Arbeit leisten können: Dokumente erstellen, Präsentationen bauen, Code schreiben, mehrstufige Workflows bewältigen.
Die Ergebnisse sind ernüchternd:
- Agentenbasierte Workflows: Terminal-Bench Hard prüft, ob KI-Systeme komplexe, verkettete Aufgaben mit Tool-Nutzung bewältigen können. Selbst Spitzenmodelle scheitern regelmäßig. Die 47 „Hard Tasks” entsprechen dem, was ein erfahrener Systemingenieur täglich erledigt.
- Wissenschaftliches Reasoning: Mit 11 Prozent bei CritPt zeigen die Modell…
