Der neue AI Intelligence Index ersetzt akademische Schönwetter-Tests durch wirtschaftliche Realitätsprüfungen – und die Spitzenwerte fallen von 73% auf unter 50%. Für deutsche Automobil- und Finanzkonzerne, die ihre Transformationsstrategien auf KI-Versprechen gebaut haben, ist das mehr als eine methodische Fußnote. Es ist die Vermessung einer Kluft, die bisher nur geahnt wurde.
Der Artificial Analysis AI Intelligence Index v4.0 vollzieht einen Paradigmenwechsel: Weg von akademischen Leistungstests, hin zu wirtschaftlich messbarer Produktivität. Die Konsequenz ist brutal ehrlich – die Spitzenwerte fallen von durchschnittlich 73% auf unter 50%. Was auf den ersten Blick wie ein Rückschritt wirkt, ist tatsächlich ein Realitätsabgleich. Die bisherigen Benchmarks (MMLU-Pro, AIME, LiveCodeBench) maßen, ob Modelle Prüfungen bestehen. Die neuen Tests (GDPval-AA, Terminal-Bench Hard, SciCode) messen, ob sie Jobs erledigen können.
Für deutsche Unternehmen, die milliardenschwere KI-Transformationsprogramme aufgelegt haben, ist diese Unterscheidung nicht akademisch. Sie ist existenziell.
Die Anatomie der neuen Messstandards
GDPval-AA – der zentrale neue Benchmark – evaluiert 44 Berufsrollen in 9 Branchen anhand konkreter Arbeitsergebnisse: Dokumente, Präsentationen, Spreadsheets, Code. Die Bewertung erfolgt durch Pairwise-Vergleiche zwischen menschlichen und KI-generierten Outputs, inklusive subjektiver Faktoren wie Ästhetik und Stil.
Die vier Hauptkategorien mit je 25% Gewichtung:
- Agents: Tool-Calling, reale Workflows (Terminal-Bench Hard)
- Coding: Software-Engineering-Aufgaben (SciCode)
- General: Wissensarbeit, Halluzinationskontrolle (GDPval-AA)
- Scientific Reasoning: Physik und Naturwissenschaften (CritPt)
Besonders aufschlussreich: Bei CritPt für wissenschaftliches Reasoning erreicht selbst GPT‑5.2 nur 11%. Die Modelle, die in Pressemitteilungen als “revolutionär” angepriesen werden, scheitern an Aufgaben, die in Forschungs- und Entwicklungsabteilungen alltäglich sind.
Implikationen für die deutsche Auto…
