Getting your Trinity Audio player ready...
|
McKinsey, Goldman Sachs, Top-Anwaltskanzleien und medizinische Einrichtungen haben einen neuen Benchmark entwickelt, um zu messen, ob KI ihre Arbeit übernehmen kann. Das Ergebnis: Die besten Modelle erreichen nur 64 Prozent. Doch wer definiert, was „gute Arbeit” ist? Und was passiert, wenn die Schiedsrichter zugleich die sind, deren Jobs auf dem Spiel stehen?
Der Benchmark als Schutzwall
Der AI Productivity Index (APEX) präsentiert sich als methodischer Durchbruch: Endlich würden KI-Modelle nicht mehr an abstrakten Logikpuzzles gemessen, sondern an echter Wissensarbeit. 200 Aufgaben aus Investment Banking, Unternehmensberatung, Rechtswesen und Medizin – zusammengestellt von Experten bei Goldman Sachs, McKinsey, führenden Kanzleien und medizinischen Einrichtungen. Die besten Systeme erreichen 64,2 Prozent. Die Interpretation liegt nahe: KI ist noch weit davon entfernt, hochqualifizierte Arbeit zu übernehmen.
Doch diese Lesart übersieht etwas Entscheidendes. APEX ist nicht nur ein Benchmark – er ist ein Akt der Definition. Wer bestimmt, was in diesen Branchen als „gute Arbeit” gilt? Jene Experten, die ihre eigenen Aufgaben als Testfälle formulieren und die Bewertungskriterien festlegen. Jene Professionals, deren ökonomischer Wert unmittelbar davon abhängt, dass ihre Arbeit als komplex, nuanciert und unersetzlich erscheint.
Die entscheidende Frage lautet daher nicht: „Wie gut schneidet KI ab?” Sondern: „Wer hat die Messlatte aufgestellt – und in wessen Interesse?”
Die strukturelle Verzerrung
Wenn McKinsey-Berater definieren, was gute strategische Beratung ausmacht, wenn Goldman-Sachs-Banker festlegen, was eine überzeugende Finanzanalyse ist, wenn Spitzenanwälte bestimmen, welche juristische Argumentation zählt – dann wird nicht gemessen, ob KI diese Arbeit übernehmen kann. Dann wird gemessen, wie gut KI in bestehende Arbeitspraktiken hineinpasst.
Das ist der Kern der methodischen Verzerrung: Die Rubriken und Bewertungsmaßstäbe spiegeln etablierte, oft implizite Standards wider. Sie belohnen, was menschliche Experten für wertvoll halten, und übersehen, was KI möglicherweise anders – und effizienter – lösen könnte. Ein System, das eine Finanzanalyse in zwei Minuten statt zwei Tagen erstellt, aber nicht dem gewohnten 40-seitigen Format folgt, würde schlechter bewertet – selbst wenn das Ergebnis präziser wäre.
Diese Asymmetrie ist strukturell: Je stärker der Maßstab am „Human Expert Paradigm” ausgerichtet ist, desto unwahrscheinlicher erscheint disruptive Substitution.
Der Benchmark misst Konformität mit existierenden Arbeitsweisen, nicht transformatives Potenzial.
Was der Benchmark verschweigt
Die eigentliche Geschichte liegt nicht in den 64 Prozent Gesamtleistung, sondern in dem, was APEX nicht sagt. Praxisberichte aus genau diesen Branchen zeichnen ein differenzierteres Bild:
Junior-Analysten bei Investmentbanken verbringen 70 Prozent ihrer Zeit mit Standardanalysen, Datenaufbereitung und Präsentationserstellung – Tätigkeiten, die KI bereits heute mit erheblicher Geschwindigkeit übernehmen kann. Associate-Anwälte nutzen KI-Tools für erste Rechtsentwürfe und Präzedenzfallrecherchen, wodurch sich Billable Hours verschieben. Unternehmensberater setzen KI für Marktanalysen und Erststrukturierungen ein, die früher Wochen dauerten.
Die Frage ist nicht, ob KI Wissensarbeit ersetzt. Die Frage ist, welche Funktionsschichten innerhalb dieser Berufe zuerst absorbiert werden. APEX misst, ob KI wie ein Senior Partner denken kann. Aber das Transformationspotenzial liegt nicht auf Partner-Ebene – es liegt auf der Ebene der Junior Consultants, der Associates, der Analysten. Dort, wo hochqualifizierte Arbeit auf standardisierbare Muster trifft.
Die Illusion der Unersetzlichkeit
Es gibt ein historisches Muster: Berufsgruppen, deren Arbeit durch Technologie bedroht wird, definieren retrospektiv jene Aspekte ihrer Tätigkeit als „eigentlich wesentlich”, die sich der Automatisierung (noch) entziehen. Ärzte betonten die Bedeutung der persönlichen Untersuchung, als Diagnostik-Software aufkam. Journalisten hoben den investigativen Tiefgang hervor, als Algorithmen begannen, Börsenberichte zu schreiben. Taxifahrer argumentierten mit lokaler Expertise, als GPS-Navigation aufkam.
Diese Argumentation ist nicht falsch – aber sie ist selektiv. Sie übersieht, dass Substitution selten vollständig geschieht, sondern schrittweise, von unten nach oben. Nicht der Partner wird ersetzt, sondern die Pyramide darunter schrumpft. Die Arbeitsteilung zwischen Junior und Senior verschiebt sich fundamental. Organisationen benötigen weniger Köpfe für dieselbe Output-Menge – oder sie steigern den Output dramatisch mit gleicher Kopfzahl.
APEX, definiert von Senior Professionals, bildet diese untere Schicht der Arbeitspyramide nicht ab. Der Benchmark fragt: „Kann KI wie ein Experte denken?” Dabei lautet die ökonomisch relevante Frage: „Welche Experten-Ebenen werden überflüssig?”
Der blinde Fleck der Disruption
Wahre Disruption zeigt sich nicht darin, dass die neue Technologie das Alte perfekt nachahmt. Sie zeigt sich darin, dass sie neue Arbeitsweisen ermöglicht, die mit alten Maßstäben nicht mehr vergleichbar sind. Als Tabellenkalkulationsprogramme aufkamen, haben sie nicht einfach die Arbeit von Buchhaltungsabteilungen repliziert – sie haben die Frage neu gestellt, wie viele Menschen für diese Arbeit überhaupt nötig sind.
KI wird nicht erfolgreich sein, weil sie eine perfekte McKinsey-Analyse liefert, die den Rubriken der McKinsey-Partner entspricht. Sie wird erfolgreich sein, wenn Unternehmen entdecken, dass sie für bestimmte Analysetypen keine McKinsey-Partner mehr brauchen – weil ein KI-gestützter interner Analyst ausreicht.
Der APEX-Benchmark kann diese Dimension nicht erfassen, weil er in der Logik der Experten gefangen bleibt, die ihn definiert haben. Er misst Annäherung an bestehende Standards, nicht Transformation der Standards selbst.
Die eigentliche Konsequenz
Die 64 Prozent sind keine Beruhigung. Sie sind eine Warnung – allerdings nicht die, die APEX zu kommunizieren scheint. Die Warnung lautet nicht: „KI ist noch nicht so weit.” Sie lautet: „Die Transformation hat bereits begonnen, aber wir messen sie falsch.”
Organisationen experimentieren bereits mit KI-Integration. Die Frage ist nicht mehr, ob Substitution stattfindet, sondern wo genau die Schwelle verläuft. Investment Banking, Consulting, Law und Medicine werden nicht verschwinden. Aber ihre internen Hierarchien, ihre Ausbildungswege, ihre Wertschöpfungsketten werden sich radikal verändern.
Wer heute Junior Analyst oder Associate ist, arbeitet in einer Rolle, die sich bereits im Umbruch befindet. Wer heute Partner ist, definiert Benchmarks, die diese Realität verschleiern.
Fazit: Die Frage neu stellen
APEX ist ein wichtiger Beitrag zur KI-Debatte – aber nicht, weil er zeigt, dass KI noch nicht weit genug ist. Sondern weil er offenlegt, wie sehr unsere Messverfahren von den Interessen jener geprägt sind, die gemessen werden.
Die produktivere Frage lautet nicht: „Erreicht KI menschliche Experten-Performance?” Sondern: „Welche Teile von Wissensarbeit sind bereits routinisiert genug, um transformiert zu werden – und wie schnell geht das?”
Der Benchmark zeigt uns nicht die Grenzen der KI. Er zeigt uns die Grenzen unserer Vorstellungskraft – und die Macht jener, die definieren dürfen, was als „gute Arbeit” gilt. Die eigentliche Disruption findet dort statt, wo niemand mehr hinschaut: in den unteren Etagen der Wissenspyramide, wo hochqualifizierte Routinearbeit auf algorithmische Effizienz trifft.
Dort beginnt die Zukunft der Arbeit. Nicht bei den 64 Prozent.