Getting your Trinity Audio player ready...

McK­in­sey, Gold­man Sachs, Top-Anwalt­skan­zleien und medi­zinis­che Ein­rich­tun­gen haben einen neuen Bench­mark entwick­elt, um zu messen, ob KI ihre Arbeit übernehmen kann. Das Ergeb­nis: Die besten Mod­elle erre­ichen nur 64 Prozent. Doch wer definiert, was „gute Arbeit” ist? Und was passiert, wenn die Schied­srichter zugle­ich die sind, deren Jobs auf dem Spiel ste­hen?


Der Bench­mark als Schutzwall

Der AI Pro­duc­tiv­i­ty Index (APEX) präsen­tiert sich als method­is­ch­er Durch­bruch: Endlich wür­den KI-Mod­elle nicht mehr an abstrak­ten Logikpuz­zles gemessen, son­dern an echter Wis­sensar­beit. 200 Auf­gaben aus Invest­ment Bank­ing, Unternehmens­ber­atung, Rechtswe­sen und Medi­zin – zusam­mengestellt von Experten bei Gold­man Sachs, McK­in­sey, führen­den Kan­zleien und medi­zinis­chen Ein­rich­tun­gen. Die besten Sys­teme erre­ichen 64,2 Prozent. Die Inter­pre­ta­tion liegt nahe: KI ist noch weit davon ent­fer­nt, hochqual­i­fizierte Arbeit zu übernehmen.

Doch diese Lesart über­sieht etwas Entschei­den­des. APEX ist nicht nur ein Bench­mark – er ist ein Akt der Def­i­n­i­tion. Wer bes­timmt, was in diesen Branchen als „gute Arbeit” gilt? Jene Experten, die ihre eige­nen Auf­gaben als Test­fälle for­mulieren und die Bew­er­tungskri­te­rien fes­tle­gen. Jene Pro­fes­sion­als, deren ökonomis­ch­er Wert unmit­tel­bar davon abhängt, dass ihre Arbeit als kom­plex, nuanciert und uner­set­zlich erscheint.

Die entschei­dende Frage lautet daher nicht: „Wie gut schnei­det KI ab?” Son­dern: „Wer hat die Mess­lat­te aufgestellt – und in wessen Inter­esse?”

Die struk­turelle Verz­er­rung

Wenn McK­in­sey-Berater definieren, was gute strate­gis­che Beratung aus­macht, wenn Gold­man-Sachs-Banker fes­tle­gen, was eine überzeu­gende Finan­z­analyse ist, wenn Spitzenan­wälte bes­tim­men, welche juris­tis­che Argu­men­ta­tion zählt – dann wird nicht gemessen, ob KI diese Arbeit übernehmen kann. Dann wird gemessen, wie gut KI in beste­hende Arbeit­sprak­tiken hinein­passt.

Das ist der Kern der method­is­chen Verz­er­rung: Die Rubriken und Bew­er­tungs­maßstäbe spiegeln etablierte, oft implizite Stan­dards wider. Sie belohnen, was men­schliche Experten für wertvoll hal­ten, und überse­hen, was KI möglicher­weise anders – und effizien­ter – lösen kön­nte. Ein Sys­tem, das eine Finan­z­analyse in zwei Minuten statt zwei Tagen erstellt, aber nicht dem gewohn­ten 40-seit­i­gen For­mat fol­gt, würde schlechter bew­ertet – selb­st wenn das Ergeb­nis präzis­er wäre.

Diese Asym­me­trie ist struk­turell: Je stärk­er der Maßstab am „Human Expert Par­a­digm” aus­gerichtet ist, desto unwahrschein­lich­er erscheint dis­rup­tive Sub­sti­tu­tion.

Der Bench­mark misst Kon­for­mität mit existieren­den Arbeitsweisen, nicht trans­for­ma­tives Poten­zial.

Was der Bench­mark ver­schweigt

Die eigentliche Geschichte liegt nicht in den 64 Prozent Gesamtleis­tung, son­dern in dem, was APEX nicht sagt. Prax­is­berichte aus genau diesen Branchen zeich­nen ein dif­feren­ziert­eres Bild:

Junior-Ana­lysten bei Invest­ment­banken ver­brin­gen 70 Prozent ihrer Zeit mit Stan­dar­d­analy­sen, Date­nauf­bere­itung und Präsen­ta­tion­ser­stel­lung – Tätigkeit­en, die KI bere­its heute mit erhe­blich­er Geschwindigkeit übernehmen kann. Asso­ciate-Anwälte nutzen KI-Tools für erste Recht­sen­twürfe und Präze­den­z­fall­recherchen, wodurch sich Bill­able Hours ver­schieben. Unternehmens­ber­ater set­zen KI für Mark­t­analy­sen und Erst­struk­turierun­gen ein, die früher Wochen dauerten.

Die Frage ist nicht, ob KI Wis­sensar­beit erset­zt. Die Frage ist, welche Funk­tion­ss­chicht­en inner­halb dieser Berufe zuerst absorbiert wer­den. APEX misst, ob KI wie ein Senior Part­ner denken kann. Aber das Trans­for­ma­tionspoten­zial liegt nicht auf Part­ner-Ebene – es liegt auf der Ebene der Junior Con­sul­tants, der Asso­ciates, der Ana­lysten. Dort, wo hochqual­i­fizierte Arbeit auf stan­dar­d­isier­bare Muster trifft.

Die Illu­sion der Uner­set­zlichkeit

Es gibt ein his­torisches Muster: Beruf­s­grup­pen, deren Arbeit durch Tech­nolo­gie bedro­ht wird, definieren ret­ro­spek­tiv jene Aspek­te ihrer Tätigkeit als „eigentlich wesentlich”, die sich der Automa­tisierung (noch) entziehen. Ärzte beton­ten die Bedeu­tung der per­sön­lichen Unter­suchung, als Diag­nos­tik-Soft­ware aufkam. Jour­nal­is­ten hoben den inves­tiga­tiv­en Tief­gang her­vor, als Algo­rith­men began­nen, Börsen­berichte zu schreiben. Tax­i­fahrer argu­men­tierten mit lokaler Exper­tise, als GPS-Nav­i­ga­tion aufkam.

Diese Argu­men­ta­tion ist nicht falsch – aber sie ist selek­tiv. Sie über­sieht, dass Sub­sti­tu­tion sel­ten voll­ständig geschieht, son­dern schrit­tweise, von unten nach oben. Nicht der Part­ner wird erset­zt, son­dern die Pyra­mide darunter schrumpft. Die Arbeit­steilung zwis­chen Junior und Senior ver­schiebt sich fun­da­men­tal. Organ­i­sa­tio­nen benöti­gen weniger Köpfe für dieselbe Out­put-Menge – oder sie steigern den Out­put drama­tisch mit gle­ich­er Kopfzahl.

APEX, definiert von Senior Pro­fes­sion­als, bildet diese untere Schicht der Arbeit­spyra­mide nicht ab. Der Bench­mark fragt: „Kann KI wie ein Experte denken?” Dabei lautet die ökonomisch rel­e­vante Frage: „Welche Experten-Ebe­nen wer­den über­flüs­sig?”

Der blinde Fleck der Dis­rup­tion

Wahre Dis­rup­tion zeigt sich nicht darin, dass die neue Tech­nolo­gie das Alte per­fekt nachahmt. Sie zeigt sich darin, dass sie neue Arbeitsweisen ermöglicht, die mit alten Maßstäben nicht mehr ver­gle­ich­bar sind. Als Tabel­lenkalku­la­tion­spro­gramme aufka­men, haben sie nicht ein­fach die Arbeit von Buch­hal­tungsabteilun­gen repliziert – sie haben die Frage neu gestellt, wie viele Men­schen für diese Arbeit über­haupt nötig sind.

KI wird nicht erfol­gre­ich sein, weil sie eine per­fek­te McK­in­sey-Analyse liefert, die den Rubriken der McK­in­sey-Part­ner entspricht. Sie wird erfol­gre­ich sein, wenn Unternehmen ent­deck­en, dass sie für bes­timmte Analy­se­typen keine McK­in­sey-Part­ner mehr brauchen – weil ein KI-gestützter intern­er Ana­lyst aus­re­icht.

Der APEX-Bench­mark kann diese Dimen­sion nicht erfassen, weil er in der Logik der Experten gefan­gen bleibt, die ihn definiert haben. Er misst Annäherung an beste­hende Stan­dards, nicht Trans­for­ma­tion der Stan­dards selb­st.

Die eigentliche Kon­se­quenz

Die 64 Prozent sind keine Beruhi­gung. Sie sind eine War­nung – allerd­ings nicht die, die APEX zu kom­mu­nizieren scheint. Die War­nung lautet nicht: „KI ist noch nicht so weit.” Sie lautet: „Die Trans­for­ma­tion hat bere­its begonnen, aber wir messen sie falsch.”

Organ­i­sa­tio­nen exper­i­men­tieren bere­its mit KI-Inte­gra­tion. Die Frage ist nicht mehr, ob Sub­sti­tu­tion stat­tfind­et, son­dern wo genau die Schwelle ver­läuft. Invest­ment Bank­ing, Con­sult­ing, Law und Med­i­cine wer­den nicht ver­schwinden. Aber ihre inter­nen Hier­ar­chien, ihre Aus­bil­dungswege, ihre Wertschöp­fungs­ket­ten wer­den sich radikal verän­dern.

Wer heute Junior Ana­lyst oder Asso­ciate ist, arbeit­et in ein­er Rolle, die sich bere­its im Umbruch befind­et. Wer heute Part­ner ist, definiert Bench­marks, die diese Real­ität ver­schleiern.

Faz­it: Die Frage neu stellen

APEX ist ein wichtiger Beitrag zur KI-Debat­te – aber nicht, weil er zeigt, dass KI noch nicht weit genug ist. Son­dern weil er offen­legt, wie sehr unsere Messver­fahren von den Inter­essen jen­er geprägt sind, die gemessen wer­den.

Die pro­duk­ti­vere Frage lautet nicht: „Erre­icht KI men­schliche Experten-Per­for­mance?” Son­dern: „Welche Teile von Wis­sensar­beit sind bere­its rou­tin­isiert genug, um trans­formiert zu wer­den – und wie schnell geht das?”

Der Bench­mark zeigt uns nicht die Gren­zen der KI. Er zeigt uns die Gren­zen unser­er Vorstel­lungskraft – und die Macht jen­er, die definieren dür­fen, was als „gute Arbeit” gilt. Die eigentliche Dis­rup­tion find­et dort statt, wo nie­mand mehr hin­schaut: in den unteren Eta­gen der Wis­senspyra­mide, wo hochqual­i­fizierte Rou­tin­ear­beit auf algo­rith­mis­che Effizienz trifft.

Dort begin­nt die Zukun­ft der Arbeit. Nicht bei den 64 Prozent.

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert