Warum die Tech­nolo­gie gle­ichzeit­ig scheit­ert und funk­tion­iert – und was das für Unternehmen bedeutet


Die Aus­gangslage

Zwei Nachricht­en prägten den Jahreswech­sel 2025/26 in der KI-Debat­te. Sie scheinen sich zu wider­sprechen – und erk­lären sich doch gegen­seit­ig.

Die erste Nachricht: Der neue AI Intel­li­gence Index erset­zt akademis­che Bench­marks durch wirtschaftliche Real­ität­sprü­fun­gen. Die Spitzen­werte der führen­den Mod­elle fall­en von 73 auf unter 50 Prozent. Bei wis­senschaftlichem Rea­son­ing erre­icht selb­st GPT‑5.2 nur 11 Prozent. Die Mod­elle, die in Pressemit­teilun­gen als rev­o­lu­tionär ange­priesen wer­den, scheit­ern an Auf­gaben, die in Forschungs- und Entwick­lungsabteilun­gen alltäglich sind.

Die zweite Nachricht: Boris Cherny, der Schöpfer von Claude Code, zeigt seinen Arbeit­sall­t­ag. Er betreibt 10 bis 15 par­al­lele KI-Instanzen, die unter­schiedliche Auf­gaben bear­beit­en. Die Entwick­ler-Com­mu­ni­ty reagiert eupho­risch. Von Pro­duk­tiv­itäts­mul­ti­p­lika­tion ist die Rede, von einem Par­a­dig­men­wech­sel.

Wie passt das zusam­men? Scheit­ert die Tech­nolo­gie – oder funk­tion­iert sie?

Die Auflö­sung des Wider­spruchs

Der schein­bare Wider­spruch löst sich auf, wenn man die Randbe­din­gun­gen betra­chtet. Die Ernüchterung und der Erfolg betr­e­f­fen unter­schiedliche Anwen­dungsszenar­ien – und genau diese Unter­schei­dung ist der Schlüs­sel.

Was die neuen Bench­marks messen

Der AI Intel­li­gence Index v4.0 bew­ertet nicht mehr, ob Mod­elle akademis­che Prü­fun­gen beste­hen. Er misst, ob sie wirtschaftlich pro­duk­tive Arbeit leis­ten kön­nen: Doku­mente erstellen, Präsen­ta­tio­nen bauen, Code schreiben, mehrstu­fige Work­flows bewälti­gen.

Die Ergeb­nisse sind ernüchternd:

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert