Eine neue Studie führt den Begriff des Self-Evolving Agent ein und behauptet, echte kognitive Evolution von Pseudo-Evolution unterscheiden zu können. Das entscheidende Instrument ist nicht die Erfolgsrate, sondern die Token-Konvergenz über Aufgabensequenzen. Der Befund ist methodisch produktiv — aber er wirft konzeptionelle Fragen auf, die weit über Benchmarkdesign hinausgehen.
Wer KI-Agenten bisher nach ihrer Erfolgsrate bewertet hat, hat möglicherweise das Falsche gemessen. Das ist die zentrale These einer aktuellen Studie, die mit dem Self-Evolving Agent (SEA) einen neuen Agententypus einführt, eine minimale Referenzarchitektur vorschlägt und mit SEA-Eval einen Evaluationsrahmen entwickelt, der nicht den Einzelerfolg, sondern die Entwicklung über Aufgabensequenzen hinweg messen soll. Der leitende Begriff ist „genuine Evolution” — und die Studie liefert ein erstes Instrument, das zwischen echter und vorgetäuschter Evolution unterscheidet.
Bevor man diesen konzeptionellen Anspruch ernst nimmt, ist jedoch eine Quellenkritik unumgänglich.
Die empirische Grundlage ist schmal: 32 atomare Aufgaben, zwei Agenten-Frameworks, ein einziges Frontier-LLM. Das ist kein Beweis für evolutionäre Dynamik, sondern ein Proof-of-Concept unter Laborbedingungen. Insbesondere die Wahl des Token-Verbrauchs als Hauptproxy für echte Evolution ist epistemisch diskussionswürdig: Token-Konvergenz über ähnliche Aufgaben ist eine notwendige, keine hinreichende Bedingung für kognitive Adaptation. Ein Agent, der denselben einfachen Lösungsweg mechanisch reproduziert, konvergiert ebenfalls — ohne je etwas gelernt zu haben. Dass einer der beiden getesteten Agenten — OpenClaw — in der bisherigen Debatte bereits als Sicherheits-Governance-Versagen in Erscheinung getreten ist, ist zudem keine zufällige Doppelrolle. Sie deutet auf ein strukturelles Architekturproblem hin, das über einzelne Testkonfigurationen hinausgeht. Diese Einschränkungen schmälern jedoch nicht den konzeptionellen Wert der Arbeit — s…
