Eine neue Sicherheitsstudie zu OpenClaw zeigt: Die Schwachstellen autonomer Personal-Agenten liegen nicht im Sprachmodell, sondern in der Architektur des persistenten Zustands. Eine Analyse aus institutionstheoretischer Perspektive.
Die KI-Sicherheitsdebatte konzentriert sich meist auf das Modell: auf Alignment, Jailbreaking, auf die Frage, ob ein Sprachmodell im entscheidenden Moment „nein” sagen kann. Eine kürzlich erschienene Sicherheitsanalyse des Personal-Agenten OpenClaw verschiebt den Blick grundlegend. Sie zeigt, dass die eigentliche Verwundbarkeit nicht im Reasoning-Verhalten des Modells liegt, sondern in einer Schicht darunter: in der Struktur des persistenten Agenten-Zustands selbst.
OpenClaw ist kein Laborsystem. Es handelt sich um einen produktiv eingesetzten Personal-Agenten mit umfassendem Systemzugriff — Gmail, Stripe, Dateisystem — und dauerhafter Zustandsverwaltung über Sitzungsgrenzen hinweg. Die Autoren führten eine Live-Sicherheitsbewertung durch: zwölf reale Angriffsszenarien, vier aktuelle Modelle (darunter Claude Sonnet 4.5 und Opus 4.6), kein Sandbox-Szenario. Die Ergebnisse sind ernüchternd.
Die CIK-Taxonomie als Diagnoserahmen
Die Studie ordnet den persistenten Agenten-Zustand in drei Dimensionen: Capability (ausführbare Skills), Identity(Persona, Regeln, Vertrauensanker) und Knowledge (Langzeit-Memory). Diese drei Dimensionen sind nicht abstrakt — sie sind in konkreten Dateien und Verzeichnissen abgebildet und bilden gemeinsam die operative Angriffsoberfläche.
Aus institutionstheoretischer Perspektive lässt sich diese Taxonomie unmittelbar an die Unterscheidung zwischen regelentwerfenden und regelgebundenen Agenten anschließen, die auf diesem Blog entwickelt wurde. Ein regelgebundener Agent navigiert innerhalb eines gegebenen institutionellen Rahmens; ein regelentwerfender Agent verändert diesen Rahmen selbst — oder lässt ihn durch Dritte verändern. Genau hier öffnet sich die Angriffsfläche: Wer Zugriff auf die CIK-Dimensionen eines persistenten Agenten hat, hat Zugriff auf dessen institutionellen Rahmen. Der Angreifer wird, mindestens temporär, zum regelentwerfenden Akteur — ohne erkennbaren Legitimationsakt.
Das Zwei-Phasen-Modell und seine strukturelle Logik
Die Angriffsmethodik folgt einer einfachen, wirkungsvollen Logik: In Phase 1 werden schädliche Inhalte in den persistenten Zustand injiziert; in Phase 2 löst eine neue Sitzung die gewünschte Aktion aus — auf Basis des vergifteten Zustands, ohne dass das Modell den Manipulationsursprung erkennen kann.
Die gemessenen Angriffsraten sind aufschlussreich. Ohne Poisoning liegt die Attack Success Rate modellabhängig zwischen 10 und 36,7 Prozent — bereits ein signifikanter Befund für Produktivsysteme. Mit Poisoning steigt sie auf durchschnittlich 64 bis 74 Prozent, mit Spitzenwerten von 89,2 Prozent. Selbst das robusteste getestete Modell (Opus 4.6) zeigt eine Verdreifachung der Angriffsrate gegenüber der Baseline.
