Eine neue Sicher­heitsstudie zu Open­Claw zeigt: Die Schwach­stellen autonomer Per­son­al-Agen­ten liegen nicht im Sprach­mod­ell, son­dern in der Architek­tur des per­sis­ten­ten Zus­tands. Eine Analyse aus insti­tu­tion­s­the­o­retis­ch­er Per­spek­tive.


Die KI-Sicher­heits­de­bat­te konzen­tri­ert sich meist auf das Mod­ell: auf Align­ment, Jail­break­ing, auf die Frage, ob ein Sprach­mod­ell im entschei­den­den Moment „nein” sagen kann. Eine kür­zlich erschienene Sicher­heit­s­analyse des Per­son­al-Agen­ten Open­Claw ver­schiebt den Blick grundle­gend. Sie zeigt, dass die eigentliche Ver­wund­barkeit nicht im Rea­son­ing-Ver­hal­ten des Mod­ells liegt, son­dern in ein­er Schicht darunter: in der Struk­tur des per­sis­ten­ten Agen­ten-Zus­tands selb­st.

Open­Claw ist kein Laborsys­tem. Es han­delt sich um einen pro­duk­tiv einge­set­zten Per­son­al-Agen­ten mit umfassen­dem Sys­temzu­griff — Gmail, Stripe, Dateisys­tem — und dauer­hafter Zus­tandsver­wal­tung über Sitzungs­gren­zen hin­weg. Die Autoren führten eine Live-Sicher­heits­be­w­er­tung durch: zwölf reale Angriff­sszenar­ien, vier aktuelle Mod­elle (darunter Claude Son­net 4.5 und Opus 4.6), kein Sand­box-Szenario. Die Ergeb­nisse sind ernüchternd.

Die CIK-Taxonomie als Diagnoserahmen

Die Studie ord­net den per­sis­ten­ten Agen­ten-Zus­tand in drei Dimen­sio­nen: Capa­bil­i­ty (aus­führbare Skills), Iden­ti­ty(Per­sona, Regeln, Ver­trauen­sanker) und Knowl­edge (Langzeit-Mem­o­ry). Diese drei Dimen­sio­nen sind nicht abstrakt — sie sind in konkreten Dateien und Verze­ich­nis­sen abge­bildet und bilden gemein­sam die oper­a­tive Angriff­sober­fläche.

Aus insti­tu­tion­s­the­o­retis­ch­er Per­spek­tive lässt sich diese Tax­onomie unmit­tel­bar an die Unter­schei­dung zwis­chen rege­len­twer­fend­en und regel­ge­bun­de­nen Agen­ten anschließen, die auf diesem Blog entwick­elt wurde. Ein regel­ge­bun­den­er Agent navigiert inner­halb eines gegebe­nen insti­tu­tionellen Rah­mens; ein rege­len­twer­fend­er Agent verän­dert diesen Rah­men selb­st — oder lässt ihn durch Dritte verän­dern. Genau hier öffnet sich die Angriffs­fläche: Wer Zugriff auf die CIK-Dimen­sio­nen eines per­sis­ten­ten Agen­ten hat, hat Zugriff auf dessen insti­tu­tionellen Rah­men. Der Angreifer wird, min­destens tem­porär, zum rege­len­twer­fend­en Akteur — ohne erkennbaren Legit­i­ma­tion­sakt.

Das Zwei-Phasen-Modell und seine strukturelle Logik

Die Angriff­s­methodik fol­gt ein­er ein­fachen, wirkungsvollen Logik: In Phase 1 wer­den schädliche Inhalte in den per­sis­ten­ten Zus­tand injiziert; in Phase 2 löst eine neue Sitzung die gewün­schte Aktion aus — auf Basis des vergifteten Zus­tands, ohne dass das Mod­ell den Manip­u­la­tion­sur­sprung erken­nen kann.

Die gemesse­nen Angriff­s­rat­en sind auf­schlussre­ich. Ohne Poi­son­ing liegt die Attack Suc­cess Rate modellab­hängig zwis­chen 10 und 36,7 Prozent — bere­its ein sig­nifikan­ter Befund für Pro­duk­tivsys­teme. Mit Poi­son­ing steigt sie auf durch­schnit­tlich 64 bis 74 Prozent, mit Spitzen­werten von 89,2 Prozent. Selb­st das robusteste getestete Mod­ell (Opus 4.6) zeigt eine Ver­dreifachung der Angriff­s­rate gegenüber der Base­line.

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert