Getting your Trinity Audio player ready...

In dem Posi­tion­spa­pi­er Agen­tic AI Needs a Sys­tems The­o­ry von IBM Research argu­men­tieren die Autorin­nen und Autoren für einen ganzheitlichen, sys­temthe­o­retis­chen Ansatz bei der Entwick­lung von agen­ten­basiert­er kün­stlich­er Intel­li­genz (KI). Die Autoren beto­nen, dass die derzeit­ige KI-Entwick­lung zu sehr auf isolierte Fähigkeit­en fokussiert ist und dabei bre­it­ere sys­temis­che Über­legun­gen ver­nach­läs­sigt. Dies führt dazu, dass sowohl die tat­säch­lichen Fähigkeit­en als auch die damit ver­bun­de­nen Risiken von agen­ten­basiert­er KI unter­schätzt wer­den.

Besorgnis­er­re­gende emer­gente Ver­hal­tensweisen wur­den bere­its beobachtet, wie zum Beispiel täuschen­des Ver­hal­ten bei Anthrop­ics Claude-Mod­ell1Align­ment fak­ing in large lan­guage mod­els oder Ver­suche der >Intri­gen­bil­dung< bei eini­gen mod­er­nen Mod­ellen2Fron­tier Mod­els are Capa­ble of In-con­text Schem­ing. Mit let­zterem ist gemeint, dass Mod­elle strate­gisch sub­tile Fehler in ihre Antworten ein­bauen und ver­suchen, ihre Überwachungsmech­a­nis­men zu deak­tivieren und das, was sie für ihre Mod­ell­gewichte hal­ten, auf externe Serv­er zu trans­portieren. In simulierten Umge­bun­gen haben KI-Agen­ten sog­ar gezeigt, dass sie sich selb­st täuschen kön­nen, um Ziele schein­bar zu erfüllen.

Die Autoren argu­men­tieren, dass Agen­ten interne Hand­lungs-Wahrnehmungs-Anpas­sungs-Schleifen enthal­ten, die mit Rück­kop­plungss­chleifen auf höheren Ebe­nen inter­agieren. Auf der grundle­gend­sten Ebene enthält ein Agent eine interne Hand­lungs-Wahrnehmungs-Anpas­sungs-Schleife (act-sense-adapt loop). Diese interne Schleife ste­ht in Wech­sel­wirkung mit Rück­kop­plungss­chleifen auf höheren Ebe­nen, näm­lich an der Schnittstelle zwis­chen Agent und Men­sch, zwis­chen Agen­ten untere­inan­der und zwis­chen Agent und Umge­bung.

Diese kom­plex­en Inter­ak­tio­nen kön­nen zu fun­da­men­tal anderem Ver­hal­ten auf Sys­te­mebene führen. Ins­beson­dere kön­nen durch diese Wech­sel­wirkun­gen fort­geschrit­tene Fähigkeit­en zum kausalen Schlussfol­gern und metakog­ni­tives Bewusst­sein entste­hen, obwohl die inter­nen Prozesse der einzel­nen Agen­ten viel ein­fach­er sind. Dies ermöglicht es dem Sys­tem als Ganzes, eine Art von (kollek­tiv­er) Hand­lungs­fähigkeit zu besitzen.

Das Papi­er schlägt die Entwick­lung ein­er The­o­rie für agen­ten­basierte KI-Sys­teme vor, die beschreibt, wie Hand­lungs­fähigkeit auf Sys­te­mebene aus den Inter­ak­tio­nen zwis­chen ein­facheren Agen­ten, Men­schen und der Umge­bung entste­hen kann. Dabei wer­den Erken­nt­nisse aus ver­schiede­nen Diszi­plinen wie Psy­cholo­gie, Neu­rowis­senschaften, Kog­ni­tion­swis­senschaft, Sozi­olo­gie und Biolo­gie ein­be­zo­gen.

Die Autoren disku­tieren auch zukün­ftige Forschungsrich­tun­gen, wie das Gle­ichgewicht zwis­chen Vor­train­ing und sit­u­a­tivem Ler­nen für bessere Gen­er­al­isierung, Mech­a­nis­men zur Überwachung der Teilziel­gener­ierung in agen­ten­basierten Sys­te­men und die Gestal­tung von Kon­troll­recht­en zur Risiko­min­derung bei Men­sch-Agent-Inter­ak­tio­nen.

Das Papi­er emp­fiehlt:

Die Agen­ten soll­ten die Kon­trolle über zeitlich stark eingeschränk­te lokale Entschei­dun­gen (z. B. Auswe­ich­manöver), rechen­in­ten­sive Auf­gaben, klar definierte Rou­ti­neentschei­dun­gen mit ein­deuti­gen Metriken (und begren­ztem Risiko) und Entschei­dun­gen, die sich auf Infor­ma­tio­nen stützen, die nur an der Schnittstelle zwis­chen Agent und Umge­bung ver­füg­bar sind, behal­ten. Ein Prob­lem beste­ht darin, dass eine Abfolge von vie­len risikoar­men, aber automa­tisierten Entschei­dun­gen des Agen­ten im Laufe der Zeit zu größeren emer­gen­ten Risiken führen kann. Wie kann die Akku­mu­la­tion von Risiken aus ein­er Abfolge von lokalen Entschei­dun­gen zuver­läs­sig erkan­nt wer­den? Der Men­sch sollte die Kon­trolle über länger­fristige strate­gis­che Entschei­dun­gen, neuar­tige Auf­gaben, die Wer­turteile erfordern, und Entschei­dun­gen mit erhe­blichen (oder irre­versiblen) Sicher­heit­srisiken behal­ten.

Die Autoren argu­men­tieren, dass die emer­gen­ten Eigen­schaften, die aus den Inter­ak­tio­nen zwis­chen ein­facheren Agen­ten, Men­schen und der Umge­bung entste­hen, eine holis­tis­che, sys­temthe­o­retis­che Per­spek­tive erfordern, um sie voll­ständig zu ver­ste­hen. Diese Sichtweise geht über die isolierte Betra­ch­tung von Mod­ellfähigkeit­en hin­aus und berück­sichtigt die bre­it­eren sys­temis­chen Zusam­men­hänge, die zu uner­warteten und möglicher­weise riskan­ten Ver­hal­tensweisen führen kön­nen.

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert