Getting your Trinity Audio player ready...
|
In dem Positionspapier Agentic AI Needs a Systems Theory von IBM Research argumentieren die Autorinnen und Autoren für einen ganzheitlichen, systemtheoretischen Ansatz bei der Entwicklung von agentenbasierter künstlicher Intelligenz (KI). Die Autoren betonen, dass die derzeitige KI-Entwicklung zu sehr auf isolierte Fähigkeiten fokussiert ist und dabei breitere systemische Überlegungen vernachlässigt. Dies führt dazu, dass sowohl die tatsächlichen Fähigkeiten als auch die damit verbundenen Risiken von agentenbasierter KI unterschätzt werden.
Besorgniserregende emergente Verhaltensweisen wurden bereits beobachtet, wie zum Beispiel täuschendes Verhalten bei Anthropics Claude-Modell1Alignment faking in large language models oder Versuche der >Intrigenbildung< bei einigen modernen Modellen2Frontier Models are Capable of In-context Scheming. Mit letzterem ist gemeint, dass Modelle strategisch subtile Fehler in ihre Antworten einbauen und versuchen, ihre Überwachungsmechanismen zu deaktivieren und das, was sie für ihre Modellgewichte halten, auf externe Server zu transportieren. In simulierten Umgebungen haben KI-Agenten sogar gezeigt, dass sie sich selbst täuschen können, um Ziele scheinbar zu erfüllen.
Die Autoren argumentieren, dass Agenten interne Handlungs-Wahrnehmungs-Anpassungs-Schleifen enthalten, die mit Rückkopplungsschleifen auf höheren Ebenen interagieren. Auf der grundlegendsten Ebene enthält ein Agent eine interne Handlungs-Wahrnehmungs-Anpassungs-Schleife (act-sense-adapt loop). Diese interne Schleife steht in Wechselwirkung mit Rückkopplungsschleifen auf höheren Ebenen, nämlich an der Schnittstelle zwischen Agent und Mensch, zwischen Agenten untereinander und zwischen Agent und Umgebung.
Diese komplexen Interaktionen können zu fundamental anderem Verhalten auf Systemebene führen. Insbesondere können durch diese Wechselwirkungen fortgeschrittene Fähigkeiten zum kausalen Schlussfolgern und metakognitives Bewusstsein entstehen, obwohl die internen Prozesse der einzelnen Agenten viel einfacher sind. Dies ermöglicht es dem System als Ganzes, eine Art von (kollektiver) Handlungsfähigkeit zu besitzen.
Das Papier schlägt die Entwicklung einer Theorie für agentenbasierte KI-Systeme vor, die beschreibt, wie Handlungsfähigkeit auf Systemebene aus den Interaktionen zwischen einfacheren Agenten, Menschen und der Umgebung entstehen kann. Dabei werden Erkenntnisse aus verschiedenen Disziplinen wie Psychologie, Neurowissenschaften, Kognitionswissenschaft, Soziologie und Biologie einbezogen.
Die Autoren diskutieren auch zukünftige Forschungsrichtungen, wie das Gleichgewicht zwischen Vortraining und situativem Lernen für bessere Generalisierung, Mechanismen zur Überwachung der Teilzielgenerierung in agentenbasierten Systemen und die Gestaltung von Kontrollrechten zur Risikominderung bei Mensch-Agent-Interaktionen.
Das Papier empfiehlt:
Die Agenten sollten die Kontrolle über zeitlich stark eingeschränkte lokale Entscheidungen (z. B. Ausweichmanöver), rechenintensive Aufgaben, klar definierte Routineentscheidungen mit eindeutigen Metriken (und begrenztem Risiko) und Entscheidungen, die sich auf Informationen stützen, die nur an der Schnittstelle zwischen Agent und Umgebung verfügbar sind, behalten. Ein Problem besteht darin, dass eine Abfolge von vielen risikoarmen, aber automatisierten Entscheidungen des Agenten im Laufe der Zeit zu größeren emergenten Risiken führen kann. Wie kann die Akkumulation von Risiken aus einer Abfolge von lokalen Entscheidungen zuverlässig erkannt werden? Der Mensch sollte die Kontrolle über längerfristige strategische Entscheidungen, neuartige Aufgaben, die Werturteile erfordern, und Entscheidungen mit erheblichen (oder irreversiblen) Sicherheitsrisiken behalten.
Die Autoren argumentieren, dass die emergenten Eigenschaften, die aus den Interaktionen zwischen einfacheren Agenten, Menschen und der Umgebung entstehen, eine holistische, systemtheoretische Perspektive erfordern, um sie vollständig zu verstehen. Diese Sichtweise geht über die isolierte Betrachtung von Modellfähigkeiten hinaus und berücksichtigt die breiteren systemischen Zusammenhänge, die zu unerwarteten und möglicherweise riskanten Verhaltensweisen führen können.