Für die Autoren des Papers A Call for Embodied AI besteht der nächste logische Schritt in Richtung wirklich intelligenter und allgemeiner KI in der Entwicklung und Realisierung von verkörperten KI-Agenten. Zwar könnten nach Ansicht der Autoren die aktuellen LLM-basierten Grundmodelle die Basis für die Entwicklung dieser Agenten bilden; sie sind jedoch nur eine Komponente eines wirklich verkörperten Agenten. Es müssen weitere Bausteine hinzukommen, um dafür zu sorgen, dass Agenten wahrnehmen, mit ihrer Umgebung interagieren und diese verändern, ein Gedächtnis haben und aus Erfahrungen lernen können. Trotzdem bleiben noch einige Hürden.
Große Sprachmodelle alleine reichen nicht aus
Die Autoren argumentieren weiter, dass Große Sprachmodelle nicht ausreichen, um das Wesentliche eines intelligenten Agenten zu erfassen: "Intelligente Wesen, ob Menschen oder Tiere, zeichnen sich durch drei grundlegende Komponenten aus: den Verstand, die Wahrnehmung und die Handlungsfähigkeit. LLMs, oder allgemeiner ausgedrückt, Grundmodelle, können mit einem Aspekt der Denkfunktion des Verstandes verglichen werden. Die wahrnehmungs- und handlungsorientierten Dimensionen der Intelligenz sowie die entscheidende Fähigkeit, Überzeugungen und Wissen auf der Grundlage von Erfahrungen dynamisch zu revidieren, bleiben jedoch unberücksichtigt. Autoregressive LLMs sind nicht darauf ausgelegt, die kausalen Beziehungen zwischen Ereignissen zu verstehen, sondern eher darauf, den unmittelbaren Kontext und die Korrelationen innerhalb von Sequenzen zu identifizieren. Im Gegensatz dazu sollte ein vollständig verkörperter Agent in der Lage sein, die Kausalität zu erfassen, die den Ereignissen und Handlungen in seiner Umgebung, sei sie digital oder physisch, zugrunde liegt. Durch das Verstehen dieser kausalen Beziehungen kann ein solcher Agent fundierte Entscheidungen treffen, die sowohl die erwarteten Ergebnisse als auch die Gründe für diese Ergebnisse berücksichtigen".
Trotz der großen Fortschritten bei den Großen Sprachmodellen seien diese statisch und nicht in der Lage, sich mit der Zeit und Erfahrung weiterzuentwickeln. ihnen fehle die Fähigkeit, sich wirklich um die Wahrheit zu kümmern, was es wiederum unmöglich mache, ihr Wissen dynamisch anzupassen und aktiv nach wertvollen neuen Informationen zu suchen. Als die beiden wichtigsten Erscheinungsformen dieses grundlegenden Defizits nennen die Autoren die Schwierigkeit, LLMs effektiv abzugleichen, und ihre Neigung, plausible, aber ungenaue Informationen zu generieren, ein Phänomen, das als Konfabulation bekannt ist.
Notwendig für die Entwicklung von KI-Agenten sei, dass diese in der Lage sind, sich kontinuierlich und dynamisch an die reale Welt (einschließlich des Menschen) anzupassen, indem sie sie beobachten, mit ihr interagieren und von ihr lernen. Durch ihre Bindung an uns Menschen, sollten verkörpere KI-Agenten den Wert der Wahrheit lernen. Überdies können sie sich ohne menschliches Zutun weiterentwickeln.
Überwindung des Dualismus von Geist und Körper
Bleibt die Frage, wie wir uns die Verkörperung vorzustellen haben; auf welche wissenschaftlichen Erkenntnisse beruht dieser Ansatz? Die Autoren stellen, wie bereits einige vor ihnen, den kartesianischen Dualismus von Geist und Körper in Frage. Sie berufen sich explizit auf die Arbeiten von G. Lakoff und Mark L. Johnson. Demnach beruht die Vernunft nicht auf abstrakten Gesetzen, sondern ist in körperlichen Erfahrungen begründet ist. Die Autoren verweisen in dem Zusammenhang auf den 4E-Rahmens (Embodied, Embedded, Enactive und Extended) der Kognitionswissenschaft von Varela et al., der verkörperte, enaktive, eingebettete und erweiterte Aspekte der Kognition umfasst. Bei E-AI liegt der Schwerpunkt für die Autoren vornehmlich auf der Umsetzung der „verkörperten“ und „enaktiven“ Aspekte, während die „eingebetteten“ und „erweiterten“ Komponenten eher dazu dienten, KI in einem sozialen Kontext und als Erweiterung der menschlichen (individuellen oder kollektiven) Kognition zu sehen.
Im weiteren Verlauf verweisen die Autoren auf den Technlogical Approach to Mind Everywhere (TAME) hin. Darin wird vorgeschlagen, dass Kognition aus der kollektiven Intelligenz von Zellgruppen entsteht, die ihrerseits tief in ihrer Umgebung (dem Körper, den sie bilden) verankert sind. "Dieser Rahmen stellt den traditionellen kartesischen Dualismus in Frage und bettet die Kognition in die physische und biologische Struktur eines Organismus ein. In der TAME-Perspektive ist Kognition nicht nur ein Attribut von Organismen höherer Ordnung; sie erstreckt sich über die gesamte ontologische Hierarchie der Lebewesen, von einzelnen Zellen über Gewebe und Organe bis hin zu komplexen Organismen. Jedes Lebewesen verfügt über kognitive Fähigkeiten, die von Natur aus mit seiner physischen Struktur und den Umweltinteraktionen auf der jeweiligen Ebene verbunden sind. Diese erweiterte Sichtweise von Kognition und Verkörperung geht über die herkömmliche Konzentration auf das Sehen in der Robotik und Computer Vision hinaus. Sie geht davon aus, dass jede Einheit, die in der Lage ist, ihre Umwelt wahrzunehmen, mit ihr zu interagieren und von ihr zu lernen und sich so an sie anzupassen und sie zu beeinflussen, als verkörpert bezeichnet werden kann". Das hat Ähnlichkeit mit den Forschungen zum Künstlichen Leben sowie mit den Arbeiten Arbeiten von Jakob Johann von Uexküll und Ludwig von Bertalanffy.
Umgang mit Unsicherheit
Weitere Bausteine sind die Konzepte der aktiven Inferenz und des Prinzips der freien Energie. Demnach ist das Hauptziel der Agenten die Minimierung von Überraschungen und Unsicherheit. Das lässt sich durch die Verwendung interner Modelle zur Vorhersage von Ergebnissen, die ständige Aktualisierung dieser Modelle durch sensorische Eingaben und die proaktive Veränderung ihrer Umgebung erreichen. Aktuell wird dieses Konzept bei der Entwicklung von Agenten, die mit Mechanismen für intrinsische Motivation ausgestattet sind, verwendet. Die Agenten sollen dazu anregt werden, neues Wissen zu erforschen und zu erwerben, um die Unsicherheit zu verringern.
Moderne Kognitive Architekturen
Von Bedeutung für die Realisierung verkörperter KI-Agenten ist auch das Konzept der kognitiven Architektur, wie es u.a. von Paul Thagard in Cognitive Architectures entwickelt wurde. Die Autoren plädieren für eine synergetische Strategie, die kognitive Architekturen mit maschinellem Lernen im Rahmen des E-AI-Paradigmas verbindet. Das Aufkommen von agentenbasierten LLMs wie AutoGPT, das bei der Erzeugung von autonomen Agenten Pionierarbeit leistet, und PanGuAgent, ein agentenorientiertes Sprachmodell, zeigten das Potenzial dieses Ansatzes.
Nach all dem benennen die Autoren die vier wesentlichen Komponenten eines E-AI-Systems: (i) Wahrnehmung: die Fähigkeit des Agenten, seine Umgebung wahrzunehmen; (ii) Handlung: die Fähigkeit, mit seiner Umgebung zu interagieren und sie zu verändern; (iii) Gedächtnis: die Fähigkeit, vergangene Erfahrungen zu speichern; und (iv) Lernen: die Integration von Erfahrungen, um neues Wissen und Fähigkeiten zu bilden.
Datenerfassung und -verarbeitung verändern sich grundlegend
Da ein verkörperter Agent, der so konzipiert ist, dass er mit seiner Umgebung interagiert und von ihr lernt, verändert sich nach Ansicht der Autoren der traditionellen Ansatz der Datenerfassung und -aufbereitung in der KI-Entwicklung grundlegend: "Da ein solcher Agent von Natur aus in seinen physischen und sozialen Kontext integriert ist, umgeht er die bisher erforderlichen arbeitsintensiven Prozesse. Dieser Wandel vereinfacht nicht nur die Herausforderung, KI mit menschlichen Werten in Einklang zu bringen, sondern erhöht auch die Lerneffizienz des Agenten, indem er die einzigartigen Eigenschaften seiner Umgebung nutzt. Infolgedessen verlagert sich der Schwerpunkt bei der KI-Entwicklung von Daten auf Simulatoren. Diese Simulatoren dienen einem doppelten Zweck: Sie sind sowohl Trainingsgelände für E-AI als auch Plattformen zum Testen und Überprüfen von Konzepten und Algorithmen. Darüber hinaus wird der Prozess der Anpassung dieser Agenten an die menschlichen Werte intuitiver, da er die Definition von Zielen und deren Umsetzung beinhaltet".
Einschränkungen
Einige Begrenzungen bleiben dennoch: So ist der Umgang mit Unsicherheit für Agenten noch immer eine große Herausforderung, da die Ungewissheit ihr Verständnis für ihre Umgebung beeinträchtigen, was sich wiederum auf ihre Leistung auswirkt. Dieses Dilemma trete besonders dann auf, wenn Entscheidungen mit unvollständigen Informationen getroffen werden müssen. Ein effektiver Umgang mit Rauschen und Ungewissheit sei daher von entscheidender Bedeutung für den Fortschritt der E-AI.
Eine weitere Hürde ist die Anforderung an die Hardware. "Gegenwärtig hängen KI-Technologien weitgehend von GPU-Clustern ab, die zwar leistungsstark, aber aufgrund ihrer hohen Kosten, ihres Energieverbrauchs und ihrer starken Wärmeentwicklung nicht ideal für verkörperte Agenten geeignet sind. Darüber hinaus stellen die physische Größe und das Gewicht von GPUs eine logistische Herausforderung für mobile Agenten oder solche, die in einem begrenzten Raum arbeiten, dar. Um diese Probleme zu lösen, müssen neue, energieeffiziente Hardwarelösungen entwickelt werden, die in die Agenten integriert werden können".
Für vielversprechend halten die Autoren z.B. Googles Tensor ProcessingUnit (TPU) und den Ascend-Chip von Huawei. Zusammen. mit dem Potenzial des neuromorphen Computings und der strategischen Synergie von Hardware- und Software-Ko-Design, deute sich hier eine neue Ära der Hardware-Fähigkeiten an. Wichtig sei außerdem die die Entwicklung von energie- und datensparsamen Algorithmen.
Weitere Informationen:
Kommentar hinzufügen
Kommentare