Welcome to KI-Agenten   Klicken, um den Text zu hören Welcome to KI-Agenten

Für die Autoren des Papers A Call for Embod­ied AI beste­ht der näch­ste logis­che Schritt in Rich­tung wirk­lich intel­li­gen­ter und all­ge­mein­er KI in der Entwick­lung und Real­isierung von verkör­perten KI-Agen­ten. Zwar kön­nten nach Ansicht der Autoren die aktuellen LLM-basierten Grund­mod­elle die Basis für die Entwick­lung dieser Agen­ten bilden; sie sind jedoch nur eine Kom­po­nente eines wirk­lich verkör­perten Agen­ten. Es müssen weit­ere Bausteine hinzukom­men, um dafür zu sor­gen, dass Agen­ten wahrnehmen, mit ihrer Umge­bung inter­agieren und diese verän­dern, ein Gedächt­nis haben und aus Erfahrun­gen ler­nen kön­nen. Trotz­dem bleiben noch einige Hür­den.

Große Sprach­mod­elle alleine reichen nicht aus

Die Autoren argu­men­tieren weit­er, dass Große Sprach­mod­elle nicht aus­re­ichen, um das Wesentliche eines intel­li­gen­ten Agen­ten zu erfassen: “Intel­li­gente Wesen, ob Men­schen oder Tiere, zeich­nen sich durch drei grundle­gende Kom­po­nen­ten aus: den Ver­stand, die Wahrnehmung und die Hand­lungs­fähigkeit. LLMs, oder all­ge­mein­er aus­ge­drückt, Grund­mod­elle, kön­nen mit einem Aspekt der Denk­funk­tion des Ver­standes ver­glichen wer­den. Die wahrnehmungs- und hand­lung­sori­en­tierten Dimen­sio­nen der Intel­li­genz sowie die entschei­dende Fähigkeit, Überzeu­gun­gen und Wis­sen auf der Grund­lage von Erfahrun­gen dynamisch zu rev­i­dieren, bleiben jedoch unberück­sichtigt. Autore­gres­sive LLMs sind nicht darauf aus­gelegt, die kausalen Beziehun­gen zwis­chen Ereignis­sen zu ver­ste­hen, son­dern eher darauf, den unmit­tel­baren Kon­text und die Kor­re­la­tio­nen inner­halb von Sequen­zen zu iden­ti­fizieren. Im Gegen­satz dazu sollte ein voll­ständig verkör­pert­er Agent in der Lage sein, die Kausal­ität zu erfassen, die den Ereignis­sen und Hand­lun­gen in sein­er Umge­bung, sei sie dig­i­tal oder physisch, zugrunde liegt. Durch das Ver­ste­hen dieser kausalen Beziehun­gen kann ein solch­er Agent fundierte Entschei­dun­gen tre­f­fen, die sowohl die erwarteten Ergeb­nisse als auch die Gründe für diese Ergeb­nisse berück­sichti­gen”.

Trotz der großen Fortschrit­ten bei den Großen Sprach­mod­ellen seien diese sta­tisch und nicht in der Lage, sich mit der Zeit und Erfahrung weit­erzuen­twick­eln. ihnen fehle die Fähigkeit, sich wirk­lich um die Wahrheit zu küm­mern, was es wiederum unmöglich mache, ihr Wis­sen dynamisch anzu­passen und aktiv nach wertvollen neuen Infor­ma­tio­nen zu suchen. Als die bei­den wichtig­sten Erschei­n­ungs­for­men dieses grundle­gen­den Defiz­its nen­nen die Autoren die Schwierigkeit, LLMs effek­tiv abzu­gle­ichen, und ihre Nei­gung, plau­si­ble, aber unge­naue Infor­ma­tio­nen zu gener­ieren, ein Phänomen, das als Kon­fab­u­la­tion bekan­nt ist.

Notwendig für die Entwick­lung von KI-Agen­ten sei, dass diese in der Lage sind, sich kon­tinuier­lich und dynamisch an die reale Welt (ein­schließlich des Men­schen) anzu­passen, indem sie sie beobacht­en, mit ihr inter­agieren und von ihr ler­nen. Durch ihre Bindung an uns Men­schen, soll­ten verkör­pere KI-Agen­ten den Wert der Wahrheit ler­nen. Überdies kön­nen sie sich ohne men­schlich­es Zutun weit­er­en­twick­eln.

Über­win­dung des Dual­is­mus von Geist und Kör­p­er

Bleibt die Frage, wie wir uns die Verkör­pe­rung vorzustellen haben; auf welche wis­senschaftlichen Erken­nt­nisse beruht dieser Ansatz? Die Autoren stellen, wie bere­its einige vor ihnen, den karte­sian­is­chen Dual­is­mus von Geist und Kör­p­er in Frage. Sie berufen sich expliz­it auf die Arbeit­en von G. Lakoff und Mark L. John­son. Dem­nach beruht die Ver­nun­ft nicht auf abstrak­ten Geset­zen, son­dern ist in kör­per­lichen Erfahrun­gen begrün­det ist. Die Autoren ver­weisen in dem Zusam­men­hang auf den 4E-Rah­mens (Embod­ied, Embed­ded, Enac­tive und Extend­ed) der Kog­ni­tion­swis­senschaft von Varela et al., der verkör­perte, enak­tive, einge­bet­tete und erweit­erte Aspek­te der Kog­ni­tion umfasst. Bei E‑AI liegt der Schw­er­punkt für die Autoren vornehm­lich auf der Umset­zung der „verkör­perten“ und „enak­tiv­en“ Aspek­te, während die „einge­bet­teten“ und „erweit­erten“ Kom­po­nen­ten eher dazu dien­ten, KI in einem sozialen Kon­text und als Erweiterung der men­schlichen (indi­vidu­ellen oder kollek­tiv­en) Kog­ni­tion zu sehen.

Im weit­eren Ver­lauf ver­weisen die Autoren auf den Techn­log­i­cal Approach to Mind Every­where (TAME) hin. Darin wird vorgeschla­gen, dass Kog­ni­tion aus der kollek­tiv­en Intel­li­genz von Zell­grup­pen entste­ht, die ihrer­seits tief in ihrer Umge­bung (dem Kör­p­er, den sie bilden) ver­ankert sind. “Dieser Rah­men stellt den tra­di­tionellen karte­sis­chen Dual­is­mus in Frage und bet­tet die Kog­ni­tion in die physis­che und biol­o­gis­che Struk­tur eines Organ­is­mus ein. In der TAME-Per­spek­tive ist Kog­ni­tion nicht nur ein Attrib­ut von Organ­is­men höher­er Ord­nung; sie erstreckt sich über die gesamte ontol­o­gis­che Hier­ar­chie der Lebe­we­sen, von einzel­nen Zellen über Gewebe und Organe bis hin zu kom­plex­en Organ­is­men. Jedes Lebe­we­sen ver­fügt über kog­ni­tive Fähigkeit­en, die von Natur aus mit sein­er physis­chen Struk­tur und den Umwelt­in­ter­ak­tio­nen auf der jew­eili­gen Ebene ver­bun­den sind. Diese erweit­erte Sichtweise von Kog­ni­tion und Verkör­pe­rung geht über die herkömm­liche Konzen­tra­tion auf das Sehen in der Robotik und Com­put­er Vision hin­aus. Sie geht davon aus, dass jede Ein­heit, die in der Lage ist, ihre Umwelt wahrzunehmen, mit ihr zu inter­agieren und von ihr zu ler­nen und sich so an sie anzu­passen und sie zu bee­in­flussen, als verkör­pert beze­ich­net wer­den kann”. Das hat Ähn­lichkeit mit den Forschun­gen zum Kün­stlichen Leben sowie mit den Arbeit­en Arbeit­en von Jakob Johann von Uexküll und Lud­wig von Berta­lanffy.

Umgang mit Unsicher­heit

Weit­ere Bausteine sind die Konzepte der aktiv­en Inferenz und des Prinzips der freien Energie. Dem­nach ist das Hauptziel der Agen­ten die Min­imierung von Über­raschun­gen und Unsicher­heit. Das lässt sich durch die Ver­wen­dung intern­er Mod­elle zur Vorher­sage von Ergeb­nis­sen, die ständi­ge Aktu­al­isierung dieser Mod­elle durch sen­sorische Eingaben und die proak­tive Verän­derung ihrer Umge­bung erre­ichen. Aktuell wird dieses Konzept bei der Entwick­lung von Agen­ten, die mit Mech­a­nis­men für intrin­sis­che Moti­va­tion aus­ges­tat­tet sind, ver­wen­det. Die Agen­ten sollen dazu anregt wer­den, neues Wis­sen zu erforschen und zu erwer­ben, um die Unsicher­heit zu ver­ringern.

Mod­erne Kog­ni­tive Architek­turen

Von Bedeu­tung für die Real­isierung verkör­pert­er KI-Agen­ten ist auch das Konzept der kog­ni­tiv­en Architek­tur, wie es u.a. von Paul Tha­gard in Cog­ni­tive Archi­tec­tures entwick­elt wurde. Die Autoren plädieren für eine syn­er­getis­che Strate­gie, die kog­ni­tive Architek­turen mit maschinellem Ler­nen im Rah­men des E‑AI-Par­a­dig­mas verbindet. Das Aufkom­men von agen­ten­basierten LLMs wie Auto­G­PT, das bei der Erzeu­gung von autonomen Agen­ten Pio­nier­ar­beit leis­tet, und Pan­GuA­gent, ein agen­tenori­en­tiertes Sprach­mod­ell, zeigten das Poten­zial dieses Ansatzes.

Nach all dem benen­nen die Autoren die vier wesentlichen Kom­po­nen­ten eines E‑AI-Sys­tems: (i) Wahrnehmung: die Fähigkeit des Agen­ten, seine Umge­bung wahrzunehmen; (ii) Hand­lung: die Fähigkeit, mit sein­er Umge­bung zu inter­agieren und sie zu verän­dern; (iii) Gedächt­nis: die Fähigkeit, ver­gan­gene Erfahrun­gen zu spe­ich­ern; und (iv) Ler­nen: die Inte­gra­tion von Erfahrun­gen, um neues Wis­sen und Fähigkeit­en zu bilden.

Daten­er­fas­sung und ‑ver­ar­beitung verän­dern sich grundle­gend

Da ein verkör­pert­er Agent, der so konzip­iert ist, dass er mit sein­er Umge­bung inter­agiert und von ihr lernt, verän­dert sich nach Ansicht der Autoren der tra­di­tionellen Ansatz der Daten­er­fas­sung und ‑auf­bere­itung in der KI-Entwick­lung grundle­gend: “Da ein solch­er Agent von Natur aus in seinen physis­chen und sozialen Kon­text inte­gri­ert ist, umge­ht er die bish­er erforder­lichen arbeitsin­ten­siv­en Prozesse. Dieser Wan­del vere­in­facht nicht nur die Her­aus­forderung, KI mit men­schlichen Werten in Ein­klang zu brin­gen, son­dern erhöht auch die Lern­ef­fizienz des Agen­ten, indem er die einzi­gar­ti­gen Eigen­schaften sein­er Umge­bung nutzt. Infolgedessen ver­lagert sich der Schw­er­punkt bei der KI-Entwick­lung von Dat­en auf Sim­u­la­toren. Diese Sim­u­la­toren dienen einem dop­pel­ten Zweck: Sie sind sowohl Train­ings­gelände für E‑AI als auch Plat­tfor­men zum Testen und Über­prüfen von Konzepten und Algo­rith­men. Darüber hin­aus wird der Prozess der Anpas­sung dieser Agen­ten an die men­schlichen Werte intu­itiv­er, da er die Def­i­n­i­tion von Zie­len und deren Umset­zung bein­hal­tet”.

Ein­schränkun­gen

Einige Begren­zun­gen bleiben den­noch: So ist der Umgang mit Unsicher­heit für Agen­ten noch immer eine große Her­aus­forderung, da die Ungewis­sheit ihr Ver­ständ­nis für ihre Umge­bung beein­trächti­gen, was sich wiederum auf ihre Leis­tung auswirkt. Dieses Dilem­ma trete beson­ders dann auf, wenn Entschei­dun­gen mit unvoll­ständi­gen Infor­ma­tio­nen getrof­fen wer­den müssen. Ein effek­tiv­er Umgang mit Rauschen und Ungewis­sheit sei daher von entschei­den­der Bedeu­tung für den Fortschritt der E‑AI.
Eine weit­ere Hürde ist die Anforderung an die Hard­ware. “Gegen­wär­tig hän­gen KI-Tech­nolo­gien weit­ge­hend von GPU-Clus­tern ab, die zwar leis­tungsstark, aber auf­grund ihrer hohen Kosten, ihres Energie­ver­brauchs und ihrer starken Wärmeen­twick­lung nicht ide­al für verkör­perte Agen­ten geeignet sind. Darüber hin­aus stellen die physis­che Größe und das Gewicht von GPUs eine logis­tis­che Her­aus­forderung für mobile Agen­ten oder solche, die in einem begren­zten Raum arbeit­en, dar. Um diese Prob­leme zu lösen, müssen neue, energieef­fiziente Hard­warelö­sun­gen entwick­elt wer­den, die in die Agen­ten inte­gri­ert wer­den kön­nen”.

Für vielver­sprechend hal­ten die Autoren z.B. Googles Ten­sor Pro­cessin­gU­nit (TPU) und den Ascend-Chip von Huawei. Zusam­men. mit dem Poten­zial des neu­ro­mor­phen Com­put­ings und der strate­gis­chen Syn­ergie von Hard­ware- und Soft­ware-Ko-Design, deute sich hier eine neue Ära der Hard­ware-Fähigkeit­en an. Wichtig sei außer­dem die die Entwick­lung von energie- und datensparsamen Algo­rith­men.

Weit­ere Infor­ma­tio­nen:

Die „Vere­in­heitlichung von Denken, Wahrnehmen und Fühlen“1 im Sinne der Konzeptuellen Meta­phern­the­o­rie (Lakoff, John­son, Grady)

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert

Klicken, um den Text zu hören