Welcome to KI-Agenten   Klicken, um den Text zu hören Welcome to KI-Agenten

Das Ziel von Robot­er­s­teuerungsstrate­gien ist es, Robot­er in die Lage zu ver­set­zen, kom­plexe Auf­gaben autonom auszuführen. Zwar wur­den hier­bei schon große Fortschritte erzielt; die Robot­er scheit­ern jedoch häu­fig, wenn sie mit neuar­ti­gen Sit­u­a­tio­nen kon­fron­tiert wer­den, die logis­ches Denken und Pla­nung erfordern.

Vision Lan­guage Action Mod­els (VLAs)

Vision Lan­guage Action Mod­els (VLAs) gel­ten als vielver­sprechende Lösung für die Entwick­lung all­ge­mein­er Robot­er­s­teuerungsstrate­gien. VLAs bauen auf den Fähigkeit­en von vor­trainierten großen Bild-Sprach-Mod­ellen (VLMs) auf, um Bild­beobach­tun­gen und Anweisun­gen in natür­lich­er Sprache auf Robot­er­ak­tio­nen abzu­bilden. Laut Ven­ture­Beat haben VLAs den neuesten Stand der Tech­nik für gen­er­al­is­tis­che Robot­er­strate­gien erre­icht und zeigen ein beein­druck­endes Maß an Gen­er­al­isierung auf neue Objek­te und Szenen. Beispiele sind das Open-Source-Pro­jekt Open­VLA und der RT-X‑2 von Google Deep­Mind.

Allerd­ings fehlen den aktuellen VLAs die logis­chen Fähigkeit­en. Sie ler­nen durch eine direk­te Zuord­nung von Beobach­tun­gen zu Hand­lun­gen ohne dazwis­chen liegende Denkschritte. Mehr noch: VLAs müssen nicht nur logisch denken, son­dern auch genau hin­schauen kön­nen.

Embod­ied Chain of Thought (ECoT)

An dieser Stelle brin­gen Forscherin­nen und Forsch­er der Uni­ver­si­ty of Cal­i­for­nia, Berke­ley, der Uni­ver­sität Warschau und der Stan­ford Uni­ver­si­ty ihr Konzept Embod­ied Chain of Thought (ECoT) für VLAs ins Spiel. ECoT befähigt Robot­er dazu, ihre Hand­lun­gen auf der Grund­lage ihrer Wahrnehmung der Umge­bung zu über­denken. Dabei wird seman­tis­ches Denken über Auf­gaben und Teilauf­gaben mit “verkör­pertem” Denken über die Umge­bung und den Zus­tand des Robot­ers kom­biniert.

Zielset­zung und Vorge­hen

Mit dem Entwurf der Schritte unser­er verkör­perten Denkket­ten ver­fol­gen wir zwei Ziele: Das Mod­ell soll dazu ermutigt wer­den, (A) die erforder­lichen über­ge­ord­neten Schritte der jew­eili­gen Auf­gabe zu durch­denken und zu bes­tim­men, welch­er Schritt als näch­stes aus­ge­führt wer­den muss, und (B) diese Über­legun­gen zunehmend auf unter­ge­ord­nete Merk­male der Szene und des Robot­erzu­s­tands zu stützen, bevor die Robot­er­ak­tion vorherge­sagt wird. …

Der Gold­stan­dard für die Gewin­nung qual­i­ta­tiv hochw­er­tiger Argu­men­ta­tions­ket­ten sind direk­te men­schliche Anno­ta­tio­nen. Dieser Ansatz ist jedoch für große Robot­er-Lern­daten­sätze, die aus Mil­lio­nen von einzel­nen Übergän­gen beste­hen, unprak­tisch. Daher schla­gen wir stattdessen vor, vor­trainierte Bild- und/oder Sprach­ba­sis­mod­elle zu nutzen, um automa­tisch ECoT-Train­ings­dat­en zu gener­ieren, ähn­lich wie bei der Gener­ierung syn­thetis­ch­er Dat­en im NLP (ebd).

Vor­läu­figes Faz­it

Anstatt ein­fach das CoT-Rezept aus der Sprach­mod­el­lierung anzuwen­den, unter­stre­ichen unsere Exper­i­mente die Bedeu­tung zusät­zlich­er Schlussfol­gerungss­chritte, die sich stark auf die Szene und den Robot­erzu­s­tand stützen und beispiel­sweise Objek­t­be­gren­zungsrah­men, den End­ef­fek­tor des Robot­ers oder Roboter­be­we­gun­gen auf niedriger Ebene ein­beziehen.

Obwohl unsere Ergeb­nisse ermuti­gend sind, hat unser Ansatz mehrere Ein­schränkun­gen. Erstens passt unser Mod­ell die Struk­tur sein­er Schlussfol­gerungs­ket­ten nicht an die jew­eilige Auf­gabe an; es führt immer alle Schritte der Schlussfol­gerun­gen in der von uns gewählten fes­ten Rei­hen­folge aus. Eine effek­ti­vere Strate­gie kön­nte darin beste­hen, nur eine Teil­menge der Schlussfol­gerungss­chritte auf der Grund­lage des Robot­er- und Szenen­zu­s­tands auszuführen, und kün­ftige Arbeit­en kön­nen die direk­te Opti­mierung des Mod­ells zur Auswahl der besten Schlussfol­gerungss­chritte unter­suchen. Außer­dem wird die Skalierung des ECoT-Train­ings auf eine größere Teil­menge des OXE-Daten­satzes die Über­tra­gung der ECoT-Fähigkeit­en auf mehr Robot­er verbessern. Schließlich ist die Geschwindigkeit der Aus­führung für ECoT-Poli­tiken immer noch begrenzt.(ebd)

Abschließende Gedanken

Die Frage, ob und inwieweit Robot­er zu verkör­pertem Denken fähig sind, ist eine, die — Stand heute — über die Möglichkeit­en der KI hin­aus­ge­ht — zumin­d­est dann, wenn wir als Analo­gie den men­schlichen Kör­p­er wählen. Oder in den Worten des Neu­rowis­senschaftlers Anto­nio R. Dama­sio:

Wenn das Gehirn zunächst dazu entwick­elt wurde, das Über­leben des Kör­pers im engeren Sinne zu sich­ern, dann schick­ten sich die geist­be­gabten Gehirne sobald sie auf der Bild­fläche erschienen, zunächst an, den Kör­p­er zu vergeisti­gen. Und in diesem Bemühen, das Über­leben des Kör­pers so gründlich wie möglich zu sich­ern, ist die Natur, so ver­mute ich, auf eine höchst wirk­same Lösung gestoßen; die Außen­welt durch die Verän­derun­gen zu repräsen­tieren, die sie im Kör­p­er her­vor­ruft, das heißt, die Umwelt dadurch zu repräsen­tieren, dass sie immer, wenn eine Wech­sel­wirkung zwis­chen Organ­is­mus und Umwelt stat­tfind­et, die ursprünglichen Repräsen­ta­tio­nen des Köpers mod­i­fiziert (in: Descartes’ Irrtum. Fühlen, Denken und das men­schliche Gehirn):

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert

Klicken, um den Text zu hören