Das Ziel von Robotersteuerungsstrategien ist es, Roboter in die Lage zu versetzen, komplexe Aufgaben autonom auszuführen. Zwar wurden hierbei schon große Fortschritte erzielt; die Roboter scheitern jedoch häufig, wenn sie mit neuartigen Situationen konfrontiert werden, die logisches Denken und Planung erfordern.
Vision Language Action Models (VLAs)
Vision Language Action Models (VLAs) gelten als vielversprechende Lösung für die Entwicklung allgemeiner Robotersteuerungsstrategien. VLAs bauen auf den Fähigkeiten von vortrainierten großen Bild-Sprach-Modellen (VLMs) auf, um Bildbeobachtungen und Anweisungen in natürlicher Sprache auf Roboteraktionen abzubilden. Laut VentureBeat haben VLAs den neuesten Stand der Technik für generalistische Roboterstrategien erreicht und zeigen ein beeindruckendes Maß an Generalisierung auf neue Objekte und Szenen. Beispiele sind das Open-Source-Projekt OpenVLA und der RT-X-2 von Google DeepMind.
Allerdings fehlen den aktuellen VLAs die logischen Fähigkeiten. Sie lernen durch eine direkte Zuordnung von Beobachtungen zu Handlungen ohne dazwischen liegende Denkschritte. Mehr noch: VLAs müssen nicht nur logisch denken, sondern auch genau hinschauen können.
Embodied Chain of Thought (ECoT)
An dieser Stelle bringen Forscherinnen und Forscher der University of California, Berkeley, der Universität Warschau und der Stanford University ihr Konzept Embodied Chain of Thought (ECoT) für VLAs ins Spiel. ECoT befähigt Roboter dazu, ihre Handlungen auf der Grundlage ihrer Wahrnehmung der Umgebung zu überdenken. Dabei wird semantisches Denken über Aufgaben und Teilaufgaben mit "verkörpertem" Denken über die Umgebung und den Zustand des Roboters kombiniert.
Zielsetzung und Vorgehen
Mit dem Entwurf der Schritte unserer verkörperten Denkketten verfolgen wir zwei Ziele: Das Modell soll dazu ermutigt werden, (A) die erforderlichen übergeordneten Schritte der jeweiligen Aufgabe zu durchdenken und zu bestimmen, welcher Schritt als nächstes ausgeführt werden muss, und (B) diese Überlegungen zunehmend auf untergeordnete Merkmale der Szene und des Roboterzustands zu stützen, bevor die Roboteraktion vorhergesagt wird. ...
Der Goldstandard für die Gewinnung qualitativ hochwertiger Argumentationsketten sind direkte menschliche Annotationen. Dieser Ansatz ist jedoch für große Roboter-Lerndatensätze, die aus Millionen von einzelnen Übergängen bestehen, unpraktisch. Daher schlagen wir stattdessen vor, vortrainierte Bild- und/oder Sprachbasismodelle zu nutzen, um automatisch ECoT-Trainingsdaten zu generieren, ähnlich wie bei der Generierung synthetischer Daten im NLP (ebd).
Vorläufiges Fazit
Anstatt einfach das CoT-Rezept aus der Sprachmodellierung anzuwenden, unterstreichen unsere Experimente die Bedeutung zusätzlicher Schlussfolgerungsschritte, die sich stark auf die Szene und den Roboterzustand stützen und beispielsweise Objektbegrenzungsrahmen, den Endeffektor des Roboters oder Roboterbewegungen auf niedriger Ebene einbeziehen.
Obwohl unsere Ergebnisse ermutigend sind, hat unser Ansatz mehrere Einschränkungen. Erstens passt unser Modell die Struktur seiner Schlussfolgerungsketten nicht an die jeweilige Aufgabe an; es führt immer alle Schritte der Schlussfolgerungen in der von uns gewählten festen Reihenfolge aus. Eine effektivere Strategie könnte darin bestehen, nur eine Teilmenge der Schlussfolgerungsschritte auf der Grundlage des Roboter- und Szenenzustands auszuführen, und künftige Arbeiten können die direkte Optimierung des Modells zur Auswahl der besten Schlussfolgerungsschritte untersuchen. Außerdem wird die Skalierung des ECoT-Trainings auf eine größere Teilmenge des OXE-Datensatzes die Übertragung der ECoT-Fähigkeiten auf mehr Roboter verbessern. Schließlich ist die Geschwindigkeit der Ausführung für ECoT-Politiken immer noch begrenzt.(ebd)
Abschließende Gedanken
Die Frage, ob und inwieweit Roboter zu verkörpertem Denken fähig sind, ist eine, die - Stand heute - über die Möglichkeiten der KI hinausgeht - zumindest dann, wenn wir als Analogie den menschlichen Körper wählen. Oder in den Worten des Neurowissenschaftlers Antonio R. Damasio:
Wenn das Gehirn zunächst dazu entwickelt wurde, das Überleben des Körpers im engeren Sinne zu sichern, dann schickten sich die geistbegabten Gehirne sobald sie auf der Bildfläche erschienen, zunächst an, den Körper zu vergeistigen. Und in diesem Bemühen, das Überleben des Körpers so gründlich wie möglich zu sichern, ist die Natur, so vermute ich, auf eine höchst wirksame Lösung gestoßen; die Außenwelt durch die Veränderungen zu repräsentieren, die sie im Körper hervorruft, das heißt, die Umwelt dadurch zu repräsentieren, dass sie immer, wenn eine Wechselwirkung zwischen Organismus und Umwelt stattfindet, die ursprünglichen Repräsentationen des Köpers modifiziert (in: Descartes' Irrtum. Fühlen, Denken und das menschliche Gehirn):
Kommentar hinzufügen
Kommentare