Getting your Trinity Audio player ready...
|
KI-Agenten sind derzeit oft isoliert: Sie können entweder digitale Informationen verarbeiten oder mit der physischen Welt interagieren, selten beides gleichzeitig. Diese Trennung schränkt ihre Fähigkeit ein, Aufgaben zu lösen, die eine integrierte physische und digitale Intelligenz erfordern, wie das Kochen nach Online-Rezepten oder die Navigation mit dynamischen Kartendaten.
Die Forschung stellt “Embodied Web Agents” vor, ein neues Paradigma für KI-Agenten, das die Verkörperung und webbasierte Schlussfolgerungen fließend miteinander verbindet. Um dieses Konzept umzusetzen, wurden zunächst die “EMBODIED WEB AGENTS Task Environments” entwickelt. Dabei handelt es sich um eine einheitliche Simulationsplattform, die realistische 3D-Innen- und Außenumgebungen eng mit funktionalen Weboberflächen integriert.
Auf dieser Plattform wurde der “EMBODIED WEB AGENTS Benchmark” erstellt und veröffentlicht. Dieser umfasst eine Vielzahl von Aufgaben, darunter Kochen, Navigation, Einkaufen, Tourismus und Geolokalisierung. Alle diese Aufgaben erfordern eine koordinierte Schlussfolgerung über physische und digitale Bereiche hinweg, um die domänenübergreifende Intelligenz systematisch zu bewerten.
Experimentelle Ergebnisse zeigen erhebliche Leistungsunterschiede zwischen den derzeit besten KI-Systemen (LLM-Agenten) und menschlichen Fähigkeiten. Die Analyse der Fehlertypen ergab, dass aktuelle Modelle hauptsächlich mit der domänenübergreifenden Integration zu kämpfen haben, nicht mit isolierten Fähigkeiten. Beispielsweise bleiben Agenten oft in einer Umgebung stecken und können nicht in die andere wechseln, oder es gibt eine Diskrepanz zwischen Webanweisungen und physischen Aktionen. Dies unterstreicht die einzigartigen Herausforderungen, die die “Embodied Web Agency” mit sich bringt und die über die isolierte Betrachtung physischer oder digitaler Agenten hinausgehen.