Getting your Trinity Audio player ready...
|
Das Dokument mit dem Titel „Build the web for agents, not agents for the web“ schlägt einen Paradigmenwechsel in der Forschung zu Web-Agenten vor. Es argumentiert, dass aktuelle Ansätze, die Web-Agenten zwingen, mit für Menschen konzipierten Schnittstellen zu interagieren, erhebliche Einschränkungen aufweisen. Diese Einschränkungen umfassen die Komplexität von Web-Eingaben wie riesige DOM-Bäume, die mangelnde Vollständigkeit von Screenshots und die Grenzen von API-Interaktionen.
Als Lösung wird das Konzept der Agentic Web Interfaces (AWIs) eingeführt, Schnittstellen, die speziell für die Navigation durch Agenten optimiert sind. AWIs sollen die Darstellungseinschränkungen und Ressourcenherausforderungen browserbasierter Web-Agenten beheben, indem sie maßgeschneiderte Browser-Zustandsdarstellungen bereitstellen, die weder überflüssige Details enthalten noch umfassende DOM-Informationen vermissen lassen. Dies würde die Rechenkosten erheblich senken und die Sicherheit verbessern, indem der Zugriff auf sensible Informationen und ausführbare Aktionen kontrolliert werden.
Das Papier stellt sechs Leitprinzipien für das Design von AWIs vor: Standardisierung, Menschenzentrierung, Sicherheit, optimale Darstellungen, Hosting-Effizienz und Entwicklerfreundlichkeit. Es werden auch konkrete Vorschläge gemacht, wie z.B. vereinheitlichte Aktionen auf höherer Ebene, Kompatibilität mit Benutzeroberflächen, Zugriffskontrollen für Agenten, progressive Informationsübertragung und Agenten-Aufgabenwarteschlangen.
Die Autoren betonen, dass die Entwicklung von AWIs eine gemeinsame Anstrengung der gesamten ML-Community erfordert, einschließlich der Bereiche Human-centric AI (HCAI), KI-Sicherheit, Natural Language Processing (NLP), Multimodalität, Reinforcement Learning, Planung und Generalisierung. Dies soll sicherstellen, dass AWIs von Anfang an Test‑, Debugging- und Sicherheitsfunktionen integrieren, anstatt diese nachträglich einzubauen. AWIs unterscheiden sich grundlegend von Kommunikationsprotokollen wie dem Model Context Protocol (MCP), da AWIs Schnittstellen für die Navigation von zustandsbehafteten Webseiten sind, während MCP ein Protokoll für die Kommunikation zwischen LLM-Agenten und Tools ist.