|
Getting your Trinity Audio player ready...
|
KI-Agenten, die für uns im Internet einkaufen oder Formulare ausfüllen sollen, brauchen heute bis zu 20 Minuten für Aufgaben, die ein Mensch in Sekunden erledigt. Der Grund: Sie müssen Webseiten wie Menschen mit den Augen erfassen – durch Screenshot-Analysen und mühsames Durchforsten des Codes. Ein neues Framework namens VOIX zeigt, wie es anders geht: Mit zwei simplen Erweiterungen der Web-Sprache HTML lassen sich dieselben Aufgaben in unter zwei Sekunden erledigen. Dahinter steckt mehr als ein Geschwindigkeitsvorteil – es geht um die Frage, wer im Internet der Zukunft das Sagen hat.
Warum KI-Agenten im Web so langsam sind
Stellen Sie sich vor, Sie betreten ein Geschäft, in dem alle Schilder in einer Fremdsprache geschrieben sind. Sie müssten erst jeden Hinweis übersetzen, jedes Produktetikett entziffern, die Funktionsweise der Kasse erraten. Genau so fühlen sich KI-Agenten heute im Internet. Agenten müssen Handlungsmöglichkeiten aus menschenorientierten Benutzeroberflächen ableiten, was zu brüchigen, ineffizienten und unsicheren Interaktionen führt.
Das Problem ist hausgemacht: Das Web wurde in den 1990er Jahren für Menschen mit Bildschirmen entwickelt. Buttons, Formulare, Menüs – alles ist darauf ausgelegt, dass jemand mit Augen und Maus die Seite bedient. Wenn nun eine KI dieselbe Aufgabe übernehmen soll, muss sie buchstäblich raten: Wo ist der Kaufen-Button? Welches Formularfeld gehört zu welcher Eingabe? Hat die Aktion funktioniert?
Die Zahlen sind ernüchternd. Vision-basierte Agenten zeigen Latenzzeiten von 4,25 Sekunden bis über 21 Minuten für komplexe Aufgaben. Menschen erwarten Reaktionen innerhalb von einer Zehntelsekunde. Die heutigen KI-Agenten brauchen das Hundert- bis Tausendfache. Das ist nicht nur unbequem – es macht echte Zusammenarbeit zwischen Mensch und Maschine praktisch unmöglich.
Ein Machtkampf um Ihre Daten
Hinter dem technischen Problem versteckt sich ein grundsätzlicher Konflikt. Aktuell gibt es zwei Modelle, wie KI-Agenten ins Web integriert werden – und beide haben gravierende Nachteile(nähere Erläuterung im Anhang):
Modell 1: Die Webseite selbst baut einen Chatbot ein. Klingt praktisch, bedeutet aber: Der Seitenbetreiber kann Ihre gesamte Konversation mitlesen. Jede Frage, die Sie dem Assistenten stellen, landet auf fremden Servern
Modell 2: Ein externer KI-Dienst (wie Claude für Chrome oder Perplexity Comet) navigiert für Sie durchs Web. Ein Inference-Provider versucht, Aktionen und Zustand aus rohem HTML und Screenshots einer Website abzuleiten, was den Website-Entwickler entmachtet, der sowohl die Kontrolle über die Nutzererfahrung als auch den Datenschutz verliert. Der Anbieter entscheidet, was Ihr Agent darf – nicht die Website selbst.
In beiden Fällen verliert jemand die Kontrolle: entweder Sie über Ihre Daten, oder die Website-Betreiber über ihre Inhalte.
Die Lösung: Zwei HTML-Tags ändern alles
Forscher der TU Darmstadt haben ein Framework namens VOIX entwickelt, das elegant einfach ist1Building the Web for Agents: A Declarative Framework for Agent–Web Interaction. VOIX führt zwei neue HTML-Elemente ein: tool und context Tags, die es Entwicklern ermöglichen, verfügbare Aktionen und relevanten Status explizit zu definieren.
Konkret bedeutet das: Statt dass ein KI-Agent eine Website wie ein Detektiv untersuchen muss, sagt ihm die Seite direkt: “Diese Funktionen kannst du nutzen, diese Informationen sind relevant.” So wie ein Automat nicht rät, welcher Knopf Kaffee macht, sondern beschriftet ist.
Die Architektur verteilt Verantwortung clever auf drei Parteien:
- Die Website definiert selbst, welche Funktionen ein Agent nutzen darf
- Ihr Browser vermittelt zwischen Website und KI, ohne selbst Entscheidungen zu treffen
- Der KI-Dienst Ihrer Wahl – egal ob Clo…
