Getting your Trinity Audio player ready...

KI-Agen­ten, die für uns im Inter­net einkaufen oder For­mu­la­re aus­füllen sollen, brauchen heute bis zu 20 Minuten für Auf­gaben, die ein Men­sch in Sekun­den erledigt. Der Grund: Sie müssen Web­seit­en wie Men­schen mit den Augen erfassen – durch Screen­shot-Analy­sen und müh­sames Durch­forsten des Codes. Ein neues Frame­work namens VOIX zeigt, wie es anders geht: Mit zwei sim­plen Erweiterun­gen der Web-Sprache HTML lassen sich diesel­ben Auf­gaben in unter zwei Sekun­den erledi­gen. Dahin­ter steckt mehr als ein Geschwindigkeitsvorteil – es geht um die Frage, wer im Inter­net der Zukun­ft das Sagen hat.


Warum KI-Agen­ten im Web so langsam sind

Stellen Sie sich vor, Sie betreten ein Geschäft, in dem alle Schilder in ein­er Fremd­sprache geschrieben sind. Sie müssten erst jeden Hin­weis über­set­zen, jedes Pro­duk­tetikett entz­if­fern, die Funk­tion­sweise der Kasse errat­en. Genau so fühlen sich KI-Agen­ten heute im Inter­net. Agen­ten müssen Hand­lungsmöglichkeit­en aus men­schenori­en­tierten Benutze­r­ober­flächen ableit­en, was zu brüchi­gen, inef­fizien­ten und unsicheren Inter­ak­tio­nen führt.

Das Prob­lem ist haus­gemacht: Das Web wurde in den 1990er Jahren für Men­schen mit Bild­schir­men entwick­elt. But­tons, For­mu­la­re, Menüs – alles ist darauf aus­gelegt, dass jemand mit Augen und Maus die Seite bedi­ent. Wenn nun eine KI dieselbe Auf­gabe übernehmen soll, muss sie buch­stäblich rat­en: Wo ist der Kaufen-But­ton? Welch­es For­mu­la­rfeld gehört zu welch­er Eingabe? Hat die Aktion funk­tion­iert?

Die Zahlen sind ernüchternd. Vision-basierte Agen­ten zeigen Latenzzeit­en von 4,25 Sekun­den bis über 21 Minuten für kom­plexe Auf­gaben. Men­schen erwarten Reak­tio­nen inner­halb von ein­er Zehn­telsekunde. Die heuti­gen KI-Agen­ten brauchen das Hun­dert- bis Tausend­fache. Das ist nicht nur unbe­quem – es macht echte Zusam­me­nar­beit zwis­chen Men­sch und Mas­chine prak­tisch unmöglich.

Ein Machtkampf um Ihre Dat­en

Hin­ter dem tech­nis­chen Prob­lem ver­steckt sich ein grund­sät­zlich­er Kon­flikt. Aktuell gibt es zwei Mod­elle, wie KI-Agen­ten ins Web inte­gri­ert wer­den – und bei­de haben gravierende Nachteile(nähere Erläuterung im Anhang):

Mod­ell 1: Die Web­seite selb­st baut einen Chat­bot ein. Klingt prak­tisch, bedeutet aber: Der Seit­en­be­treiber kann Ihre gesamte Kon­ver­sa­tion mitle­sen. Jede Frage, die Sie dem Assis­ten­ten stellen, lan­det auf frem­den Servern

Mod­ell 2: Ein extern­er KI-Dienst (wie Claude für Chrome oder Per­plex­i­ty Comet) navigiert für Sie durchs Web. Ein Infer­ence-Provider ver­sucht, Aktio­nen und Zus­tand aus rohem HTML und Screen­shots ein­er Web­site abzuleit­en, was den Web­site-Entwick­ler ent­machtet, der sowohl die Kon­trolle über die Nutzer­erfahrung als auch den Daten­schutz ver­liert. Der Anbi­eter entschei­det, was Ihr Agent darf – nicht die Web­site selb­st.

In bei­den Fällen ver­liert jemand die Kon­trolle: entwed­er Sie über Ihre Dat­en, oder die Web­site-Betreiber über ihre Inhalte.

Die Lösung: Zwei HTML-Tags ändern alles

Forsch­er der TU Darm­stadt haben ein Frame­work namens VOIX entwick­elt, das ele­gant ein­fach ist1Build­ing the Web for Agents: A Declar­a­tive Frame­work for Agent–Web Inter­ac­tion. VOIX führt zwei neue HTML-Ele­mente ein: tool und con­text Tags, die es Entwick­lern ermöglichen, ver­füg­bare Aktio­nen und rel­e­van­ten Sta­tus expliz­it zu definieren.

Konkret bedeutet das: Statt dass ein KI-Agent eine Web­site wie ein Detek­tiv unter­suchen muss, sagt ihm die Seite direkt: “Diese Funk­tio­nen kannst du nutzen, diese Infor­ma­tio­nen sind rel­e­vant.” So wie ein Automat nicht rät, welch­er Knopf Kaf­fee macht, son­dern beschriftet ist.

Die Architek­tur verteilt Ver­ant­wor­tung clever auf drei Parteien:

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert