Die gegen­wär­tige Debat­te um KI-Agen­ten kreist über­wiegend um Orchestrierung: Wie koor­diniert man Sprach­mod­elle, Tools und Work­flows? Das ist nicht falsch, greift aber zu kurz. Denn sobald Agen­ten nicht mehr nur Text ver­ar­beit­en, son­dern in physis­chen oder simulierten Umge­bun­gen han­deln sollen – in der Robotik, in der Intral­o­gis­tik, im autonomen Verkehr –, stellt sich eine grundle­gen­dere Frage: Worauf stützt sich die Hand­lungs­pla­nung eines Agen­ten, wenn die Welt nicht aus Tokens beste­ht?


Die Antwort, die sich derzeit in der Forschung her­auskristallisiert, lautet: auf Welt­mod­elle. Das klingt zunächst nach einem weit­eren Mode­be­griff. Bei genauerem Hin­se­hen han­delt es sich jedoch um eine architek­tonis­che Ver­schiebung, die das Ver­hält­nis von Wahrnehmung, Pla­nung und Hand­lung in Agen­ten­sys­te­men grundle­gend neu ord­net.

Die Leerstelle der Sprachmodelle

LLMs sind bemerkenswert leis­tungs­fähig darin, sprach­lich codiertes Wis­sen zu ver­ar­beit­en, Schlüsse zu ziehen und Pläne zu for­mulieren. Was sie nicht kön­nen: kausale Zusam­men­hänge in der physis­chen Welt ver­lässlich mod­el­lieren. Ein Sprach­mod­ell kann beschreiben, dass ein Glas vom Tisch fällt und zer­bricht. Es hat aber kein internes Mod­ell der Schw­erkraft, der Mate­ri­aleigen­schaften oder der räum­lichen Kon­fig­u­ra­tion, das diese Vorher­sage fundiert. Das Wis­sen ist sta­tis­tisch abgeleit­et, nicht physikalisch ver­ankert.

Für textbasierte Agen­ten – etwa solche, die APIs orchestri­eren oder Doku­mente analysieren – ist das uner­he­blich. Für Agen­ten, die in der physis­chen Welt operieren oder physis­che Prozesse simulieren und bew­erten müssen, ist es …

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert