Die gegenwärtige Debatte um KI-Agenten kreist überwiegend um Orchestrierung: Wie koordiniert man Sprachmodelle, Tools und Workflows? Das ist nicht falsch, greift aber zu kurz. Denn sobald Agenten nicht mehr nur Text verarbeiten, sondern in physischen oder simulierten Umgebungen handeln sollen – in der Robotik, in der Intralogistik, im autonomen Verkehr –, stellt sich eine grundlegendere Frage: Worauf stützt sich die Handlungsplanung eines Agenten, wenn die Welt nicht aus Tokens besteht?
Die Antwort, die sich derzeit in der Forschung herauskristallisiert, lautet: auf Weltmodelle. Das klingt zunächst nach einem weiteren Modebegriff. Bei genauerem Hinsehen handelt es sich jedoch um eine architektonische Verschiebung, die das Verhältnis von Wahrnehmung, Planung und Handlung in Agentensystemen grundlegend neu ordnet.
Die Leerstelle der Sprachmodelle
LLMs sind bemerkenswert leistungsfähig darin, sprachlich codiertes Wissen zu verarbeiten, Schlüsse zu ziehen und Pläne zu formulieren. Was sie nicht können: kausale Zusammenhänge in der physischen Welt verlässlich modellieren. Ein Sprachmodell kann beschreiben, dass ein Glas vom Tisch fällt und zerbricht. Es hat aber kein internes Modell der Schwerkraft, der Materialeigenschaften oder der räumlichen Konfiguration, das diese Vorhersage fundiert. Das Wissen ist statistisch abgeleitet, nicht physikalisch verankert.
Für textbasierte Agenten – etwa solche, die APIs orchestrieren oder Dokumente analysieren – ist das unerheblich. Für Agenten, die in der physischen Welt operieren oder physische Prozesse simulieren und bewerten müssen, ist es …
