|
Getting your Trinity Audio player ready...
|
Forscher haben eine Methode entwickelt, die es Sprachmodellen erlaubt, beliebig lange zu „denken” – indem sie lernen, das Richtige zu vergessen. Die Technik verbindet Effizienz mit Exformation und könnte KI-Systeme ermöglichen, die über Wochen hinweg an einem Problem arbeiten.
Es ist ein Paradoxon der modernen KI: Je komplexer das Denken, desto teurer wird es. Große Sprachmodelle wie GPT‑4 oder Claude können bereits erstaunlich schwierige Probleme lösen – vorausgesetzt, man gibt ihnen genug Zeit zum „Nachdenken”. Doch dieses Nachdenken hat seinen Preis. Mit jedem zusätzlichen Denkschritt wächst der Kontext, den das Modell verarbeiten muss, und die Rechenkosten steigen nicht linear, sondern quadratisch an. Das bedeutet: Wer die Denkleistung verdoppeln will, zahlt nicht das Doppelte, sondern das Vierfache.
Forscher von Mila, einem der führenden KI-Institute, haben nun eine elegante Lösung für dieses Problem gefunden, die auf einer überraschenden Einsicht beruht: Intelligenz zeigt sich nicht darin, alles zu behalten, sondern darin zu wissen, was man vergessen kann1New ‘Markovian Thinking’ technique unlocks a path to million-token AI reasoning. Ihre Methode trägt den Namen „Markovian Thinking” und implementiert nichts Geringeres als das Prinzip der Exformation – jener Information, die bewusst weggelassen wird, weil sie nicht mehr benötigt wird.
Das Dilemma des totalen Erinnerns
Um zu verstehen, warum Markovian Thinking so bedeutsam ist, muss man zunächst das Problem erfassen. Moderne Sprachmodelle nutzen eine Technik namens „Chain-of-Thought” – eine Kette von Gedankenschritten, die komplexes Denken ermöglicht. Statt direkt zur Antwort zu springen, arbeitet sich das Modell Schritt für Schritt voran, prüft Zwischenergebnisse und korrigiert sich selbst.
Das Problem liegt in der Architektur der Modelle selbst. Bei jedem neuen Denkschritt muss das gesamte bisherige „Gedankenprotokoll” erneut verarbeitet werden. Die Modelle verhalten sich wie Studierende, die für jede neue Zeile in ihrem Aufsatz das gesamte Dokument von Beginn an neu lesen müssen. Ein Denkprozess über 100.000 Tokens – etwa 75.000 Wörter – wird so zu einer gewaltigen Rechenaufgabe.
Bisherige Lösungsversuche konzentrierten sich darauf, die Denklänge zu begrenzen oder den Kontext zu komprimieren. Doch das war, als würde man einem Mathematiker verbieten, s…
