Getting your Trinity Audio player ready...

Forsch­er haben eine Meth­ode entwick­elt, die es Sprach­mod­ellen erlaubt, beliebig lange zu „denken” – indem sie ler­nen, das Richtige zu vergessen. Die Tech­nik verbindet Effizienz mit Exfor­ma­tion und kön­nte KI-Sys­teme ermöglichen, die über Wochen hin­weg an einem Prob­lem arbeit­en.


Es ist ein Para­dox­on der mod­er­nen KI: Je kom­plex­er das Denken, desto teur­er wird es. Große Sprach­mod­elle wie GPT‑4 oder Claude kön­nen bere­its erstaunlich schwierige Prob­leme lösen – voraus­ge­set­zt, man gibt ihnen genug Zeit zum „Nach­denken”. Doch dieses Nach­denken hat seinen Preis. Mit jedem zusät­zlichen Denkschritt wächst der Kon­text, den das Mod­ell ver­ar­beit­en muss, und die Rechenkosten steigen nicht lin­ear, son­dern qua­dratisch an. Das bedeutet: Wer die Den­kleis­tung ver­dop­peln will, zahlt nicht das Dop­pelte, son­dern das Vier­fache.

Forsch­er von Mila, einem der führen­den KI-Insti­tute, haben nun eine ele­gante Lösung für dieses Prob­lem gefun­den, die auf ein­er über­raschen­den Ein­sicht beruht: Intel­li­genz zeigt sich nicht darin, alles zu behal­ten, son­dern darin zu wis­sen, was man vergessen kann1New ‘Mar­kov­ian Think­ing’ tech­nique unlocks a path to mil­lion-token AI rea­son­ing. Ihre Meth­ode trägt den Namen „Mar­kov­ian Think­ing” und imple­men­tiert nichts Gerin­geres als das Prinzip der Exfor­ma­tion – jen­er Infor­ma­tion, die bewusst wegge­lassen wird, weil sie nicht mehr benötigt wird.

Das Dilem­ma des total­en Erin­nerns

Um zu ver­ste­hen, warum Mar­kov­ian Think­ing so bedeut­sam ist, muss man zunächst das Prob­lem erfassen. Mod­erne Sprach­mod­elle nutzen eine Tech­nik namens „Chain-of-Thought” – eine Kette von Gedanken­schrit­ten, die kom­plex­es Denken ermöglicht. Statt direkt zur Antwort zu sprin­gen, arbeit­et sich das Mod­ell Schritt für Schritt voran, prüft Zwis­ch­en­ergeb­nisse und kor­rigiert sich selb­st.

Das Prob­lem liegt in der Architek­tur der Mod­elle selb­st. Bei jedem neuen Denkschritt muss das gesamte bish­erige „Gedanken­pro­tokoll” erneut ver­ar­beit­et wer­den. Die Mod­elle ver­hal­ten sich wie Studierende, die für jede neue Zeile in ihrem Auf­satz das gesamte Doku­ment von Beginn an neu lesen müssen. Ein Denkprozess über 100.000 Tokens – etwa 75.000 Wörter – wird so zu ein­er gewalti­gen Rechenauf­gabe.

Bish­erige Lösungsver­suche konzen­tri­erten sich darauf, die Den­klänge zu begren­zen oder den Kon­text zu kom­prim­ieren. Doch das war, als würde man einem Math­e­matik­er ver­bi­eten, s…

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert