Getting your Trinity Audio player ready...

Rea­son­ing-Mod­elle wie Ope­nAI o1 und DeepSeek-R1 haben ein Prob­lem: Sie neigen dazu, über­mäßig nachzu­denken. Bei ein­fachen Fra­gen, wie „Was ist 1+1?“, benöti­gen sie mehrere Sekun­den, um zu antworten. Ide­al wäre es, wenn KI-Mod­elle erken­nen kön­nten, wann eine direk­te Antwort ange­bracht ist und wann sie mehr Zeit für das Nach­denken aufwen­den soll­ten1Not every AI prompt deserves mul­ti­ple sec­onds of think­ing: how Meta is teach­ing mod­els to pri­or­i­tize.

Eine neue Tech­nik, die von Forsch­ern der Meta AI und der Uni­ver­si­ty of Illi­nois Chica­go vorgestellt wurde, trainiert Mod­elle, ihre Ressourcen basierend auf der Schwierigkeit der Anfrage effizien­ter zu nutzen. Dadurch kön­nen schnellere Antworten und eine bessere Ressource­nal­loka­tion erre­icht wer­den2Think Smarter not Hard­er: Adap­tive Rea­son­ing with Infer­ence Aware Opti­miza­tion.

Kern­prob­leme

Große Sprach­mod­elle (LLMs) verbessern ihre Leis­tung bei kom­plex­en Fra­gen häu­fig durch län­gere Denkprozesse, bekan­nt als „Chain-of-Thought“ (CoT). Der Erfolg dieser Meth­ode hat zur Entwick­lung von Tech­niken geführt, die das Mod­ell anre­gen, länger über das Prob­lem nachzu­denken und mehrere Antworten zu gener­ieren, um die beste auszuwählen.
Ein gängiger Ansatz ist das „Major­i­ty Vot­ing“ (MV), bei dem das Mod­ell mehrere Antworten gener­iert und die am häu­fig­sten wiederkehrende auswählt. Dieses Ver­fahren hat jedoch den Nachteil, dass das Mod­ell jede Anfrage als schwieriges Prob­lem behan­delt und unnötige Ressourcen aufwen­det.

Effizien­tere Ansätze

Die neue Studie schlägt mehrere Train­ingsmeth­o­d­en vor, um die Effizienz der Mod­elle zu steigern. Die erste Meth­ode, „Sequen­tial Vot­ing“ (SV), ermöglicht es dem Mod­ell, den Denkprozess abzubrechen, sobald eine Antwort eine bes­timmte Anzahl von Malen erscheint. Bei ein­fachen Anfra­gen wie „1+1“ kön­nte das Mod­ell schnell ähn­liche Antworten gener­ieren und so Zeit und Ressourcen sparen.

Die zweite Meth­ode, „Adap­tive Sequen­tial Vot­ing“ (ASV), verbessert SV, indem das Mod­ell nur bei schwieri­gen Prob­le­men mehrere Antworten gener­iert. Bei ein­fachen Anfra­gen gibt es direkt eine Antwort, was die Effizienz erhöht.

Ver­stärk­endes Ler­nen (Rein­force­ment Learn­ing)

Um den Bedarf an handbeschrifteten Dat­en zu ver­ringern, schla­gen die Forsch­er den „Infer­ence Bud­get-Con­strained Pol­i­cy Opti­miza­tion“ (IBPO) Algo­rith­mus vor. Dieser ver­stärk­ende Ler­nal­go­rith­mus lehrt das Mod­ell, die Länge der Denkprozesse basierend auf der Schwierigkeit der Anfrage anzu­passen. IBPO ermöglicht es den Mod­ellen, ihre Antworten zu opti­mieren, während sie inner­halb eines vorgegebe­nen Ressourcenbud­gets bleiben.

Die Ergeb­nisse zeigen, dass IBPO die Effizienz verbessert, sodass Mod­elle bei fest­gelegten Ressourcen bess­er abschnei­den als andere Ansätze.

Faz­it

Die Forschungsergeb­nisse kom­men zu einem Zeit­punkt, an dem viele KI-Mod­elle an ihre Gren­zen stoßen. Unternehmen suchen nach qual­i­ta­tiv hochw­er­ti­gen Train­ings­dat­en und exper­i­men­tieren mit alter­na­tiv­en Meth­o­d­en zur Verbesserung ihrer Mod­elle. Ver­stärk­endes Ler­nen bietet eine vielver­sprechende Lösung, da es dem Mod­ell ermöglicht, eigene Lösun­gen zu find­en, wodurch es oft inno­v­a­tive Antworten ent­deck­en kann, die Men­schen nicht in Betra­cht gezo­gen haben.

Anmerkung:

Das hat m.E. große Ähn­lichkeit mit den »Sim­ple Heuris­tics«3Sim­ple Heuris­tics That Make Us Smart von Gerd Gigeren­z­er. Dazu dem­nächst mehr.

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert