Getting your Trinity Audio player ready...

Eine aktuelle Studie des Shang­hai AI Lab­o­ra­to­ry zeigt, dass sehr kleine Sprach­mod­elle (SLMs) in bes­timmten Denkauf­gaben größere Sprach­mod­elle (LLMs) übertr­e­f­fen kön­nen. Mit geeigneten Werkzeu­gen und Testzeit-Skalierung­stech­niken (TTS) kann ein SLM mit 1 Mil­liarde Para­me­tern bess­er abschnei­den als ein 405 Mil­liar­den Para­me­ter großes LLM bei kom­plex­en Math­e­matikprü­fun­gen.

Testzeit-Skalierung (TTS) ist ein Ver­fahren, bei dem LLMs während der Inferenz zusät­zliche Rechen­zyklen erhal­ten, um ihre Leis­tung zu verbessern.

Es gibt zwei Ansätze:

  • Interne TTS: Führende Denkmod­elle wie Ope­nAI o1 und DeepSeek-R1 ver­wen­den „interne TTS“, d. h. sie wer­den darauf trainiert, langsam zu „denken“, indem sie eine lange Folge von Gedanken­ket­ten (CoT) erzeu­gen.
  • Externe TTS: Hier­bei wird die Den­kleis­tung durch Stich­proben oder such­basierte Meth­o­d­en mit fes­ten LLMs verbessert wird.

Die Forsch­er schick­en die Bemerkung voraus:

Aktuelle TTS-Meth­o­d­en leit­en den Gener­ierung­sprozess und wählen die endgültige Antwort mith­il­fe von Process Reward Mod­els (PRMs) aus, die die Testzeit­berech­nung effek­tiv skalieren. Bei diesen TTS-Meth­o­d­en spie­len mehrere wichtige Fak­toren eine Rolle, z. B. Richtlin­ien­mod­elle, PRMs und Prob­lem­schwierigkeitsstufen. Es gibt jedoch nur wenige sys­tem­a­tis­che Analy­sen darüber, wie poli­tis­che Mod­elle, PRMs und Prob­lem­schwierigkeit­en diese TTS-Strate­gien bee­in­flussen. Diese Ein­schränkung hin­dert die Gemein­schaft daran, die Wirk­samkeit dieser Meth­ode voll­ständig zu ver­ste­hen und Erken­nt­nisse für rech­nerop­ti­male TTS-Strate­gien zu entwick­eln.

Als Ergeb­nis hal­ten die Forsch­er fest:

In diesem Papi­er präsen­tieren wir eine gründliche empirische Analyse der rechenop­ti­malen Testzeit­skalierung aus der Per­spek­tive ver­schieden­er Poli­tik­mod­elle, PRMs und anspruchsvollerer Evaluierungsauf­gaben. Unsere Ergeb­nisse zeigen die Abhängigkeit rech­nerop­ti­maler TTS-Strate­gien von Poli­tik­mod­ellen, PRMs und Prob­lem­schwierigkeit­en und bestäti­gen, dass kleinere Sprach­mod­elle bei der Anwen­dung rech­nerop­ti­maler TTS bess­er abschnei­den kön­nen als größere Mod­elle. Unsere Ergeb­nisse zeigen, dass ein 1B-Mod­ell durch TTS eine bessere Leis­tung erzie­len kann als ein 405B-Mod­ell. Darüber hin­aus zeigen wir, dass ein 7B-PRM durch die Überwachung eines leis­tungs­fähigeren 72B-Poli­tik­mod­ells starke TTS-Ergeb­nisse erzie­len kann, was darauf hin­deutet, wie wichtig es ist, einen echt­en „weak-to-strong“-Ansatz anstelle der derzeit­i­gen „strong-to-weak“-Überwachung für die Poli­tikop­ti­mierung zu unter­suchen. Um dieses Ziel zu erre­ichen, müssen wir eine effizien­tere Überwachung entwick­eln. 

Eine weit­ere Erken­nt­nis:

Bei kleinen Richtlin­ien­mod­ellen sind such­basierte Meth­o­d­en bess­er als BoN, während bei großen Richtlin­ien­mod­ellen BoN effek­tiv­er ist als such­basierte Meth­o­d­en. Dieser Unter­schied ist darauf zurück­zuführen, dass größere Mod­elle über stärkere Argu­men­ta­tions­fähigkeit­en ver­fü­gen und keinen Über­prüfer benöti­gen, um eine schrit­tweise Auswahl vorzunehmen. Im Gegen­satz dazu sind kleinere Mod­elle auf einen Ver­i­fizier­er angewiesen, der jeden Schritt auswählt und die Kor­rek­theit jedes Zwis­chen­schritts sich­er­stellt.

Die Studie legt nahe, dass die Effek­tiv­ität von TTS direkt mit der Denk­fähigkeit des Mod­ells verknüpft ist. In Zukun­ft pla­nen die Forsch­er, ihre Unter­suchun­gen auf andere Denkauf­gaben wie Pro­gram­mierung und Chemie auszuweit­en.

Testzeit-Skalierung (TTS) für große Sprach­mod­elle

Testzeit-Skalierung im Zusam­men­hang mit großen Sprach­mod­ellen bezieht sich auf eine neue Strate­gie zur Verbesserung der Leis­tung von KI-Sys­te­men, bei der zusät­zliche Rechen­res­sourcen während der Inferen­zphase (Testzeit) zugewiesen wer­den, anstatt ein­fach die Mod­ell­größe zu erhöhen. Dieser Ansatz ermöglicht es Mod­ellen, kom­plexere interne Über­legun­gen anzustellen, bevor sie eine endgültige Antwort geben.

Haupt­merk­male der Testzeit-Skalierung

  • Verbesserte Leis­tung: Mod­elle kön­nen durch iter­a­tive Ver­feinerung und tief­eres Rea­son­ing bessere Ergeb­nisse erzie­len, ins­beson­dere bei kom­plex­en Auf­gaben.
  • Effizienz: Im Ver­gle­ich zur reinen Ver­größerung der Mod­elle kann die Testzeit-Skalierung eine kosten­ef­fizien­tere Meth­ode zur Leis­tungssteigerung sein.
  • Flex­i­bil­ität: Die Rechen­res­sourcen kön­nen dynamisch basierend auf der Kom­plex­ität der Auf­gabe angepasst wer­den.

Mech­a­nis­men

  • Mehrfache Lösungs­gener­ierung: Mod­elle erzeu­gen mehrere poten­zielle Antworten und wählen die beste aus.
  • Iter­a­tive Ver­feinerung: Antworten wer­den durch geführte Selb­stre­vi­sion schrit­tweise verbessert.
  • Adap­tive Berech­nun­gen: Die Rechen­res­sourcen wer­den basierend auf der Auf­gabenkom­plex­ität dynamisch zugewiesen.

Diese Meth­ode stellt das tra­di­tionelle Par­a­dig­ma “größer ist bess­er” in Frage und eröffnet neue Möglichkeit­en für die Entwick­lung effizien­ter­er und leis­tungs­fähiger­er KI-Sys­teme. Sie ermöglicht es kleineren Mod­ellen, bei bes­timmten Auf­gaben mit größeren Mod­ellen zu konkur­ri­eren, indem sie die Rechen­zeit zur Inferenz opti­maler nutzen.

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert