Getting your Trinity Audio player ready...

Die Forschung zur „Chain-of-Thought“- (CoT) Argu­men­ta­tion hat in der neuesten Gen­er­a­tion von großen Sprach­mod­ellen (LLMs) an Bedeu­tung gewon­nen. Ein Prob­lem dabei sind die hohen Inferen­zkosten, die durch die Erzeu­gung über­mäßiger CoT-Tokens entste­hen. Wis­senschaftler der Carnegie Mel­lon Uni­ver­si­ty schla­gen in ein­er neuen Studie eine Train­ingsmeth­ode namens „Length Con­trolled Pol­i­cy Opti­miza­tion“ (LCPO) vor, die es Entwick­lern ermöglicht, die Länge der CoT bess­er zu steuern1New tech­nique helps LLMs rein in CoT lengths, opti­miz­ing rea­son­ing with­out explod­ing com­pute costs.

LCPO trainiert Mod­elle, um kor­rek­te Antworten zu liefern und gle­ichzeit­ig die CoT inner­halb eines vorgegebe­nen Token-Bud­gets zu hal­ten. Exper­i­mente zeigen, dass Mod­elle, die mit LCPO trainiert wur­den, eine aus­ge­wo­gene Kom­bi­na­tion aus Genauigkeit und Kosten bieten und in bes­timmten Fällen sog­ar größere Mod­elle übertr­e­f­fen kön­nen. Dies kön­nte die Inferen­zkosten in Unternehmen­san­wen­dun­gen erhe­blich senken, indem Tausende von Tokens pro Kon­ver­sa­tion einges­part wer­den.

Das klas­sis­che Ver­fahren zur Ver­stärkung des Ler­nens (RL) trainiert LLMs lediglich darauf, die richtige Antwort zu find­en. LCPO hinge­gen berück­sichtigt zwei Ziele: die kor­rek­te Antwort und die Begren­zung der CoT-Länge. Die Forsch­er führten zwei Vari­anten von LCPO ein: LCPO-exact, das eine exak­te Übere­in­stim­mung mit der Ziel-Länge erfordert, und LCPO-max, das eine Über­schre­itung der Ziel-Länge ver­hin­dert.

Die Ergeb­nisse zeigen, dass die L1-Mod­elle (die mit LCPO trainiert wur­den) eine präzise Bal­ance zwis­chen Token-Bud­get und Argu­men­ta­tion­sleis­tung erre­ichen kön­nen. Sie übertr­e­f­fen andere Meth­o­d­en und zeigen sig­nifikante Leis­tungs­gewinne. Diese neue Forschung hat das Poten­zial, die Anwen­dung von KI in der Wirtschaft wirtschaftlich­er zu gestal­ten und den Ein­satz größer­er, teur­erer Mod­elle zu ver­mei­den.

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert