Getting your Trinity Audio player ready...
|
Die Forschung zur „Chain-of-Thought“- (CoT) Argumentation hat in der neuesten Generation von großen Sprachmodellen (LLMs) an Bedeutung gewonnen. Ein Problem dabei sind die hohen Inferenzkosten, die durch die Erzeugung übermäßiger CoT-Tokens entstehen. Wissenschaftler der Carnegie Mellon University schlagen in einer neuen Studie eine Trainingsmethode namens „Length Controlled Policy Optimization“ (LCPO) vor, die es Entwicklern ermöglicht, die Länge der CoT besser zu steuern1New technique helps LLMs rein in CoT lengths, optimizing reasoning without exploding compute costs.
LCPO trainiert Modelle, um korrekte Antworten zu liefern und gleichzeitig die CoT innerhalb eines vorgegebenen Token-Budgets zu halten. Experimente zeigen, dass Modelle, die mit LCPO trainiert wurden, eine ausgewogene Kombination aus Genauigkeit und Kosten bieten und in bestimmten Fällen sogar größere Modelle übertreffen können. Dies könnte die Inferenzkosten in Unternehmensanwendungen erheblich senken, indem Tausende von Tokens pro Konversation eingespart werden.
Das klassische Verfahren zur Verstärkung des Lernens (RL) trainiert LLMs lediglich darauf, die richtige Antwort zu finden. LCPO hingegen berücksichtigt zwei Ziele: die korrekte Antwort und die Begrenzung der CoT-Länge. Die Forscher führten zwei Varianten von LCPO ein: LCPO-exact, das eine exakte Übereinstimmung mit der Ziel-Länge erfordert, und LCPO-max, das eine Überschreitung der Ziel-Länge verhindert.
Die Ergebnisse zeigen, dass die L1-Modelle (die mit LCPO trainiert wurden) eine präzise Balance zwischen Token-Budget und Argumentationsleistung erreichen können. Sie übertreffen andere Methoden und zeigen signifikante Leistungsgewinne. Diese neue Forschung hat das Potenzial, die Anwendung von KI in der Wirtschaft wirtschaftlicher zu gestalten und den Einsatz größerer, teurerer Modelle zu vermeiden.