Getting your Trinity Audio player ready...
|
Eine aktuelle Studie des Shanghai AI Laboratory zeigt, dass sehr kleine Sprachmodelle (SLMs) in bestimmten Denkaufgaben größere Sprachmodelle (LLMs) übertreffen können. Mit geeigneten Werkzeugen und Testzeit-Skalierungstechniken (TTS) kann ein SLM mit 1 Milliarde Parametern besser abschneiden als ein 405 Milliarden Parameter großes LLM bei komplexen Mathematikprüfungen.
Testzeit-Skalierung (TTS) ist ein Verfahren, bei dem LLMs während der Inferenz zusätzliche Rechenzyklen erhalten, um ihre Leistung zu verbessern.
Es gibt zwei Ansätze:
- Interne TTS: Führende Denkmodelle wie OpenAI o1 und DeepSeek-R1 verwenden „interne TTS“, d. h. sie werden darauf trainiert, langsam zu „denken“, indem sie eine lange Folge von Gedankenketten (CoT) erzeugen.
- Externe TTS: Hierbei wird die Denkleistung durch Stichproben oder suchbasierte Methoden mit festen LLMs verbessert wird.
Die Forscher schicken die Bemerkung voraus:
Aktuelle TTS-Methoden leiten den Generierungsprozess und wählen die endgültige Antwort mithilfe von Process Reward Models (PRMs) aus, die die Testzeitberechnung effektiv skalieren. Bei diesen TTS-Methoden spielen mehrere wichtige Faktoren eine Rolle, z. B. Richtlinienmodelle, PRMs und Problemschwierigkeitsstufen. Es gibt jedoch nur wenige systematische Analysen darüber, wie politische Modelle, PRMs und Problemschwierigkeiten diese TTS-Strategien beeinflussen. Diese Einschränkung hindert die Gemeinschaft daran, die Wirksamkeit dieser Methode vollständig zu verstehen und Erkenntnisse für rechneroptimale TTS-Strategien zu entwickeln.
Als Ergebnis halten die Forscher fest:
In diesem Papier präsentieren wir eine gründliche empirische Analyse der rechenoptimalen Testzeitskalierung aus der Perspektive verschiedener Politikmodelle, PRMs und anspruchsvollerer Evaluierungsaufgaben. Unsere Ergebnisse zeigen die Abhängigkeit rechneroptimaler TTS-Strategien von Politikmodellen, PRMs und Problemschwierigkeiten und bestätigen, dass kleinere Sprachmodelle bei der Anwendung rechneroptimaler TTS besser abschneiden können als größere Modelle. Unsere Ergebnisse zeigen, dass ein 1B-Modell durch TTS eine bessere Leistung erzielen kann als ein 405B-Modell. Darüber hinaus zeigen wir, dass ein 7B-PRM durch die Überwachung eines leistungsfähigeren 72B-Politikmodells starke TTS-Ergebnisse erzielen kann, was darauf hindeutet, wie wichtig es ist, einen echten „weak-to-strong“-Ansatz anstelle der derzeitigen „strong-to-weak“-Überwachung für die Politikoptimierung zu untersuchen. Um dieses Ziel zu erreichen, müssen wir eine effizientere Überwachung entwickeln.
Eine weitere Erkenntnis:
Bei kleinen Richtlinienmodellen sind suchbasierte Methoden besser als BoN, während bei großen Richtlinienmodellen BoN effektiver ist als suchbasierte Methoden. Dieser Unterschied ist darauf zurückzuführen, dass größere Modelle über stärkere Argumentationsfähigkeiten verfügen und keinen Überprüfer benötigen, um eine schrittweise Auswahl vorzunehmen. Im Gegensatz dazu sind kleinere Modelle auf einen Verifizierer angewiesen, der jeden Schritt auswählt und die Korrektheit jedes Zwischenschritts sicherstellt.
Die Studie legt nahe, dass die Effektivität von TTS direkt mit der Denkfähigkeit des Modells verknüpft ist. In Zukunft planen die Forscher, ihre Untersuchungen auf andere Denkaufgaben wie Programmierung und Chemie auszuweiten.
Testzeit-Skalierung im Zusammenhang mit großen Sprachmodellen bezieht sich auf eine neue Strategie zur Verbesserung der Leistung von KI-Systemen, bei der zusätzliche Rechenressourcen während der Inferenzphase (Testzeit) zugewiesen werden, anstatt einfach die Modellgröße zu erhöhen. Dieser Ansatz ermöglicht es Modellen, komplexere interne Überlegungen anzustellen, bevor sie eine endgültige Antwort geben.
Hauptmerkmale der Testzeit-Skalierung
- Verbesserte Leistung: Modelle können durch iterative Verfeinerung und tieferes Reasoning bessere Ergebnisse erzielen, insbesondere bei komplexen Aufgaben.
- Effizienz: Im Vergleich zur reinen Vergrößerung der Modelle kann die Testzeit-Skalierung eine kosteneffizientere Methode zur Leistungssteigerung sein.
- Flexibilität: Die Rechenressourcen können dynamisch basierend auf der Komplexität der Aufgabe angepasst werden.
Mechanismen
- Mehrfache Lösungsgenerierung: Modelle erzeugen mehrere potenzielle Antworten und wählen die beste aus.
- Iterative Verfeinerung: Antworten werden durch geführte Selbstrevision schrittweise verbessert.
- Adaptive Berechnungen: Die Rechenressourcen werden basierend auf der Aufgabenkomplexität dynamisch zugewiesen.
Diese Methode stellt das traditionelle Paradigma “größer ist besser” in Frage und eröffnet neue Möglichkeiten für die Entwicklung effizienterer und leistungsfähigerer KI-Systeme. Sie ermöglicht es kleineren Modellen, bei bestimmten Aufgaben mit größeren Modellen zu konkurrieren, indem sie die Rechenzeit zur Inferenz optimaler nutzen.