Getting your Trinity Audio player ready...
|
Eine neue Studie von der Hong Kong University und der University of California, Berkeley, zeigt, dass Sprachmodelle besser generalisieren, wenn sie eigene Lösungen entwickeln, anstatt mit handgefertigten Beispielen trainiert zu werden. Dies gilt sowohl für große Sprachmodelle (LLMs) als auch für visuelle Sprachmodelle (VLMs). Die Forschung widerlegt die gängige Annahme, dass handbeschriftete Trainingsdaten notwendig sind, und zeigt, dass zu viele solcher Beispiele die Generalisierungsfähigkeit der Modelle beeinträchtigen können1Less supervision, better results: Study shows AI models generalize more effectively on their own.
SFT vs. RL im Modelltraining
Traditionell wurde das überwachte Fine-Tuning (SFT) als Goldstandard für das Training von LLMs und VLMs angesehen. Es umfasst die Nachschulung eines vortrainierten Modells mit handgefertigten Beispielen. Reinforcement Learning (RL) wird zunehmend als Alternative betrachtet, bei der Modelle selbstständig lernen, ohne auf handgefertigte Beispiele angewiesen zu sein.
Generalisierung vs. Memorierung
Ein zentrales Problem im maschinellen Lernen ist Überanpassung (Overfitting), bei der Modelle gut auf Trainingsdaten, aber schlecht auf unbekannte Daten abschneiden. Die Studie untersucht, wie gut RL und SFT in textuellen und visuellen Aufgaben generalisieren.
Die Forscher führten zwei Hauptaufgaben durch:
- GeneralPoints – bewertet die arithmetischen Fähigkeiten eines Modells.
- V‑IRL – testet die räumlichen Fähigkeiten in einer realistischen Navigationsumgebung.
Ergebnisse
Die Ergebnisse zeigen, dass RL die Leistung auf stark abweichenden Beispielen verbessert, während SFT dazu neigt, Trainingsregeln zu memorieren und schlecht auf unbekannte Daten zu generalisieren. SFT stabilisiert jedoch die Ausgabeformate der Modelle und ist wichtig, damit RL seine Leistungssteigerungen erreichen kann.
Insgesamt deutet die Studie darauf hin, dass RL-basierte Ansätze ein großes ungenutztes Potenzial bieten, insbesondere in Anwendungen, in denen die Erstellung handgefertigter Beispiele aufwendig ist.