Getting your Trinity Audio player ready...
|
Forscher von der Stanford University und Google DeepMind haben die Methode Step-Wise Reinforcement Learning (SWiRL) entwickelt, um die Fähigkeit großer Sprachmodelle (LLMs) zur Lösung komplexer Aufgaben mit mehrstufigem Denken und Werkzeugnutzung zu verbessern. Diese Technik könnte besonders für Unternehmen von Vorteil sein, die KI-gestützte Entscheidungsfindung in ihren Anwendungen integrieren möchten1SWiRL: The business case for AI that thinks like your best problem-solvers.
Herausforderungen bei mehrstufigen Problemen
Traditionelle Methoden des Reinforcement Learning (RL) wie RLHF und RLAIF optimieren LLMs meist für Einzelschrittaufgaben. Die Autoren argumentieren, dass diese Ansätze für die Anforderungen realer Anwendungen nicht geeignet sind, da LLMs Schwierigkeiten bei der Planung mehrstufiger Prozesse haben, z.B. beim Erstellen von Geschäftsberichten.
SWiRL-Ansatz
SWiRL kombiniert die Generierung synthetischer Daten mit einem spezialisierten RL-Ansatz, um Modelle auf ganze Aktionssequenzen zu trainieren. Der Prozess umfasst zwei Phasen:
- Datengenerierung: Ein LLM generiert eine “Trajektorie”, die Schritte zur Lösung eines Problems umfasst. Diese Trajektorien werden in überlappende Sub-Trajektorien zerlegt, die den Denkprozess des Modells darstellen.
- Training: SWiRL trainiert ein Basis-LLM mithilfe von generierten Trajektorien durch einen schrittweisen RL-Algorithmus. Zu jedem Zeitpunkt erhält das Modell Feedback von einem separaten Belohnungsmodell.
Ergebnisse
SWiRL erzielte signifikante Verbesserungen bei der Genauigkeit in verschiedenen mehrstufigen Aufgaben im Vergleich zu Basis-Modellen, mit Verbesserungen von 11% bis über 21% in Datensätzen wie GSM8K und HotPotQA. Es zeigte auch starke Generalisierungsfähigkeiten, indem es die Leistung in mathematischen Aufgaben verbesserte, obwohl es nicht explizit dafür trainiert wurde.
Insgesamt bietet SWiRL eine vielversprechende Methode, um die Robustheit und Effizienz von LLMs in komplexen, mehrstufigen Anwendungen zu erhöhen.