Getting your Trinity Audio player ready...

Forsch­er von der Stan­ford Uni­ver­si­ty und Google Deep­Mind haben die Meth­ode Step-Wise Rein­force­ment Learn­ing (SWiRL) entwick­elt, um die Fähigkeit großer Sprach­mod­elle (LLMs) zur Lösung kom­plex­er Auf­gaben mit mehrstu­figem Denken und Werkzeugnutzung zu verbessern. Diese Tech­nik kön­nte beson­ders für Unternehmen von Vorteil sein, die KI-gestützte Entschei­dungs­find­ung in ihren Anwen­dun­gen inte­gri­eren möcht­en1SWiRL: The busi­ness case for AI that thinks like your best prob­lem-solvers.

Her­aus­forderun­gen bei mehrstu­fi­gen Prob­le­men

Tra­di­tionelle Meth­o­d­en des Rein­force­ment Learn­ing (RL) wie RLHF und RLAIF opti­mieren LLMs meist für Einzelschrit­tauf­gaben. Die Autoren argu­men­tieren, dass diese Ansätze für die Anforderun­gen real­er Anwen­dun­gen nicht geeignet sind, da LLMs Schwierigkeit­en bei der Pla­nung mehrstu­figer Prozesse haben, z.B. beim Erstellen von Geschäfts­bericht­en.

SWiRL-Ansatz

SWiRL kom­biniert die Gener­ierung syn­thetis­ch­er Dat­en mit einem spezial­isierten RL-Ansatz, um Mod­elle auf ganze Aktion­sse­quen­zen zu trainieren. Der Prozess umfasst zwei Phasen:

  • Daten­gener­ierung: Ein LLM gener­iert eine “Tra­jek­to­rie”, die Schritte zur Lösung eines Prob­lems umfasst. Diese Tra­jek­to­rien wer­den in über­lap­pende Sub-Tra­jek­to­rien zer­legt, die den Denkprozess des Mod­ells darstellen.
  • Train­ing: SWiRL trainiert ein Basis-LLM mith­il­fe von gener­ierten Tra­jek­to­rien durch einen schrit­tweisen RL-Algo­rith­mus. Zu jedem Zeit­punkt erhält das Mod­ell Feed­back von einem sep­a­rat­en Beloh­nungsmod­ell.

Ergeb­nisse

SWiRL erzielte sig­nifikante Verbesserun­gen bei der Genauigkeit in ver­schiede­nen mehrstu­fi­gen Auf­gaben im Ver­gle­ich zu Basis-Mod­ellen, mit Verbesserun­gen von 11% bis über 21% in Daten­sätzen wie GSM8K und Hot­PotQA. Es zeigte auch starke Gen­er­al­isierungs­fähigkeit­en, indem es die Leis­tung in math­e­ma­tis­chen Auf­gaben verbesserte, obwohl es nicht expliz­it dafür trainiert wurde.

Ins­ge­samt bietet SWiRL eine vielver­sprechende Meth­ode, um die Robus­theit und Effizienz von LLMs in kom­plex­en, mehrstu­fi­gen Anwen­dun­gen zu erhöhen.

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert