Fähigkeit großer Sprachmodelle für mehrstufige Prozesse verbessern
Forscher von der Stanford University und Google DeepMind haben die Methode Step-Wise Reinforcement Learning (SWiRL) entwickelt, um die Fähigkeit großer Sprachmodelle (LLMs) zur Lösung komplexer Aufgaben mit mehrstufigem Denken und…
