Große Sprachmodelle (LLMs) für komplexe Denkaufgaben optimieren

Getting your Trinity Audio player ready...

Wissenschaftler der Stanford University haben OctoTools, eine neue agentenbasierte Open-Source-Plattform, entwickelt, um große Sprachmodelle (LLMs) für komplexe Denkaufgaben zu optimieren. Die Plattform zerlegt Aufgaben in Untereinheiten und ergänzt die Modelle durch den Einsatz von Werkzeugen, wodurch technische Barrieren abgebaut werden. Entwickler und Unternehmen können ihre eigenen Werkzeuge und Workflows integrieren¹².

Wir stellen OctoTools vor, ein trainingsfreies, benutzerfreundliches und leicht erweiterbares Open-Source-Framework für Agenten, das für komplexe Schlussfolgerungen in verschiedenen Bereichen entwickelt wurde. OctoTools führt standardisierte Werkzeugkarten ein, um die Werkzeugfunktionalität zu kapseln, einen Planer für High-Level- und Low-Level-Planung und einen Executor, um die Werkzeugnutzung auszuführen. Wir validieren OctoTools’ Allgemeingültigkeit in 16 verschiedenen Aufgaben (einschließlich MathVista, MMLU-Pro, MedQA und GAIA-Text) und erzielen dabei eine erhebliche durchschnittliche Genauigkeitssteigerung von 9,3 % gegenüber GPT-4o. Darüber hinaus übertrifft OctoTools auch AutoGen, GPT-Functions und LangChain um bis zu 10,6 %, wenn die gleichen Tools verwendet werden. Durch umfassende Analysen und Abtragungen zeigt OctoTools Vorteile bei der Aufgabenplanung, der effektiven Werkzeugnutzung und der mehrstufigen Problemlösung³.

Experimente zeigen, dass OctoTools klassische Methoden der Eingabeverarbeitung und andere Frameworks übertrifft, was es zu einem vielversprechenden Hilfsmittel für den praktischen Einsatz von KI-Modellen macht.

LLMs haben oft Schwierigkeiten mit mehrstufigen Denkaufgaben oder spezialisierter Fachkenntnis. OctoTools löst diese Probleme durch ein agentisches Framework, das mehrere Werkzeuge orchestrieren kann, ohne dass eine Feinabstimmung der Modelle erforderlich ist.

Während neuere allgemeine Agenten-Frameworks es LLMs auch ermöglichen, externe Tools autonom zu nutzen, konzentrieren sie sich oft auf Abstraktionen auf hoher Ebene (LangChain, 2024), begrenzte Beobachtbarkeit von Zwischenentscheidungen (OpenAI, 2023a) oder Funktionen für die Zusammenarbeit mehrerer Agenten (AutoGen, 2024) und legen weniger Wert auf die Verbesserung komplexer Schlussfolgerungen und quantitatives Benchmarking der nachgelagerten Aufgabenleistung. Im Gegensatz dazu evaluieren wir systematisch den gesamten agentenbasierten Arbeitsablauf von Oc- toTools über verschiedene Aufgaben hinweg und liefern tiefgreifende Analysen darüber, wann und wie werkzeugbasiertes Schlussfolgern in komplexen Schlussszenarien erfolgreich ist oder versagt.

Wichtige Komponenten sind „Tool Cards“, die als Wrapper für verschiedene Werkzeuge fungieren, und ein Planungsmodul, das einen Gesamtplan erstellt, der die erforderlichen Fähigkeiten und relevanten Werkzeuge analysiert. Ein Befehlsgenerator wandelt den Plan in ausführbaren Python-Code um, während ein Kontextverifier die Ergebnisse überprüft.

Werkzeugkarten definieren Metadaten zur Werkzeugverwendung und kapseln heterogene Werkzeuge, was eine schulungsfreie Integration neuer Werkzeuge ohne zusätzliche Schulung oder Verfeinerung des Rahmens ermöglicht. Der Planer steuert sowohl die High-Level- als auch die Low-Level-Planung, um das globale Ziel zu erreichen und Aktionen Schritt für Schritt zu verfeinern. Der Executor instanziiert Werkzeugaufrufe, indem er ausführbare Befehle erzeugt und strukturierte Ergebnisse im Kontext speichert. Die endgültige Antwort wird aus der vollständigen Trajektorie im Kontext zusammengefasst. Darüber hinaus lernt der aufgabenspezifische Toolset-Optimierungsalgorithmus eine vorteilhafte Teilmenge von Tools für nachgelagerte Aufgaben.

OctoTools erzielt eine durchschnittliche Genauigkeitssteigerung von 10,6% gegenüber AutoGen und übertrifft andere Frameworks bei Aufgaben, die Denken und Werkzeugnutzung erfordern. Die Forscher haben den Code auf GitHub veröffentlicht, um Unternehmen eine praktische Lösung für komplexe Aufgaben mit LLMs zu bieten.

Obwohl die Bereitstellung zahlreicher Tools von Vorteil sein kann, kann die Aktivierung aller Tools zu Rauschen oder Leistungseinbußen führen (Lumer, 2024; Fore et al., 2024; Paramanayakam et al., 2024). Deshalb schlagen wir einen leichtgewichtigen Optimierungsalgorithmus für den Werkzeugsatz vor, der auf der Grundlage der Validierungsleistung eine nützlichere Untergruppe von Werkzeugen für jede Aufgabe identifiziert und so letztlich sowohl die Genauigkeit als auch die Effizienz verbessert.

Große Sprachmodelle (LLMs) für komplexe Denkaufgaben optimieren

Ähnlicher Beitrag

KI-Agenten im Praxistest: Wie Raindrop die Black Box öffnet

Die Automatisierung schlägt zurück: Wie KI-Agenten das Milliardengeschäft der IT-Beratung angreifen

Deterministic Execution: Paradigmenwechsel – und seine Grenzen

Schreibe einen Kommentar Antwort abbrechen

Große Sprachmodelle (LLMs) für komplexe Denkaufgaben optimieren

Ähnliche Beiträge:

Ähnlicher Beitrag

KI-Agenten im Praxistest: Wie Raindrop die Black Box öffnet

Die Automatisierung schlägt zurück: Wie KI-Agenten das Milliardengeschäft der IT-Beratung angreifen

Deterministic Execution: Paradigmenwechsel – und seine Grenzen

Schreibe einen Kommentar Antwort abbrechen