Getting your Trinity Audio player ready...

Wis­senschaftler der Stan­ford Uni­ver­si­ty haben Octo­Tools, eine neue agen­ten­basierte Open-Source-Plat­tform, entwick­elt, um große Sprach­mod­elle (LLMs) für kom­plexe Denkauf­gaben zu opti­mieren. Die Plat­tform zer­legt Auf­gaben in Untere­in­heit­en und ergänzt die Mod­elle durch den Ein­satz von Werkzeu­gen, wodurch tech­nis­che Bar­ri­eren abge­baut wer­den. Entwick­ler und Unternehmen kön­nen ihre eige­nen Werkzeuge und Work­flows inte­gri­eren1Octo­Tools: Stanford’s open-source frame­work opti­mizes LLM rea­son­ing through mod­u­lar tool orches­tra­tion2Octo­Tools: An Agen­tic Frame­work with Exten­si­ble Tools for Com­plex Rea­son­ing.

Wir stellen Octo­Tools vor, ein train­ings­freies, benutzer­fre­undlich­es und leicht erweit­er­bares Open-Source-Frame­work für Agen­ten, das für kom­plexe Schlussfol­gerun­gen in ver­schiede­nen Bere­ichen entwick­elt wurde. Octo­Tools führt stan­dar­d­isierte Werkzeugkarten ein, um die Werkzeug­funk­tion­al­ität zu kapseln, einen Plan­er für High-Lev­el- und Low-Lev­el-Pla­nung und einen Execu­tor, um die Werkzeugnutzung auszuführen. Wir vali­dieren Octo­Tools’ All­ge­me­ingültigkeit in 16 ver­schiede­nen Auf­gaben (ein­schließlich Math­Vista, MMLU-Pro, MedQA und GAIA-Text) und erzie­len dabei eine erhe­bliche durch­schnit­tliche Genauigkeitssteigerung von 9,3 % gegenüber GPT-4o. Darüber hin­aus über­trifft Octo­Tools auch Auto­Gen, GPT-Func­tions und LangChain um bis zu 10,6 %, wenn die gle­ichen Tools ver­wen­det wer­den. Durch umfassende Analy­sen und Abtra­gun­gen zeigt Octo­Tools Vorteile bei der Auf­gaben­pla­nung, der effek­tiv­en Werkzeugnutzung und der mehrstu­fi­gen Prob­lem­lö­sung3Octo­Tools An Agen­tic Frame­work with Exten­si­ble Tools for Com­plex Rea­son­ing.

Exper­i­mente zeigen, dass Octo­Tools klas­sis­che Meth­o­d­en der Eingabev­er­ar­beitung und andere Frame­works über­trifft, was es zu einem vielver­sprechen­den Hil­f­s­mit­tel für den prak­tis­chen Ein­satz von KI-Mod­ellen macht.

LLMs haben oft Schwierigkeit­en mit mehrstu­fi­gen Denkauf­gaben oder spezial­isiert­er Fachken­nt­nis. Octo­Tools löst diese Prob­leme durch ein agen­tis­ches Frame­work, das mehrere Werkzeuge orchestri­eren kann, ohne dass eine Fein­ab­stim­mung der Mod­elle erforder­lich ist.

Während neuere all­ge­meine Agen­ten-Frame­works es LLMs auch ermöglichen, externe Tools autonom zu nutzen, konzen­tri­eren sie sich oft auf Abstrak­tio­nen auf hoher Ebene (LangChain, 2024), begren­zte Beobacht­barkeit von Zwis­ch­enentschei­dun­gen (Ope­nAI, 2023a) oder Funk­tio­nen für die Zusam­me­nar­beit mehrerer Agen­ten (Auto­Gen, 2024) und leg­en weniger Wert auf die Verbesserung kom­plex­er Schlussfol­gerun­gen und quan­ti­ta­tives Bench­mark­ing der nachge­lagerten Auf­gaben­leis­tung. Im Gegen­satz dazu evaluieren wir sys­tem­a­tisch den gesamten agen­ten­basierten Arbeitsablauf von Oc- toTools über ver­schiedene Auf­gaben hin­weg und liefern tief­greifende Analy­sen darüber, wann und wie werkzeug­basiertes Schlussfol­gern in kom­plex­en Schlussszenar­ien erfol­gre­ich ist oder ver­sagt.

Wichtige Kom­po­nen­ten sind „Tool Cards“, die als Wrap­per für ver­schiedene Werkzeuge fungieren, und ein Pla­nungsmod­ul, das einen Gesamt­plan erstellt, der die erforder­lichen Fähigkeit­en und rel­e­van­ten Werkzeuge analysiert. Ein Befehls­gen­er­a­tor wan­delt den Plan in aus­führbaren Python-Code um, während ein Kon­textver­i­fi­er die Ergeb­nisse über­prüft.

Werkzeugkarten definieren Meta­dat­en zur Werkzeugver­wen­dung und kapseln het­ero­gene Werkzeuge, was eine schu­lungs­freie Inte­gra­tion neuer Werkzeuge ohne zusät­zliche Schu­lung oder Ver­feinerung des Rah­mens ermöglicht. Der Plan­er steuert sowohl die High-Lev­el- als auch die Low-Lev­el-Pla­nung, um das glob­ale Ziel zu erre­ichen und Aktio­nen Schritt für Schritt zu ver­fein­ern. Der Execu­tor instanzi­iert Werkzeu­gaufrufe, indem er aus­führbare Befehle erzeugt und struk­turi­erte Ergeb­nisse im Kon­text spe­ichert. Die endgültige Antwort wird aus der voll­ständi­gen Tra­jek­to­rie im Kon­text zusam­menge­fasst. Darüber hin­aus lernt der auf­gaben­spez­i­fis­che Toolset-Opti­mierungsal­go­rith­mus eine vorteil­hafte Teil­menge von Tools für nachge­lagerte Auf­gaben.

Octo­Tools erzielt eine durch­schnit­tliche Genauigkeitssteigerung von 10,6% gegenüber Auto­Gen und über­trifft andere Frame­works bei Auf­gaben, die Denken und Werkzeugnutzung erfordern. Die Forsch­er haben den Code auf GitHub veröf­fentlicht, um Unternehmen eine prak­tis­che Lösung für kom­plexe Auf­gaben mit LLMs zu bieten.

Obwohl die Bere­it­stel­lung zahlre­ich­er Tools von Vorteil sein kann, kann die Aktivierung aller Tools zu Rauschen oder Leis­tung­sein­bußen führen (Lumer, 2024; Fore et al., 2024; Para­manayakam et al., 2024). Deshalb schla­gen wir einen leicht­gewichti­gen Opti­mierungsal­go­rith­mus für den Werkzeugsatz vor, der auf der Grund­lage der Vali­dierungsleis­tung eine nüt­zlichere Unter­gruppe von Werkzeu­gen für jede Auf­gabe iden­ti­fiziert und so let­ztlich sowohl die Genauigkeit als auch die Effizienz verbessert.

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert