Getting your Trinity Audio player ready...

Mit dem „Agen­tic Con­tin­u­al Pre-train­ing“ (Agen­tic CPT) hat Alibaba’s Tongyi Lab ein Open-Source-Frame­work vorgestellt, das den Train­ing­sprozess großer Sprach­mod­elle (LLMs) erweit­ert und für kom­plexere Ein­satzszenar­ien opti­miert. Ziel ist es, LLMs nicht nur als Textgen­er­a­toren, son­dern als hand­lungs­fähige Agen­ten auszu­bilden, die in dynamis­chen Umge­bun­gen zuver­läs­sig agieren.


Das Frame­work führt eine Zwis­chen­stufe im Train­ing ein: ein „pre-aligned“ Mod­ell, das bere­its agen­tis­che Fähigkeit­en besitzt, bevor es final abges­timmt wird. Zwei Prinzip­i­en struk­turi­eren diesen Ansatz: erstens die Nutzung bre­it gefächert­er Daten­quellen zur Förderung viel­seit­iger Prob­lem­lö­sungsstrate­gien, zweit­ens die Inte­gra­tion agen­tis­ch­er Szenar­ien, um Hand­lungs­flex­i­bil­ität statt bloßer Muster­wieder­hol­ung zu entwick­eln1Build research agents with­out API costs: Alibaba’s offline data syn­the­sis break­through.

Tech­nisch erfol­gt das Train­ing in zwei Stufen: Zunächst ver­ar­beit­et das Mod­ell 200 Mil­liar­den Tokens mit einem 32K-Kon­textfen­ster, anschließend fol­gen 100 Mil­liar­den Tokens mit erweit­ertem 128K-Kon­textfen­ster zur Verbesserung der Langzeit­pla­nung.

Ein zen­trales Ele­ment ist die Daten­syn­these über First-order Action Syn­the­sis (FAS) und High­er-order Action Syn­the­sis (HAS). Bei­de Meth­o­d­en erzeu­gen struk­turi­erte Dat­en und mul­ti­ple Lösungsan­sätze offline, wodurch API-Kosten ver­mieden wer­den.
Das Resul­tat ist Agent­Founder-30B, ein Mod­ell, das in Bench­marks wie BrowseC­omp und Humanity’s Last Exam neue Best­werte für Open-Source-Agen­ten set­zt und mit 75,3 % im Aca­d­e­m­ic Browse als akademis­ch­er Assis­tent überzeugt.

Für Unternehmen eröffnet Agen­tic CPT die Möglichkeit, kosten­ef­fizient domä­nen­spez­i­fis­che Agen­ten zu entwick­eln. Damit sinken Entwick­lungszeit und ‑kosten deut­lich, während zugle­ich zuver­läs­sige und kon­trol­lier­bare Lösun­gen für Anwen­dungs­felder wie Finan­z­analy­sen oder phar­mazeutis­che Forschung ver­füg­bar wer­den.

Agen­tic CPT ist damit weniger eine einzelne Inno­va­tion als vielmehr ein method­is­ch­er Schritt, der LLMs von reak­tiv­en Sys­te­men zu flex­i­blen, hand­lungs­fähi­gen Agen­ten weit­er­en­twick­elt.

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert