Getting your Trinity Audio player ready...
|
Mit dem „Agentic Continual Pre-training“ (Agentic CPT) hat Alibaba’s Tongyi Lab ein Open-Source-Framework vorgestellt, das den Trainingsprozess großer Sprachmodelle (LLMs) erweitert und für komplexere Einsatzszenarien optimiert. Ziel ist es, LLMs nicht nur als Textgeneratoren, sondern als handlungsfähige Agenten auszubilden, die in dynamischen Umgebungen zuverlässig agieren.
Das Framework führt eine Zwischenstufe im Training ein: ein „pre-aligned“ Modell, das bereits agentische Fähigkeiten besitzt, bevor es final abgestimmt wird. Zwei Prinzipien strukturieren diesen Ansatz: erstens die Nutzung breit gefächerter Datenquellen zur Förderung vielseitiger Problemlösungsstrategien, zweitens die Integration agentischer Szenarien, um Handlungsflexibilität statt bloßer Musterwiederholung zu entwickeln1Build research agents without API costs: Alibaba’s offline data synthesis breakthrough.
Technisch erfolgt das Training in zwei Stufen: Zunächst verarbeitet das Modell 200 Milliarden Tokens mit einem 32K-Kontextfenster, anschließend folgen 100 Milliarden Tokens mit erweitertem 128K-Kontextfenster zur Verbesserung der Langzeitplanung.
Ein zentrales Element ist die Datensynthese über First-order Action Synthesis (FAS) und Higher-order Action Synthesis (HAS). Beide Methoden erzeugen strukturierte Daten und multiple Lösungsansätze offline, wodurch API-Kosten vermieden werden.
Das Resultat ist AgentFounder-30B, ein Modell, das in Benchmarks wie BrowseComp und Humanity’s Last Exam neue Bestwerte für Open-Source-Agenten setzt und mit 75,3 % im Academic Browse als akademischer Assistent überzeugt.
Für Unternehmen eröffnet Agentic CPT die Möglichkeit, kosteneffizient domänenspezifische Agenten zu entwickeln. Damit sinken Entwicklungszeit und ‑kosten deutlich, während zugleich zuverlässige und kontrollierbare Lösungen für Anwendungsfelder wie Finanzanalysen oder pharmazeutische Forschung verfügbar werden.
Agentic CPT ist damit weniger eine einzelne Innovation als vielmehr ein methodischer Schritt, der LLMs von reaktiven Systemen zu flexiblen, handlungsfähigen Agenten weiterentwickelt.