Das Allen Institute for AI (Ai2) hat mit der Veröffentlichung seines neuesten Open-Source-Sprachmodells Tülu 3 405B für Aufsehen in der KI-Welt gesorgt. Dieses Modell mit 405 Milliarden Parametern behauptet, die Fähigkeiten von OpenAIs GPT-4o zu erreichen und das DeepSeek V3-Modell in wichtigen Benchmarks zu übertreffen. Die Einführung markiert einen bedeutenden Fortschritt in der Entwicklung von Open-Source-KI und baut auf früheren Modellen und Post-Training-Techniken von Ai2 auf.
Neuartige Technologien
Der Erfolg von Tülu 3 405B basiert auf mehreren Schlüsselinnovationen. Das Modell nutzt eine Kombination fortschrittlicher Post-Training-Techniken, darunter überwachtes Feintuning, Präferenzlernen und einen neuartigen Ansatz des Reinforcement Learning. Besonders hervorzuheben ist das System des Reinforcement Learning from Verifiable Rewards (RLVR), das das Modell anhand überprüfbarer Ergebnisse, wie etwa der korrekten Lösung mathematischer Probleme, optimiert. Technische Optimierungen wie effiziente parallele Verarbeitung auf 256 GPUs, optimierte Gewichtssynchronisation und eine ausgewogene Rechenverteilung über 32 Knoten tragen zur Leistungsfähigkeit des Modells bei.
Leistungsvergleich und Open-Source-Ansatz
In einer Reihe von 10 KI-Benchmarks, einschließlich Sicherheitsbewertungen, erzielte das Tülu 3 405B RLVR-Modell eine durchschnittliche Punktzahl von 80,7 und übertraf damit DeepSeek V3 mit 75,9 Punkten, blieb jedoch knapp hinter GPT-4o mit 81,6 Punkten zurück. Besonders beeindruckend waren die Ergebnisse in Sicherheitsbewertungen, wo es DeepSeek V3, Llama 3.1 und Nous Hermes 3 übertraf.
Ai2 hebt sich von anderen “Open-Source”-Modellen ab, indem es nicht nur den gesamten Infrastruktur-Code, sondern auch die Trainingsdaten, Modellgewichte und Evaluierungsmethoden zur Verfügung stellt. Dieser vollständig offene Ansatz ermöglicht es Nutzern, die gesamte Pipeline von der Datenauswahl bis zur Evaluierung anzupassen.
Verfügbarkeit und Bedeutung
Interessierte können auf die gesamte Suite der Tülu 3‑Modelle, einschließlich Tülu 3–405B, über die Tülu 3‑Seite von Ai2 zugreifen und die Funktionalität von Tülu 3–405B im Playground-Demobereich von Ai2 testen. Diese Veröffentlichung stellt einen bedeutenden Schritt in der Entwicklung von Open-Source-KI dar und hat das Potenzial, die Kluft zwischen offenen und geschlossenen KI-Modellen zu verringern. Durch die Bereitstellung leistungsfähiger, frei zugänglicher Modelle und Werkzeuge ermöglicht Ai2 Entwicklern und Forschern, Leistungen zu erzielen, die mit erstklassigen geschlossenen Modellen vergleichbar sind, und treibt so die Innovation im Bereich der künstlichen Intelligenz voran.
Quellen:
Scaling the Tülu 3 post-training recipes to surpass the performance of DeepSeek V3