Getting your Trinity Audio player ready...
|
Das KI-Startup Deep Cogito aus San Francisco, gegründet von ehemaligen Google-Mitarbeitern, hat vier neue Open-Source-Sprachmodelle (Cogito v2) veröffentlicht. Diese Modelle (70B bis 671B Parameter) sind darauf ausgelegt, eigenständig bessere und effizientere Schlussfolgerungen zu entwickeln. Ihre Trainingsmethodik, genannt iterierte Distillation und Amplifikation (IDA), integriert die Fähigkeit zur Reflexion direkt in das Modelltraining, wodurch die Modelle über Zeit effektiver lernen.
Modelle und Architektur:
- Dense-Modelle (70B, 405B): Aktivieren alle Parameter bei jedem Durchgang, ideal für Hardware mit begrenzten Ressourcen.
- MoE-Modelle (109B, 671B): Nutzen spezialisierte Subnetzwerke, ermöglichen größere Skalierungen bei geringeren Rechenkosten.
- 671B MoE-Modell: Flaggschiff-Modell mit kürzeren Schlussfolgerungsketten (60% effizienter) und leistungsstarkem “Machine Intuition”-Ansatz.
Vorteile:
- Effizienz: Kürzere und präzisere Schlussfolgerungspfade, geringere Infrastrukturkosten.
- Flexibilität: Modelle können lokal oder via APIs (Together AI, Hugging Face, etc.) genutzt werden.
- Anwendungsfälle: Mathematik, juristische Logik, mehrschrittige Schlussfolgerungen und ambigue Fragen.
Leistung:
- Übertrifft Benchmarks wie DeepSeek R1 und Qwen1.5–72B in Aufgaben zu Strategie, Logik und Mehrsprachigkeit.
- Nutzung effizienter Trainingsmethoden für Kosten unter $3,5 Mio.
Zukunft:
Deep Cogito setzt auf einen iterativen Entwicklungsprozess, um Modelle kontinuierlich zu verbessern. Die Modelle sind vollständig Open Source und bieten Entwicklern Anreize, neue Ansätze für KI-Intelligenz zu erforschen.
Das Unternehmen zielt darauf ab, KI-Modelle zu entwickeln, die nicht nur besser denken, sondern ihre Denkprozesse eigenständig optimieren können.