Getting your Trinity Audio player ready...
|
Das Allen Institute for AI (Ai2) hat mit MolmoAct 7B ein neues Open-Source-Modell entwickelt, das Robotern ermöglicht, in 3D-Räumen zu “denken” und physische Entscheidungen zu treffen. Im Gegensatz zu herkömmlichen Vision-Language-Action-Modellen (VLAs) kann MolmoAct räumlich begründete Wahrnehmungstoken erzeugen, die Geometrien kodieren und Distanzen zwischen Objekten berechnen1More Ai2’s MolmoAct model ‘thinks in 3D’ to challenge Nvidia and Google in robotics AI.
Eigenschaften von MolmoAct:
- 3D-Raum-Verständnis: Planen und Handeln in physischer Umgebung.
- Flexibilität: Anpassbar an verschiedene Robotertypen (z. B. mechanische Arme, humanoide Roboter) mit minimalem Feintuning.
- Erfolgsrate: 72,1 % bei Aufgabenbenchmarks, besser als Modelle von Google, Microsoft und Nvidia.
Anwendungen:
MolmoAct kann in unstrukturierten Umgebungen wie Haushalten eingesetzt werden, wo sich Bedingungen ständig ändern. Es bietet eine Grundlage für effizientere und flexiblere Robotik.
Bedeutung und Herausforderungen:
Experten wie Alan Fern von der Oregon State University sehen MolmoAct als wichtigen Fortschritt in der 3D-physikalischen Modellierung, jedoch bleibt die Komplexität realer Szenarien eine Herausforderung. Die Offenheit der Daten und der Apache 2.0‑Lizenzierung erleichtert die Weiterentwicklung durch Forscher und Entwickler.
Fazit:
Während physische KI noch in den Kinderschuhen steckt, ermöglichen LLM-basierte Ansätze eine schnellere Entwicklung intelligenter Roboter. Unternehmen wie Google, Meta und Nvidia experimentieren weiter, um die Vision einer allgemeinen physischen Intelligenz zu verwirklichen.