Getting your Trinity Audio player ready...

Das Allen Insti­tute for AI (Ai2) hat mit Mol­moAct 7B ein neues Open-Source-Mod­ell entwick­elt, das Robot­ern ermöglicht, in 3D-Räu­men zu “denken” und physis­che Entschei­dun­gen zu tre­f­fen. Im Gegen­satz zu herkömm­lichen Vision-Lan­guage-Action-Mod­ellen (VLAs) kann Mol­moAct räum­lich begrün­dete Wahrnehmungsto­ken erzeu­gen, die Geome­trien kodieren und Dis­tanzen zwis­chen Objek­ten berech­nen1More Ai2’s Mol­moAct mod­el ‘thinks in 3D’ to chal­lenge Nvidia and Google in robot­ics AI.

Eigen­schaften von Mol­moAct:

  • 3D-Raum-Ver­ständ­nis: Pla­nen und Han­deln in physis­ch­er Umge­bung.
  • Flex­i­bil­ität: Anpass­bar an ver­schiedene Robot­er­typen (z. B. mech­a­nis­che Arme, humanoide Robot­er) mit min­i­malem Fein­tun­ing.
  • Erfol­gsrate: 72,1 % bei Auf­gaben­bench­marks, bess­er als Mod­elle von Google, Microsoft und Nvidia.

Anwen­dun­gen:

Mol­moAct kann in unstruk­turi­erten Umge­bun­gen wie Haushal­ten einge­set­zt wer­den, wo sich Bedin­gun­gen ständig ändern. Es bietet eine Grund­lage für effizien­tere und flex­i­blere Robotik.

Bedeu­tung und Her­aus­forderun­gen:

Experten wie Alan Fern von der Ore­gon State Uni­ver­si­ty sehen Mol­moAct als wichti­gen Fortschritt in der 3D-physikalis­chen Mod­el­lierung, jedoch bleibt die Kom­plex­ität real­er Szenar­ien eine Her­aus­forderung. Die Offen­heit der Dat­en und der Apache 2.0‑Lizenzierung erle­ichtert die Weit­er­en­twick­lung durch Forsch­er und Entwick­ler.

Faz­it:

Während physis­che KI noch in den Kinder­schuhen steckt, ermöglichen LLM-basierte Ansätze eine schnellere Entwick­lung intel­li­gen­ter Robot­er. Unternehmen wie Google, Meta und Nvidia exper­i­men­tieren weit­er, um die Vision ein­er all­ge­meinen physis­chen Intel­li­genz zu ver­wirk­lichen.

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert