Getting your Trinity Audio player ready...

Forsch­er aus Chi­na und dem KI-Unternehmen Miro­Mind leg­en ein Open-Source-Frame­work vor, das kleineren Mod­ellen über­legene Rea­son­ing-Fähigkeit­en ver­lei­ht – und dabei auf Repro­duzier­barkeit set­zt.


Die Entwick­lung mul­ti­modaler Sprach­mod­elle, die Text und visuelle Infor­ma­tio­nen gle­icher­maßen ver­ar­beit­en kön­nen, gilt als eines der zen­tralen Forschungs­felder der gegen­wär­ti­gen KI-Entwick­lung. Ein Team von Wis­senschaftlern des Unternehmens Miro­Mind AI und mehrerer chi­ne­sis­ch­er Uni­ver­sitäten hat nun mit Open­MM­Rea­son­er ein Train­ings­frame­work vorgestellt, das einen method­isch nachvol­lziehbaren Ansatz für dieses Prob­lem bietet.

Das Frame­work fol­gt ein­er zweistu­fi­gen Architek­tur. In der ersten Phase wird ein Basis­mod­ell mit­tels Super­vised Fine-Tun­ing auf einem kuratierten Daten­satz ver­fein­ert. Dieser Daten­satz umfasst rund 103.000 Frage-Antwort-Paare aus öffentlichen Quellen, die durch ein leis­tungs­fähiges Ref­erenz­mod­ell mit hochw­er­ti­gen Schlussfol­gerungs­ket­ten angere­ichert wur­den. Ein wesentlich­es Merk­mal dieses Prozess­es ist die Diver­si­fizierung: Für jede Frage wer­den mehrere ver­i­fizierte Lösungswege gener­iert, was die Robus­theit des trainierten Mod­ells erhöhen soll.

Die zweite Phase set­zt auf Rein­force­ment Learn­ing mit einem kom­binierten Beloh­nungssys­tem, das sowohl die Kor­rek­theit der Antworten als auch die Kon­sis­tenz der Argu­men­ta­tions­ket­ten bew­ertet. Bemerkenswert ist, dass diese Phase mit einem deut­lich kleineren Daten­satz arbeit­et – ein Hin­weis darauf, dass Qual­ität der Train­ings­dat­en gegenüber Quan­tität an Bedeu­tung gewin­nt.

Die exper­i­mentellen Ergeb­nisse zeigen, dass mit Open­MM­Rea­son­er trainierte Mod­elle etablierte visuelle Rea­son­ing-Mod­elle übertr­e­f­fen, obwohl sie auf einem ver­gle­ich­sweise kom­pak­ten Daten­satz basieren. Die Forsch­er stellen ein bere­its trainiertes 7B-Para­me­ter­mod­ell als Open Source zur Ver­fü­gung.

Kaichen Zhang, Mitau­tor der Studie, betont die prak­tis­chen Imp­lika­tio­nen für Unternehmen: Kleinere, offene Mod­elle ermöglichen eine lokale Bere­it­stel­lung, reduzieren Latenz und Betrieb­skosten und gewährleis­ten voll­ständi­ge Kon­trolle über sen­si­ble Dat­en. Diese Argu­mente gewin­nen an Gewicht, da pro­pri­etäre Cloud-Lösun­gen zunehmend kri­tisch hin­sichtlich Daten­schutz und Abhängigkeit betra­chtet wer­den.

Ein zen­trales Anliegen der Forsch­er ist die Trans­parenz der Train­ingspipeline. Viele aktuelle Stu­di­en im Bere­ich mul­ti­modaler KI liefern nur unzure­ichende Infor­ma­tio­nen über Datenku­ratierung und Train­ing­sprozesse, was die Repro­duzier­barkeit erhe­blich ein­schränkt. Open­MM­Rea­son­er set­zt hier bewusst einen Kon­tra­punkt, indem sämtliche Work­flow-Kom­po­nen­ten offen­gelegt wer­den.

Ein inter­es­san­ter Neben­ef­fekt der Forschung bet­rifft den Trans­fer von Fähigkeit­en zwis­chen Modal­itäten: Die Stärkung mul­ti­modalen Denkens verbessert offen­bar auch die rein textuellen Rea­son­ing-Fähigkeit­en der Mod­elle. Dies deutet auf eine modal­ität­süber­greifende Gen­er­al­isierung logis­ch­er Kom­pe­ten­zen hin, deren Mech­a­nis­men weit­er­er Unter­suchung bedür­fen.

Für die Zukun­ft kündi­gen die Forsch­er eine Erweiterung ihrer Meth­o­d­en auf Video- und Audioan­wen­dun­gen an. Ob sich der Ansatz auch in diesen kom­plex­eren Domä­nen bewährt, bleibt abzuwarten. Gle­ich­wohl bietet Open­MM­Rea­son­er eine method­isch fundierte Grund­lage für Unternehmen und Forschung­sein­rich­tun­gen, die mul­ti­modale Mod­elle unab­hängig von pro­pri­etären Anbi­etern entwick­eln wollen.


Quelle:

New train­ing method boosts AI mul­ti­modal rea­son­ing with small­er, smarter datasets

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert