Mamba-Architektur: Schnellere Inferenzzeiten und längerer Kontext

Veröffentlicht am 14. Oktober 2024 um 11:09

Der CEO von AI21, Ari Goshen, ist der Ansicht, dass Architekturen wie Mamba agentenbasierte Strukturen effizienter und vor allem kostengünstiger machen können. Mamba-basierte Modelle hätten eine bessere Speicherleistung, wodurch Agenten, insbesondere Agenten, die sich mit anderen Modellen verbinden, besser funktionieren würden.

Bislang werden bei der Entwicklung von KI-Systemen überwiegend Transformer-Modelle verwendet, die einen Aufmerksamkeitsmechanismus verwenden. Da Transformer viele Token erzeugen, kann dieser Ansatz sehr teuer werden.

Laut Goshen sei der Hauptgrund dafür, dass Agenten noch nicht im großen Stil in Produktion sind, die mangelnde Zuverlässigkeit. Transformermodelle seien sehr stochastisch ist, so dass sich jeder Fehler fortsetzen würde.  

Demgegenüber könne Mamba verschiedene Daten priorisieren und den Eingaben Gewichtungen zuweisen, die Speichernutzung optimieren und die Rechenleistung eines Grafikprozessors nutzen.

Quelle: AI21 CEO says transformers not right for AI agents due to error perpetuation

Mamba-Architektur

Mamba ist eine neue LLM-Architektur, die das Modell der strukturierten Zustandsraumsequenz (S4) zur Verwaltung langer Datensequenzen integriert. Durch die Kombination der besten Eigenschaften von rekurrenten, Faltungsmodellen und zeitkontinuierlichen Modellen kann S4 effektiv und effizient langfristige Abhängigkeiten simulieren. Dadurch kann es mit unregelmäßig abgetasteten Daten umgehen, hat einen unbegrenzten Kontext und bleibt während des gesamten Trainings und der Tests recheneffizient (in: An Introduction to the Mamba LLM Architecture: A New Paradigm in Machine Learning)

Transformer 

Ein Transformer ist eine von Google entwickelte Deep-Learning-Architektur, die einen sog. Aufmerksamkeitsmechanismus integriert, der erstmals in einem Artikel aus dem Jahr 2017 „Attention Is All You Need“ vorgestellt wurde. Dabei wird Text in numerische Darstellungen, die als Token bezeichnet werden, und anschließend durch Worteinbettung in Vektoren umgewandelt. Dies kann z. B. dazu benutzt werden, Text von einer Sprache in eine andere zu übersetzen. Dazu wird ein Transformer mittels maschinellem Lernen anhand einer (großen) Menge von Beispielstexten trainiert, bevor das trainierte Modell dann zur Übersetzung verwendet werden kann. Weitere Beispielanwendungen von Transformern sind die Textgenerierung oder die Zusammenfassung längerer Texte. Transformer weisen hierbei eine bessere Effizienz gegenüber Long-short-term-memory-Architekturen (LSTM) auf und bilden die Grundarchitektur des generativen vortrainierten Transformers (GPT) und anderer vortrainierter Machine-Learning-Modelle. Lineare Transformer sind eine Form von "fast weight programmers", welche 1991 vorgeschlagen wurden.(in: Wikipedia)

 

 

Kommentar hinzufügen

Kommentare

Es gibt noch keine Kommentare.