Ein europäisches Konsortium hat das Projekt OpenEuroLLM ins Leben gerufen, um eine Open-Source-Familie leistungsfähiger, mehrsprachiger großer Sprachmodelle (LLMs) für private und öffentliche Dienste zu entwickeln. Dieses Vorhaben erfolgt im Kontext des globalen Wettbewerbs um KI-Technologien und wird von 20 europäischen Forschungseinrichtungen, Unternehmen und Hochleistungsrechenzentren (EuroHPC) getragen. Das Hauptziel ist es, den Zugang zu hochwertigen KI-Technologien zu demokratisieren und die Wettbewerbsfähigkeit europäischer Unternehmen auf dem internationalen Markt zu stärken1Sprachmodell: OpenEuroLLM soll KI in der EU unabhängiger und vielfältiger machen.
Die Mitglieder des Konsortiums sind zuversichtlich, dass ihre transparenten und EU-rechtskonformen Open-Source-Modelle dazu beitragen werden, die digitale Souveränität Europas zu verbessern. OpenEuroLLM wird als Beispiel für eine notwendige Technologieinfrastruktur angesehen, die Hürden bei der Entwicklung europäischer KI-Produkte abbaut.
Im Wettbewerb mit großen Akteuren wie Metas Llama, Google Gemma und dem chinesischen DeepSeek will OpenEuroLLM vor allem durch die vollständige Offenheit der Modelle punkten. Neben dem Quellcode sind auch die zugehörige Software und Evaluierungsdaten sowie die Trainingsdaten für alle zugänglich. Dies ermöglicht eine bessere Nachvollziehbarkeit der Ergebnisse und eine Anpassung der Modelle an spezifische Bedürfnisse in Industrie und öffentlichem Sektor.
Die neuen LLMs sollen direkt in 35 Sprachen trainiert werden, was nicht nur die Sprachen aller EU-Mitgliedsstaaten und Beitrittskandidaten umfasst, sondern auch wichtige Sprachen von Drittstaaten wie Arabisch, Chinesisch und Hindi. Dadurch wird die sprachliche und kulturelle Vielfalt in die KI-Basistechnik integriert, was die Anwendbarkeit in verschiedenen Kontexten verbessert.
Zu den deutschen Partnern gehören das Ellis-Institut, das AI Center aus Tübingen, das Forschungszentrum Jülich, das Fraunhofer-Institut für IAIS, Aleph Alpha und das Bremer Start-up Ellamind. Die Projektkoordination liegt bei Jan Hajič und Peter Sarlin, die beide über umfangreiche Erfahrung im KI-Bereich verfügen.
Das Gesamtbudget für OpenEuroLLM beträgt 37,4 Millionen Euro, von denen 20,6 Millionen aus dem Förderprogramm Digitales Europa stammen. Im Vergleich zu den 500 Milliarden US-Dollar, die für KI-Rechenzentren im US-Projekt Stargate eingeplant sind, wird das Budget als relativ gering betrachtet. Demgegenüber bricht sich seit der Veröffentlichung von DeepSeek V3 die Erkenntnis Bahn, dass für das Entwickeln leistungsfähiger LLMs womöglich keine Milliardensummen mehr nötig sind.
Das Projekt hat die Auszeichnung der EU-Kommission erhalten und ist Teil der Initiative “Strategische Technologien für Europa” (Step), die darauf abzielt, die Wettbewerbsfähigkeit der europäischen Industrie durch den Einsatz kritischer Technologien wie KI zu erhöhen. Die Teilnehmer, die europäische Werte wie Transparenz und Offenheit berücksichtigen, erhalten privilegierten Zugang zu Supercomputing-Zentren.
OpenEuroLLM plant außerdem eine enge Zusammenarbeit mit Open-Source- und Open-Science-Communitys wie LAION, Open-Sci und OpenML. Obwohl das europäische Forschungsprojekt OpenGPT‑X, welches das LLM Teuken-7B veröffentlicht hat, nicht direkt mit OpenEuroLLM verbunden ist, gibt es signifikante Überschneidungen in den Teilnehmerstrukturen, was eine enge Kooperation wahrscheinlich macht.