Das Shanghai AI Laboratory präsentiert mit Intern-S1 ein revolutionäres multimodales Foundation Model, das speziell für wissenschaftliche Anwendungen entwickelt wurde. Mit 28 Milliarden aktivierten Parametern und einer innovativen Mixture-of-Experts-Architektur schließt es die Lücke zwischen Open-Source- und proprietären Modellen. Besonders bemerkenswert: Intern-S1 übertrifft erstmals geschlossene Systeme in wissenschaftlichen Benchmarks und macht modernste KI-Technologie für die Forschungsgemeinschaft frei zugänglich.
Die Wissenschaft braucht bessere KI-Werkzeuge
Die wissenschaftliche Forschung steht vor einem Paradox: Während künstliche Intelligenz in vielen Bereichen bereits transformative Erfolge erzielt, bleiben spezialisierte wissenschaftliche Anwendungen oft unterversorgt. Open-Source-Modelle, die Herzstück demokratischer Forschung, hinken in komplexen, datenarmen wissenschaftlichen Domänen deutlich hinter kommerziellen Lösungen hinterher. Diese Diskrepanz bremst nicht nur den wissenschaftlichen Fortschritt, sondern verstärkt auch die digitale Kluft zwischen ressourcenstarken Institutionen und kleineren Forschungsgruppen.
Das Shanghai AI Laboratory hat diese Herausforderung erkannt und mit Intern-S1 eine Antwort entwickelt, die das Potenzial hat, die Landschaft wissenschaftlicher KI-Anwendungen grundlegend zu verändern. Das am 21. August 2025 vorgestellte Modell verkörpert einen ambitionierten Ansatz: Es soll nicht nur die bestehende Lücke schließen, sondern auch als Grundstein für die Entwicklung einer wissenschaftlich orientierten Artificial General Intelligence (AGI) dienen.
Architektur für die Komplexität der Wissenschaft
Intern-S1 basiert auf einer ausgeklügelten Mixture-of-Experts-Architektur, die 28 Milliarden aktivierte Parameter aus einem Pool von 241 Milliarden Gesamtparametern nutzt. Diese Struktur ermöglicht es dem Modell, je nach Aufgabenstellung die relevantesten Expertenmodule zu aktivieren – ein entscheidender Vorteil bei der Verarbeitung der heterogenen Datenlandschaft wissenschaftlicher Forschung.
Die technische Innovation liegt jedoch nicht nur in der schieren Größe, sondern in der durchdachten multimodalen Integration. Ein Vision Transformer verarbeitet komplexe wissenschaftliche Visualisierungen und Diagramme, während ein dynamischer Tokenizer speziell für wissenschaftliche Formate wie SMILES-Notation für chemische Strukturen oder FASTA-Sequenzen für biologische Daten optimiert wurde. Ein Zeitreihen-Encoder komplettiert die Architektur und ermöglicht die Analyse numerischer Datenströme aus seismischen Messungen oder astronomischen Beobacht…