|
Getting your Trinity Audio player ready...
|
Die Euphorie um Large Language Models als Beschleuniger wissenschaftlicher Entdeckung trifft auf ernüchternde Empirie. Ein neues Evaluationsframework1Evaluating Large Language Models in Scientific Discovery zeigt systematische Grenzen auf – und wirft grundsätzliche Fragen nach dem Verhältnis von Wissen und Erkenntnis auf.
Die Diskussion um den Einsatz großer Sprachmodelle in der Wissenschaft oszilliert zwischen zwei Polen: Hier die Verheißung einer neuen Ära beschleunigter Forschung, dort die skeptische Mahnung vor halluzinierenden Systemen ohne echtes Verständnis. Was bislang fehlte, war eine methodisch tragfähige Grundlage für diese Debatte.
Das Problem liegt bereits in der Messung. Die gängigen Benchmarks für LLMs im wissenschaftlichen Kontext prüfen vornehmlich isoliertes Faktenwissen – die korrekte Beantwortung von Prüfungsfragen, das Reproduzieren etablierter Zusammenhänge. Wissenschaftliche Entdeckung jedoch ist ein anderer Prozess: iterativ, hypothesengeleitet, interpretierend. Die Fähigkeit, eine chemische Reaktionsgleichung korrekt zu vervollständigen, sagt wenig darüber aus, ob ein System produktive Forschungsfragen generieren kann.
Ein neuer Maßstab
Um diese Lücke zu schließen, haben Forschende ein szenariobasiertes Framework entwickelt, das sie “Scientific Discovery Evaluation” nennen. Der methodische Kern: Fachexperten aus Biologie, Chemie, Materialwissenschaften und Physik definieren reale Forschungsprojekte und zerlegen diese in modulare Szenarien. Daraus werden validierte Fragen abgeleitet, die nicht isoliertes Wissen abfragen, sondern die Einbettung in einen Forschungskontext erfordern.
Die Bewertung erfolgt zweistufig. Auf der ersten Ebene wird die Genauigkeit einzelner Antworten innerhalb der Szenarien gemessen. Die zweite Ebene ist anspruchsvoller: Hier müssen die Modelle testbare Hypothesen vorschlagen, Experimente oder Simulationen entwerfen und Ergebnisse interpretieren – also genau jene Tätigkeiten ausführen, die den Kern wissenschaftlicher Arbeit ausmachen.
Die Ernüchterung in Zahlen
Die Anwendung dieses Frameworks auf aktuelle LLMs liefert ein differenziertes, aber insgesamt ernüchterndes Bild. Im Vergleich zu allgemeinen Wissenschafts-Benchmarks zeigt sich eine deutliche Leistungslücke. Die Modelle, die bei standardisierten Tests beeindruckende Ergebnisse erzielen, versagen häufig dort, wo wissenschaftliches Denken gefragt ist.
Besonders aufschlussreich sind zwei Befunde: Erstens zeigen sich abnehmende Grenzerträge bei der Skalierung. Größere Modelle und elaboriertere Denkfähigkeiten verbessern die Leistung nicht proportional – ein Hinweis darauf, dass das Problem nicht primär eines der Rechenkapazität ist. Zweitens treten systematische Schwächen auf, die bei führenden Modellen verschiedener Anbieter gleichermaßen zu beobachten sind. Die Defizite sind offenbar struktureller Natur.
Die große Streuung der Ergebnisse über die verschiedenen Forschungsszenarien hinweg führt zu einer nüchternen Schlussfolgerung: Kein aktuelles LLM hat etwas erreicht, das man als “allgemeine wissenschaftliche Superintelligenz” bezeichnen könnte. Die Vorstellung eines universellen Forschungsassistenten, der beliebige Disziplinen souverän bearbeitet, bleibt vorerst Projektion.
Zwischen Ernüchterung und Perspektive
Das Bild ist gleichwohl nicht nur negativ. Selbst bei niedrigen Einzelergebnissen in den Szenarien zeigen LLMs vielversprechende Ansätze in einer Vielzahl wissenschaftlicher Entdeckungsprojekte. Dies unterstreicht die Bedeutung geführter Exploration: Die Modelle können offenbar produktiv sein, wenn sie in einen strukturierten Forschungskontext eingebettet werden, der ihre Schwächen kompensiert. Der Zufallsfund – die Serendipität – bleibt ein relevanter Faktor.
Das SDE-Framework selbst stellt einen methodischen Fortschritt dar. Es bietet eine reproduzierbare Grundlage für die entdeckungsrelevante Bewertung von LLMs und zeigt praktische Wege auf, deren Entwicklung voranzutreiben. Die Wissenschaft erhält damit ein Instrument, um die tatsächliche Brauchbarkeit dieser Systeme jenseits von Marketing-Narrativen zu beurteilen.
Was folgt daraus?
Die Ergebnisse mahnen zur Vorsicht gegenüber überzogenen Erwartungen. LLMs sind keine Forschungsautomaten, die man mit einer Frage füttert und deren Antworten man unkritisch übernehmen kann. Sie sind Werkzeuge mit spezifischen Stärken und systematischen Schwächen. Ihre produktive Nutzung erfordert wissenschaftliche Urteilskraft auf Seiten der Anwender – also genau jene Fähigkeit, die zu automatisieren man sich erhoffte.
Zugleich wäre es verfehlt, die Technologie pauschal zu verwerfen. Die Befunde deuten darauf hin, dass der Nutzen von LLMs in der Wissenschaft weniger in autonomer Entdeckung liegt als in der Erweiterung menschlicher Explorationsfähigkeit. Die Modelle können Denkräume eröffnen, Assoziationen anregen, erste Entwürfe liefern – wenn man weiß, wie man sie führt und wo man ihnen nicht vertrauen darf.
Die eigentliche Erkenntnis ist vielleicht eine wissenschaftstheoretische: Wissen und Erkenntnis sind nicht dasselbe. Ein System kann über enorme Wissensbestände verfügen und dennoch am Kern wissenschaftlicher Tätigkeit scheitern – der produktiven Auseinandersetzung mit dem, was man noch nicht weiß.
