Stellen Sie sich vor, ein Arzt bekommt einen Patienten mit unklaren Symptomen. Er kann nicht einfach nachschlagen, was der Patient hat – er muss nachfragen, untersuchen, Befunde abwägen und Schritt für Schritt zur Diagnose gelangen. Manchmal führt ein Befund in die falsche Richtung. Manchmal reichen drei Fragen. Manchmal braucht es zwanzig.
Genau dieses Szenario – übertragen auf die Chemie – liegt einem neuen Benchmark zugrunde, der MolQuest heißt. Er testet, ob Sprachmodelle wie ChatGPT, Gemini oder Claude tatsächlich denken können. Oder ob sie nur sehr gut im Raten sind.
Das Problem mit den bisherigen Tests
Wenn Forscher testen wollen, wie gut eine KI Chemie beherrscht, stellen sie ihr meist Fragen nach dem Muster: „Welche funktionelle Gruppe hat diese Verbindung?” oder „Was ist das Produkt dieser Reaktion?” Das Modell antwortet einmal, richtig oder falsch, weiter geht’s.
Das klingt vernünftig – ist aber trügerisch. Denn so lernen wir nicht, ob die KI Probleme lösen kann. Wir lernen nur, ob sie Antworten kennt. Es ist der Unterschied zwischen einem Studenten, der für eine Multiple-Choice-Klausur büffelt, und einem Wissenschaftler, der im Labor ein unbekanntes Problem angeht.
Der neue Ansatz: Chemie als Detektivarbeit
MolQuest wählt einen anderen Weg. Das Sprachmodell bekommt eine unbekannte chemische Verbindung vorgelegt – aber nicht die Struktur. Es bekommt nur Zugang zu Messinstrumenten, genau wie ein Chemiker im echten Labor: Kernspinresonanz-Spektroskopie (NMR), Massenspektrometrie, Infrarotspektroskopie und andere.
Das Modell muss nun selbst entscheiden:
- Welche Messung brauche ich als nächstes?
- Was sagen mir die Ergebnisse?
- Habe ich genug Informationen, um eine Struktur vorzuschlagen – oder muss ich weitermessen?
530 solcher Fälle umfasst der Datensatz, allesamt echte Verbindungen aus aktuellen wissenschaftlichen Publikationen. Die Aufgabe ist eindeutig: Am Ende muss eine korrekte chemische Struktur herauskommen.
Was dabei gemessen wird
Die Beurteilung geht über „richtig oder falsch” hinaus. MolQuest schaut auch:
Wie nah war das Modell bei einem Fehler? Ein Modell, das eine fast korrekte Struktur vorschlägt, hat mehr verstanden als eines, das komplett daneben liegt.
Hat das Modell die chemischen Grundregeln eingehalten? Manche Modelle produzieren Strukturen, die chemisch schlicht nicht existieren können – so als würde ein Arzt eine Diagnose stellen, die medizinisch unmöglich ist.
Weiß das Modell, wann es unsicher ist? Das ist vielleicht der wichtigste Punkt. Ein M…
