Stellen Sie sich vor, ein Arzt bekommt einen Patien­ten mit unklaren Symp­tomen. Er kann nicht ein­fach nach­schla­gen, was der Patient hat – er muss nach­fra­gen, unter­suchen, Befunde abwä­gen und Schritt für Schritt zur Diag­nose gelan­gen. Manch­mal führt ein Befund in die falsche Rich­tung. Manch­mal reichen drei Fra­gen. Manch­mal braucht es zwanzig.

Genau dieses Szenario – über­tra­gen auf die Chemie – liegt einem neuen Bench­mark zugrunde, der MolQuest heißt. Er testet, ob Sprach­mod­elle wie Chat­G­PT, Gem­i­ni oder Claude tat­säch­lich denken kön­nen. Oder ob sie nur sehr gut im Rat­en sind.


Das Problem mit den bisherigen Tests

Wenn Forsch­er testen wollen, wie gut eine KI Chemie beherrscht, stellen sie ihr meist Fra­gen nach dem Muster: „Welche funk­tionelle Gruppe hat diese Verbindung?” oder „Was ist das Pro­dukt dieser Reak­tion?” Das Mod­ell antwortet ein­mal, richtig oder falsch, weit­er geht’s.

Das klingt vernün­ftig – ist aber trügerisch. Denn so ler­nen wir nicht, ob die KI Prob­leme lösen kann. Wir ler­nen nur, ob sie Antworten ken­nt. Es ist der Unter­schied zwis­chen einem Stu­den­ten, der für eine Mul­ti­ple-Choice-Klausur büf­felt, und einem Wis­senschaftler, der im Labor ein unbekan­ntes Prob­lem ange­ht.


Der neue Ansatz: Chemie als Detektivarbeit

MolQuest wählt einen anderen Weg. Das Sprach­mod­ell bekommt eine unbekan­nte chemis­che Verbindung vorgelegt – aber nicht die Struk­tur. Es bekommt nur Zugang zu Messin­stru­menten, genau wie ein Chemik­er im echt­en Labor: Kern­spin­res­o­nanz-Spek­troskopie (NMR), Massen­spek­trome­trie, Infrarot­spek­troskopie und andere.

Das Mod­ell muss nun selb­st entschei­den:

  • Welche Mes­sung brauche ich als näch­stes?
  • Was sagen mir die Ergeb­nisse?
  • Habe ich genug Infor­ma­tio­nen, um eine Struk­tur vorzuschla­gen – oder muss ich weit­er­messen?

530 solch­er Fälle umfasst der Daten­satz, alle­samt echte Verbindun­gen aus aktuellen wis­senschaftlichen Pub­lika­tio­nen. Die Auf­gabe ist ein­deutig: Am Ende muss eine kor­rek­te chemis­che Struk­tur her­auskom­men.


Was dabei gemessen wird

Die Beurteilung geht über „richtig oder falsch” hin­aus. MolQuest schaut auch:

Wie nah war das Mod­ell bei einem Fehler? Ein Mod­ell, das eine fast kor­rek­te Struk­tur vorschlägt, hat mehr ver­standen als eines, das kom­plett daneben liegt.

Hat das Mod­ell die chemis­chen Grun­dregeln einge­hal­ten? Manche Mod­elle pro­duzieren Struk­turen, die chemisch schlicht nicht existieren kön­nen – so als würde ein Arzt eine Diag­nose stellen, die medi­zinisch unmöglich ist.

Weiß das Mod­ell, wann es unsich­er ist? Das ist vielle­icht der wichtig­ste Punkt. Ein M…

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert