Welcome to KI-Agenten   Klicken, um den Text zu hören Welcome to KI-Agenten

Klin­is­che Stu­di­en enthal­ten große Men­gen an Dat­en und Tex­ten. Sprach­mod­elle wie Chat­G­PT helfen Medi­zin­ern und Klinikper­son­al dabei, mit­tels natür­lich­er Sprache Infor­ma­tio­nen gezielt abzu­rufen. Doch wie gut kön­nen KI-Bots logis­che Zusam­men­hänge analysieren und die richti­gen Schlussfol­gerun­gen ziehen? Hier set­zt das Forschung­spro­jekt Auto­Prompt an. Es will Fehlern und Hal­luz­i­na­tio­nen der Sys­teme beim Schlussfol­gern ent­ge­gen­wirken. Dazu entwick­eln die Forschen­den ein Sys­tem, das die Fähigkeit­en großer Sprach­mod­elle mit men­schlich­er Inter­ak­tion kom­biniert. So soll die Leis­tung von Chat­G­PT beim Ver­ste­hen natür­lich­er Sprache und der Inferenz im Kon­text des Gesund­heitswe­sens verbessert wer­den.

Im Gesund­heitswe­sen gewin­nen Sprach­mod­elle auf­grund ihrer Fähigkeit zur automa­tis­chen Ver­ar­beitung großer Men­gen unstruk­turi­ert­er oder halb­struk­turi­ert­er Dat­en zunehmend an Aufmerk­samkeit. „Mit ihrem Aufkom­men wächst unser Inter­esse am Ver­ständ­nis ihrer Fähigkeit­en für Auf­gaben wie die Inferenz bei natür­lich­er Sprache als Daten­grund­lage“, sagt die Wis­senschaft­lerin Sit­ing Liang, die das Pro­jekt Auto­Prompt im Forschungs­bere­ich Inter­ak­tives Maschinelles Ler­nen im DFKI Nieder­sach­sen vorantreibt. Bei der Nat­ur­al Lan­guage Inferenz (NLI) gehe es darum, so Liang, zu bes­tim­men, „ob eine Behaup­tung angesichts ein­er Prämisse oder ein­er Rei­he von Fak­ten eine zutr­e­f­fende Schlussfol­gerung oder aber einen Wider­spruch darstellt“. Das Pro­jekt Auto­Prompt läuft von Jan­u­ar bis Dezem­ber 2024 und wird durch einen Grant von Accen­ture, einem der weltweit führen­den Beratungs‑, Tech­nolo­gie- und Out­sourc­ing-Unternehmen, finanziert.

Sit­ing Liang erläutert ihr Vorge­hen an einem Beispiel. Aus­gangspunkt ist die Behaup­tung, dass Patien­ten mit Hämophilie (Bluterkrankheit) von ein­er Studie aus­geschlossen sind, wenn bes­timmte Prämis­sen zutr­e­f­fen wie beispiel­sweise ein erhöht­es Risiko zu ein­er Blu­tung. „Diese Auf­gabe erfordert, dass die Mod­elle den Inhalt der Behaup­tung ver­ste­hen, rel­e­vante Hin­weise aus wis­senschaftlichen Artikeln extrahieren und die Übere­in­stim­mung zwis­chen der Behaup­tung und den Hin­weisen bew­erten, um auf den Wahrheits­ge­halt der Behaup­tung zu schließen“, erläutert sie.

Prompt­ing opt­mieren
In einem ersten Schritt will die Com­put­er­lin­guistin das Prompt­ing opti­mieren, also die Anweisung an den Chat­bot, um eine bes­timmte Antwort zu erhal­ten. Dazu erforscht sie ver­schiedene Strate­gien wie beispiel­sweise Chain-of-Thoughts-Meth­o­d­en. Dabei wer­den Anweisun­gen mit Zwis­chen­schrit­ten gegeben, die bes­timmten Pfaden fol­gen und Gedanken­ket­ten aus­lösen. So soll dem Bot ein gewiss­es Maß an Argu­men­ta­tions­fähigkeit ent­lockt wer­den. „Chat­G­PT mag zwar in der Lage sein, rel­e­vante Sätze aus einem Kon­text zu erken­nen, aber genaue logis­che Schlussfol­gerun­gen zu ziehen, erfordert ein tief­eres Ver­ständ­nis von Domä­nen­wis­sen und natür­lich­er geschrieben­er Sprache“, sagt Liang.
In einem zweit­en Schritt wird sie die Leis­tung von Chat­G­PT bei NLI-Auf­gaben unter Ver­wen­dung ver­schieden­er Daten­sätze bew­erten und Verbesserun­gen vorschla­gen. „Unser Ziel ist es, den Sprach­mod­ellen mehr domä­nen­spez­i­fis­che Quellen als Kon­text zur Ver­fü­gung zu stellen“, so die Wis­senschaft­lerin. Dazu sollen die am besten geeigneten Prompt­ing-Strate­gien und ein Gener­ierungsrah­men imple­men­tiert wer­den, der einen effizien­teren Zugang zu zusät­zlichem Wis­sen ermöglicht.

Studie mit Medi­zin­studieren­den
AI Human Col­lab­o­ra­tion, also die Zusam­me­nar­beit zwis­chen Sys­tem und Men­sch, in diesem Falle Studieren­den der Medi­zin, spielt im Pro­jekt eine große Rolle. Dafür hat Sit­ing Liang eine Studie inner­halb des Pro­jek­tes angelegt, für die sie derzeit noch etwa zehn Teil­nehmende sucht. Gegeben ist die Behaup­tung, dass Patien­ten mit der Diag­nose eines bösar­ti­gen Hirn­tu­mors von ein­er Primärstudie aus­geschlossen sind, sofern Kri­te­rien wie zum Beispiel eine Chemother­a­pie zutr­e­f­fen. Die ange­hen­den Medi­ziner­in­nen und Medi­zin­er wer­den in zwei Grup­pen eingeteilt, inner­halb der­er sie zwei Stun­den lang ihr Wis­sen ein­brin­gen und Entschei­dun­gen tre­f­fen über die Beziehung zwis­chen der Behaup­tung und den Kri­te­rien. Gruppe 1 bew­ertet die vom KI-Sys­tem vorgegebe­nen Entschei­dun­gen und Gruppe 2 kor­rigiert Fehler des Sys­tems.

„Wenn wir die KI-Sys­teme verbessern wollen, benöti­gen wir das Feed­back durch den Men­schen“, sagt Sit­ing Liang, die sich schon in früheren Pro­jek­ten des Forschungs­bere­ich­es mit medi­zinis­chen Dat­en beschäftigt hat. Sys­teme kön­nten medi­zinis­che Texte und Dat­en in der Regel sehr gut analysieren, weiß Liang: „Aber eben­so ist es möglich, dass sie hal­luzinieren und uns falsche Schlussfol­gerun­gen liefern. Auto­Prompt soll helfen, eine höhere Genauigkeit der Antworten zu erzie­len.“

Wis­senschaftliche Ansprech­part­ner:
Sit­ing Liang
Siting.Liang@dfki.de
Prof. Dr. Daniel Son­ntag
Daniel.Sonntag@dfki.de

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert

Klicken, um den Text zu hören