Von Ralf Keuper
Der Gebrauch großer Sprachmodelle für die Erstellung von Aufsätzen ist für die Nutzerinnen und Nutzer ein zweischneidiges Schwert. Auf der einen Seite gelingt es mit überschaubarem kognitiven Aufwand, Texte zu verfassen, die Außenstehenden nicht selten den Eindruck großer Kennerschaft vermitteln. Häufig ist es jedoch so, dass die Verfasser selber auf Nachfrage den Inhalt nur unvollständig wiedergeben und den roten Faden nicht finden können. Das ist besonders für Schülerinnen und Studentinnen bedenklich, die erst am Anfang ihrer “Bildungslaufbahn” stehen und sich erst noch eigenständig eine Wissensbasis erarbeiten müssen — und das ist — und bleibt — mit Aufwand und Arbeit verbunden. Die andere Frage ist jedoch, ob und inwieweit Menschen, die bereits einen vergleichsweise hohen Wissensstand erreicht und noch dazu aus ihrem Erfahrungsschatz schöpfen können, von den negativen Effekten bei der Nutzung großer Sprachmodelle betroffen sind.
MIT-Forscher schlagen Alarm
Forscher des MIT berichten in “Your Brain on ChatGPT: Accumulation of Cognitive Debt when Using an AI Assistant for Essay Writing Task” nun von den neuronalen und verhaltensbezogenen Auswirkungen des Aufsatzschreibens mit Unterstützung großer Sprachmodelle (LLMs).
Die Studie teilte die Teilnehmer in drei Gruppen ein: eine LLM-Gruppe, eine Suchmaschinen-Gruppe und eine “Brain-only”-Gruppe (ohne Werkzeuge). Jede Gruppe absolvierte drei Sitzungen unter denselben Bedingungen. In einer vierten Sitzung wurden die LLM-Nutzer der “Brain-only”-Gruppe zugeordnet (LLM-zu-Brain), und die “Brain-only”-Nutzer wurden der LLM-Bedingung zugeordnet (Brain-zu-LLM)
Mittels Elektroenzephalographie (EEG) wurde die kognitive Belastung gemessen und die Aufsätze wurden mittels NLP analysiert sowie von menschlichen Lehrern und einem KI-Richter bewertet.
Die Ergebnisse zeigten signifikante Unterschiede in der Gehirnkonnektivität: “Brain-only”-Teilnehmer zeigten die stärksten und am weitesten verbreiteten Netzwerke, während LLM-Nutzer die schwächste Konnektivität aufwiesen. Die kognitive Aktivität nahm in Abhängigkeit von der Nutzung externer Werkzeuge ab. In der vierten Sitzung zeigten LLM-zu-Brain-Teilnehmer eine reduzierte Alpha- und Beta-Konnektivität, was auf eine geringere Beteiligung hindeutet.
Das selbstberichtete Gefühl der Urheberschaft der Aufsätze war in der LLM-Gruppe am niedrigsten und in der “Brain-only”-Gruppe am höchsten. LLM-Nutzer hatten auch Schwierigkeiten, ihre eigene Arbeit genau zu zitieren. Obwohl LLMs sofortigen Komfort bieten, deuten die Ergebnisse auf potenzielle kognitive Kosten hin. Über einen Zeitraum von vier Monaten zeigten LLM-Nutzer durchweg schlechtere Leistungen auf neuronaler, sprachlicher und verhaltensbezogener Ebene. Diese Ergebnisse werfen Bedenken hinsichtlich der langfristigen Bildungsfolgen der LLM-Abhängigkeit auf und unterstreichen die Notwendigkeit einer tiefergehenden Untersuchung der Rolle von KI beim Lernen.
Bewertung
Der Verfasser (RK) teilt die Bedenken — kommt aber zu einer etwas optimistischen Sicht.
Schreiben als Kulturtechnik
Unbestritten ist, dass das Schreiben mit der Hand eine Kulturtechnik ist, die unbedingt erhalten werden muss1Schreiben als Kulturtechnik. Verschiedene Studien weisen darauf hin, dass dass etwas, das von der Hand geschrieben wurde, besser im Gehirn verankert ist, als Texte, die über die Tastatur oder berührungssensitive Geräteoberflächen mehr oder weniger flüchtig hingeworfen werden. So gesehen wären auch die Probanden aus der Brain-only-Gruppe flüchtig unterwegs. Das Hermann von Helmholtz-Zentrum für Kulturtechnik in Berlin hat sich u.a. „der systematischen Erforschung der Wechselwirkungen zwischen wissenschaftlichen oder kulturellen Umbrüchen und technischen Neuerungen“ verschrieben.
Schon der profane Notizzettel erfüllt eine wichtige Funktion als Werkzeug des Geistes2Notizzettel. Denken und Schreiben im 21. Jahrhundert — bestes Beispiel dafür ist der legendäre Zettelkasten von Niklas Luhmann3Luhmann’s Zettelkasten — analoges Vorbild für die Funktionsweise großer Sprach- und KI-Modelle.
Für Hans-Jörg Rheinberger ist Schreiben ein Experimentalstem
Das Schreiben, so behaupte ich, ist selbst ein Experimentalsystem. Es ist eine Versuchsanordnung. Es ist nicht nur ein Aufzeichnen von Daten, Tatbeständen oder Ideen. Es ist auch nicht einfach der billige Ersatz für die lebendige Rede. Es ist nicht einfach das transparente Medium der Gedanken. Es gibt ihnen eine materielle Verfassung und zwar eine, die das Entstehen von Neuem ermöglicht. Auch die Schrift begründet Bahnen, auf denen Spuren hinterlassen werden, auf die man zurückkommen und über die man, indem man das tut, hinausgehen kann. Es vollzieht sich also durch das Niederschreiben, wie man mit Edmund Husserl sagen kann, nicht nur eine Verwandlung der Existenzweise von Sinngebilden, sondern es entstehen auch neue, die sich, wie alle neuen Erwerbe, „wieder sedimentieren und wieder zu Arbeitsmaterialien werden“. Schreiben ist mithin in einem elementaren Sinne auch die Voraussetzung für alle Wissenschaft(Über die Kunst, das Unbekannte zu erforschen, in: Say it isn’t so.)
Wobei der Verfasser hier hinzufügen möchte, dass es auch mittels generativer KI durchaus möglich ist, neue Sinngebilde zu erschaffen, wenngleich auf eine andere Art.
Mehr oder weniger Autorschaft
Anlässlich einer Veranstaltungsreihe (»Is the artist necessary for making art today«?) des KWI Essen und der Folkwang Universität der Künste hieß es4Mehr oder weniger Autorschaft:
Digitale Literatur, generative Verfahren im Design oder der Bilderstellung, die mittels sprachgesteuerter Bildgeneratoren den alten Zwist zwischen iconic und linguistic turn neu perspektivieren, sind nur einige aktuelle Möglichkeiten, die das Schreiben, Denken und Gestalten als stetigen Rückkopplungsprozess zwischen Objektwelt und Bewusstsein verstehen und – im Rückgriff etwa auf den Surrealismus und dessen Techniken des automatischen Schreibens – mehr geschehen lassen, als selbst zu produzieren. Wo Absurditäten von KI-generierten Bildern und Texten als feature eines Werkes hervortreten oder Natur als Vorlage einer Nicht-Ich Welt aufscheint, wird Kunst zur kollaborativen Aushandlung. Solche künstlerischen Experimente bauen den Autor:innengenius ab und halten nicht länger an einer Sonderstellung des Menschen fest. Aber verschwindet deswegen das künstlerische Subjekt? »Is the artist necessary for making art today«?
Wie digitale Medien unser Gehirn verändern
Nach Ansicht einiger Hirnforscher, darunter Gerald Hüther, leidet unser Stirnhirn unter der Reizüberflutung durch die digitalen Medien. Eine sprunghafte Aufmerksamkeit ist die Folge. Andererseits lassen sich in anderen Hirnregionen digitale Intelligenzsteigerungen beobachten, z.B. als Folge des Schreibens von SMS-Nachrichten. Hinzuzufügen wäre, dass der “normale” Nutzer mit den Sprachmodellen per Schrift/Tastatureingabe kommuniziert — was in bestimmten Hirnregionen zu Intelligenzsteigerungen führt.
Der sensomotorische Kortex, der zuständig für die Regulation der Daumenbewegung ist, ist bei den heute 15jährigen doppelt so groß. Obwohl die Digital Natives viel schneller optische Eindrücke aufnehmen und verarbeiten können, sind auch sie nicht multitasking-fähig. Unser Gehirn funktioniert nicht wie ein Computer. Wir können uns immer nur auf eine Aufgabe konzentrieren.
Generelle Kritik an der Nutzung bildgebender Verfahren in der Hirnforschung
Vor einigen Jahren wurde die Hirnforschung in ihren Grundfesten erschüttert, also bekannt wurde, dass ein gewöhnlicher „Bug“, ein Softwarefehler, 24 Jahre Hirnforschung zunichte machte5Die Defizite bildgebender Verfahren am Beispiel der Hirnforschung.
Wie seinerzeit Motherboard und Heise berichteten, hatten Forscher der schwedischen Universität Linköping festgestellt, dass die Analysemethoden der drei meist genutzten Software-Pakete, die bei der Funktionellen Magnetresonanz eingesetzt werden, zu Ergebnissen führen, die sog. Falsch-Positiv-Raten von bis zu 70 Prozent erzeugen. Ausgegangen waren die Forscher von 5 Prozent. Das hat dazu geführt, dass Hirnaktivitäten angezeigt wurden, obwohl keine vorlagen. Es wurden also positive Daten ausgegeben, obwohl nicht vorhanden. Damit können 40.000 fMRT-Studien seit 1992 nahezu wertlos sein. Verantwortlich für diese gravierenden Abweichungen sei ein Softwarefehler, der sich vor 15 Jahren im Quellcode der Software eingeschlichen habe, der inzwischen aber beseitigt wurde.
Gründe für die fehlerhaften Werte seien, so u.a. Motherboard, hohe Kosten für fMRT-Scans sowie die geringe Rechenkapazitäten, die großangelegte Untersuchungen mit mehreren hundert Probanden bis vor kurzem noch unmöglich machten. Dank gestiegener Rechenleistungen und des Data Sharing könnten die Untersuchungen mittlerweile schneller validiert werden.
Bereits seit Jahren gibt es Kritik am Einsatz bildgebender Verfahren in der Hirnforschung, wie von Felix Hasler. In einem Interview mit dem SPIEGEL sagte Hasler:
Einige Hirnforscher reklamieren umfassende Welterklärungsansprüche, dabei sind ihre empirischen Daten zu komplexen Bewusstseinsvorgängen kaum belastbar. Die Wiederholbarkeit vieler Studien ist gering. Gerade bei der funktionellen Magnetresonanztomografie (fMRT) liegt die Überschneidung der Bildgebungsdaten bei Messwiederholung oft unter 30 Prozent. Kaum ein anderer Wissenschaftszweig würde damit durchkommen. Aber die Öffentlichkeit lässt sich gerne vom Neuroglamour blenden.
Hans Sandkühler hält in Kritik der Repräsentation zum methodischen Vorgehen der fMRT in der Hirnforschung u.a. fest:
In neurowissenschaftlichen Experimenten werden nicht mentale repräsentationale Leistungen gemessen, deren physische Basis diese oder jenes individuelle Gehirn ist, sondern physische Prozesse/Zustände eines neurobiotischen Systems. Die Prozesse/Zustände dieses Systems werden aufgrund bestimmter theoriegeleiteter Hypothesen und Erkenntnisziele und mithilfe mathematischer/statistischer Methoden in Bilder/Zeichen transformiert. Die transformierten Daten werden als Repräsentationen interpretiert. Je nach dem gewählten epistemologischen Profil, nach der präferierten Rahmentheorie und dem der Theorie zugehörigen Begriffsschema kommt es – oder kommt es nicht – zu Aussagen über mentale Aktivitäten im Gehirn. Diese ergeben sich aber nicht direkt aus dem experimentell gewonnenen Datenmaterial, sondern sind das Ergebnis von Interpretationen. Die Interpretationen sind an Überzeugungen, Denkstile, Denkgemeinschaften und Wissenskulturen gebunden.
Selbst das Lesen hinterlässt — je nachdem, in welcher Sprache man aufwächst — unterschiedliche Spuren im Gehirn:
Könnten wir alle Möglichkeiten betrachten, die das Gehirn in den Anfängen zum Lesenlernen benutzt hat, so würden wir einige Areale finden, die sich größtenteils entsprechen, und einige Merkmale, die für einzelne Schriftsprachen charakteristisch sind. Bei einer wegweisenden Metaanalyse von 25 Untersuchungen verschiedener Sprachen mit bildgebenden Verfahren fanden Kognitionswissenschaftler der Universität Pittsburgh drei große gemeinsame Hirnregionen, die in unterschiedlichem Maße bei allen Schriftsystemen genutzt werden (Maryanne Wolf. Das lesende Gehirn. Wie der Mensch zum Lesen kam — und was es in unseren Köpfen bewirkt).
Abschließende Gedanken
Die Nutzung großer Sprachmodelle kommt mit “verdeckten kognitiven Kosten” daher — keine Frage. Das gilt jedoch für alle modernen Medien — spätestens mit dem Buchdruck, der damals von den Kirchen bekämpft wurde, da es nicht sein konnte, das Unbefugte sich anmaßten, die Heilige Schrift zu interpretieren, ohne zuvor dank jahrzentelanger, intensiver Beschäftigung in deren Geheimnisse eingedrungen zu sein. Die Schreibschulen der Klöster fühlten sich zu Recht in ihrem Status bedroht — aber auch damals waren die Mönche größtenteils damit beschäftigt, einfach nur abzuschreiben — ob sie das Geschriebene immer wirklich verstanden haben darf zumindest bezweifelt werden. Dabei ist es recht unerheblich, ob die entsprechenden Hirnregionen gut ausgebildet waren oder nicht.
Personen, die die “alten” Kulturtechniken beherrschen und sich über Jahre durch Nutzung der verschiedensten Medien und natürlich auch aufgrund eigener Erfahrungen einen Wissensstand erarbeitet haben, werden von der Nutzung großer Sprachmodelle mehr profitieren als verlieren — so jedenfalls die Ansicht des Verfassers, der selber regen Gebrauch von den verschiedenen Sprachmodellen macht. Wie es sich bei der jungen, heranwachsenden Generation verhält, muss sich m.E. erst noch zeigen. Es ist durchaus vorstellbar, dass, wie Gerald Hüther andeutet, andere für Intelligenz zuständige Hirnregionen im Menschen durch LLMs angeregt werden.
Generell gilt die Einschränkung: A fool with a tool is still a fool.