Zum Inhalt springen

Passauer Studie zeigt: ChatGPT schreibt die besseren Schulaufsätze

In einer Studie, die im Nature-Journal „Scientific Reports“ erschienen ist, hat ein Forschungsteam der Universität Passau die Qualität von maschinell generierten Inhalten mit Aufsätzen von Schülerinnen und Schülern verglichen. Das Ergebnis: Der KI-gestützte Chatbot schneidet bei allen Kriterien besser ab, insbesondere bei der Sprachbeherrschung.

Symbolbild: Colourbox

Das Sprachmodell ChatGPT macht enorme Fortschritte. Nachdem die Version 3.5 Anfang des Jahres noch am bayerischen Abitur gescheitert war, erreichte der Nachfolger 4 kaum ein halbes Jahr später eine glatte Zwei.

Wie sehr die KI-generierten Inhalte das Schulsystem umwälzen könnten, verdeutlicht nun auch eine Studie der Universität Passau. Die Forschenden haben ebenfalls mit den beiden Versionen des Sprachmodells experimentiert. In der Studie, die im Oktober unter dem Titel „A large-scale comparison of human-written versus ChatGPT-generated essays“ im renommierten Nature-Journal „Scientific Reports“ erschienen ist, kommen sie zu dem Ergebnis, dass die Maschine die besseren englischsprachigen Aufsätze verfasst. Dazu haben sie Lehrkräfte maschinengenerierte Texte und Aufsätze von Schülerinnen und Schülern in der Oberstufe nach Richtlinien des niedersächsischen Kultusministeriums bewerten lassen.

Mich hat überrascht, wie klar das Ergebnis ausgefallen ist. Das zeigt, dass Schulen diese neuen Werkzeuge nicht ignorieren sollten.

Prof. Dr. Steffen Herbold, Universität Passau

„Mich hat überrascht, wie klar das Ergebnis ausgefallen ist“, sagt Prof. Dr. Steffen Herbold, Inhaber des Lehrstuhls für AI Engineering an der Universität Passau, der die Studie initiiert hat. Denn beide Versionen des Chatbots des Unternehmens OpenAI schnitten in allen Bereichen besser ab als die Schülerinnen und Schüler, wobei GPT-3 im Mittelfeld lag und GPT-4 die beste Leistung aufwies. „Das zeigt, dass Schulen diese neuen Werkzeuge nicht ignorieren sollten.“

KI-Modelle reflektieren

Der Informatiker führte die interdisziplinäre Studie gemeinsam mit der Computerlinguistin Prof. Dr. Annette Hautli-Janisz und der Informatik-Didaktikerin Ute Heuer durch. „Es ist mir ein Anliegen, Lehrerinnen und Lehrer auf die Herausforderungen und Chancen durch die zunehmende Verfügbarkeit künstlicher Intelligenzen vorzubereiten“,  sagt die Informatik-Didaktikerin Heuer.

Sie hatte eine Fortbildung zum Thema „ChatGPT - Chancen und Herausforderung“ initiiert und gemeinsam mit dem Team durchgeführt. An dieser Veranstaltung, welche im März 2023 stattfand, beteiligten sich 139 Lehrkräfte, die mehrheitlich an Gymnasien unterrichteten. Die Lehrerinnen und Lehrer erhielten zunächst einen Einblick in ausgewählte technologische Ideen von Textgeneratoren im Allgemeinen und ChatGPT im Besonderen. In einer Praxisphase ging es sodann konkret um englischsprachige Texte, deren Ursprung die Fortbildungsteilnehmer nicht kannten.

Im Fragebogen bewerteten die Lehrkräfte die vorgelegten Aufsätze unter Verwendung von Skalen, die das Kultusministerium in Niedersachsen festgelegt hat. Dazu zählten inhaltliche Kriterien wie Thema, Vollständigkeit und Logik des Aufbaus sowie sprachliche Aspekte wie Wortschatz, Komplexität und Sprachbeherrschung. Für jedes Kriterium definierte das Passauer Forschungsteam eine Skala von 0 bis 6, wobei 0 für das schlechteste Ergebnis und 6 für das beste stand.

Maschine überdurchschnittlich bei Sprachbeherrschung

111 Lehrkräfte füllten den Bogen vollständig aus und bewerteten insgesamt 270 englischsprachige Aufsätze. Die größte Abweichung stellte das Forschungsteam bei der Sprachbeherrschung fest. Hier erreichte die Maschine 5,25 (GPT-4) und 5,03 Punkte (GPT-3). Die Schülerinnen und Schüler kamen durchschnittlich auf 3,9 Punkte. „Das bedeutet nicht, dass Schülerinnen und Schüler schlecht in der englischen Sprache sind. Vielmehr sind die Werte der Maschine überdurchschnittlich hoch“, betont Annette Hautli-Janisz, Juniorprofessorin für Computational Rhetoric und Natural Language Processing an der Universität Passau.

Wenn wir in Zukunft mehr KI-generierte Texte lesen, dann stellt sich die Frage, ob und wie sich dies auf unsere menschliche Sprache auswirken wird.

Prof. Dr. Annette Hautli-Janisz

Für Hautli-Janisz, die gemeinsam mit ihrer Doktorandin Zlata Kikteva die Texte aus linguistischer Sicht analysierte, liefert die Studie noch weitere spannende Einblicke – und zwar in die Sprachentwicklung der Maschine. „Wir sehen, dass sich die Modelle über die Zeit verändern und können mit unserer Studie belegen, dass sie bei unserem Task besser geworden sind.“ Darüber hinaus stellten die Forscherinnen Unterschiede zwischen der menschlichen und der maschinengenerierten Sprache fest: „Wenn wir in Zukunft mehr KI-generierte Texte lesen, dann stellt sich die Frage, ob und wie sich dies auf unsere menschliche Sprache auswirken wird“, sagt Hautli-Janisz.

Über das Forschungsteam

Prof. Dr. Steffen Herbold ist Inhaber des Lehrstuhls für AI Engineering an der Universität Passau. In seiner Forschung untersucht er schwerpunktmäßig die Qualität von KI-Modellen. Für die Studie setzte er gemeinsam mit Dr. Alexander Trautsch die statistische Auswertung und eine Plattform für die Datenerhebung auf. Zusammen mit Prof. Dr. Hautli-Janisz modellierte er das Studiendesign.

Annette Hautli-Janisz ist Juniorprofessorin für Computational Rhetoric und Natural Language Processing. Sie interessiert sich in ihrer Forschung dafür, wie sich die Argumentation der KI-gestützten Sprachmodelle entwickelt. In die Studie brachte sie neben der computerlinguistischen Analyse die Idee ein, einen bereits vorhandenen Datensatz der TU Darmstadt mit englischsprachigen Aufsätzen von Schülerinnen und Schülern zu nutzen. Die Aufsätze stammen aus einem Online-Forum für Hausaufgaben, in denen Schülerinnen und Schüler Feedback von Native Speakern einholten, um ihre Texte zu verbessern. Der Datensatz kommt in der Forschung immer wieder zum Einsatz.

Ute Heuer ist Informatikdidaktikerin an der Universität Passau. Als Teil ihrer Tätigkeit initiiert sie Fortbildungsmaßnahmen für Lehrkräfte, um diese für die durch die Verfügbarkeit künstlicher Intelligenz entstehenden Möglichkeiten und Herausforderungen zu sensibilisieren.

Prof. Dr. Annette Hautli-Janisz, die seit 2022 die Juniorprofessur Computational Rhetoric and Natural Language Processing an der Universität Passau innehat, in ihrem Büro.

Prof. Dr. Annette Hautli-Janisz

forscht zu Computerlinguistik

Wie kann natürliche Sprache mit automatischen Methoden verarbeitet und interpretiert werden?

Wie kann natürliche Sprache mit automatischen Methoden verarbeitet und interpretiert werden?

Prof. Dr. Annette Hautli-Janisz hat seit 2022 die Juniorprofessur Computational Rhetoric and Natural Language Processing an der Universität Passau inne. Sie ist zudem Associate Member des Centre for Argument Technology an der University of Dundee und leitet das Steinbeis Transferzentrum "Linguistic Data Analysis". Zuvor war sie Nachwuchsgruppenleiterin an der Universität Konstanz. Ihre Forschung wird gefördert von der Deutschen Forschungsgemeinschaft (Exzellenzcluster "Politics of Inequality" an der Uni Konstanz) und der VolkswagenStiftung (Förderlinie "AI and the Future of Society").

Prof. Dr. Steffen Herbold, Lehrstuhl für AI Engineering

Prof. Dr. Steffen Herbold

forscht zu AI Engineering

Wie lässt sich Künstliche Intelligenz für die Software-Entwicklung einsetzen?

Wie lässt sich Künstliche Intelligenz für die Software-Entwicklung einsetzen?

Prof. Dr. Steffen Herbold ist seit 2022 Inhaber des Lehrstuhls für AI Engineering an der Universität Passau. Davor vertrat er verschiedene Professuren im Bereich Datenanalyse, darunter am Karlsruher Institut für Technologie, bevor er im Jahr 2021 zum Professor für "Methoden und Anwendungen des Maschinellen Lernens" an der TU Clausthal ernannt wurde. Er studierte, promovierte und habilitierte im Bereich Informatik an der Universität Göttingen.

In den Medien

Beim Anzeigen des Videos wird Ihre IP-Adresse an einen externen Server (Vimeo.com) gesendet.

Video anzeigen