Quizshow „5 gegen KI“ stößt auf große Youtube-Resonanz
Hunderttausend Aufrufe, Tausende Likes und Hunderte Kommentare: Die Quizshow, in der ein Professorenteam gegen KI antritt, sorgt auf Youtube für rege Diskussion. Antworten auf einige Fragen.
Beim Anzeigen des Videos wird Ihre IP-Adresse an einen externen Server (YouTube) gesendet.
Steffen Herbold, Professor für AI Engineering, hat bei uns im TV-Studio ein Professoren-Team gegen KI antreten lassen. Er wollte herausfinden, wie sich ChatGPT gegen menschliche Expertise schlägt und damit gleichzeitig spielerisch Wissen über die KI an ein fachfremdes Publikum vermitteln. Das ist ihm und seinem Team gelungen: Auf der Plattform Youtube hat das Video nach einer Woche hunderttausend Aufrufe und mehr als 500 Kommentare, die zeigen, dass sich die Zuschauenden intensiv mit den Inhalten der Quizshow befassen.
Der Professor hat das Format zusammen mit seinem Lehrstuhl-Team entwickelt und sich Fragen aus drei Kategorien überlegt: Allgemeinwissen, Rätsel, Fachwissen. Die Fragen haben die Forschenden so gewählt, dass manche davon für die Menschen einfach zu beantworten waren, andere für die KI. Die Show hat keinen wissenschaftlichen Anspruch, sondern ist als Format im Bereich Wissenschaftskommunikation zu werten. Das heißt, sie sollte spielerisch aufzeigen, wie die Technologie arbeitet und wo ihre Stärken und Schwächen liegen. In der Show erklärt Prof. Dr. Herbold bei der Auflösung der Fragen stets auch, wie die KI zu ihrer Antwort gelangt.
Eine Erkenntnis: Der Professor für AI Engineering hat sein Debut als Talkshow-Host erfolgreich absolviert. Der Top-Kommentar auf Youtube mit mehreren hundert Likes bezieht sich auf seine launige Art der Moderation. Bei der Frage: „Wenn man 8 und 8 zusammenzählt, erhält man eine vier. Wie geht das?“ bat er die vor sich hinrätselnden Teilnehmenden, doch „mit Blick auf die Uhr“ zu einer Lösung zu kommen – eine gekonnte Anspielung auf die richtige Antwort. „Well played“, lautet das Nutzer-Urteil.
Wie wurde die Auswahl der KI-Modelle getroffen?
In der Show treten die Professoren und die Professorin gegen das Modell ChatGPT 4.1 und o1-pro an. Viele Kommentare bemängeln, dass diese KI-Modelle veraltet seien. Das GPT 4.1-Modell wurde im April 2025 veröffentlich. Unsere Quizshow haben wir am 17. Juli aufgezeichnet. Zur Wahl der KI-Modelle erklärt Prof. Dr. Herbold: „GPT-4.1 ist auch heute noch der am häufigsten genutzte ChatBot, zumindest bei nicht-zahlenden Nutzenden. Denn es handelt sich hierbei um die Standardauswahl im populären ChatGPT. Zudem schneidet es auch aktuell in Benchmarks noch als sehr gutes Modell ab. Da uns jedoch bewusst war, dass es gerade bei den Rätselfragen bessere Modelle gibt, haben wir noch Verstärkung zugelassen in Form von o1-pro.“
Hätten andere Modelle besser abgeschnitten?
Dazu erklärt der Experte: „Natürlich hätten wir genausogut Modelle von Google, Anthropic, oder Mistral nehmen können – der Unterschied wäre aber gering gewesen. Das haben wir mittlerweile auch nochmal getestet: Manche Antworten, zum Beispiel, ob die Mongolei oder der Iran größer ist, wären dann vielleicht anders entschieden worden.“ Weiter betont der Professor: „Es war nicht unser Anspruch, hier einen wissenschaftlich korrekten Vergleich von KI-Modellen durchzuführen – dafür wäre die Fallstudie ohnehin zu klein gewesen. Stattdessen wollten wir für ein Laienpublikum anschaulich darzustellen, was die Modelle können und wie sie funktionieren.“
Warum nicht Grok 4?
Grok 4 ist das KI-Modell von Elon Musk, dem Eigentümer der Plattform X. Die Universität Passau hat sich gemeinsam mit anderen Universitäten aus X verabschiedet, die Gründe dafür sind hier nachzulesen. Das gilt auch für Grok 4. Wir wollen keinem KI-Modell die Bühne bieten, das Hass und Hetze verbreitet.
Was ist ein Reasoning-Modell und warum wurde dieses nicht verwendet?
Einige Nutzende merken an, dass ein Reasoning-Modell besser abgeschnitten hätte. Im Gegensatz zu Sprachmodellen, die hauptsächlich Muster in Daten erkennen und Texte generieren, können Reasoning-Modelle Probleme in einzelne Schritte zerlegen, eine Art Gedankengang nachbilden und so zu einer Lösung kommen. Nach Ansicht der Youtube-Kommentatoren seien diese Modelle besser geeignet, um die Rätsel- und Logikaufgaben zu beantworten, Ursache-Wirkungs-Beziehungen verstehen und eigenständig zu Lösungen gelangen. Tatsächlich kam ein solches Reasoning-Modell zum Einsatz, und zwar, wie es Prof. Dr. Herbold in der Show ausdrückt, mit der „besseren Hälfte“ von GPT-4.1, dem kostenpflichtigen Modell o1-pro. „Uns war bewusst, dass es gerade bei den Rätselfragen bessere Modelle gibt, weshalb wir auf Seiten der KI diese Form der Verstärkung zugelassen haben“, erklärt Prof. Dr. Herbold. Das zeigte sich auch in der Show: o1-pro konnte das Rätsel um die Uhrzeit und der Anzahl der Lügner auf einer Insel auch korrekt beantworten, im Gegensatz zu GPT-4.1.
Sicher, dass ChatGPT die Großbritannien-Frage nicht wissen konnte?
Eine Frage in der Quizshow lautet: Bei Reisen wohin benötigen Urlauber seit Kurzem eine elektronische Einreisegenehmigung? Die Menschen und die KI liefern die korrekte Antwort: Großbritannien. Prof. Dr. Herbold erklärt in der Show, dass die KI die Antwort geraten hat und von der Brexit-Information abgeleitet haben muss. Denn die neuen Einreiseregelungen starteten am 2. April 2025 und waren somit noch nicht in den Trainingsdaten abgebildet. Ein Youtube-Nutzer will wissen, ob dem wirklich so sei, da die KI ja auch ab und an aktualisiert werde und Zugang zum Internet habe. Tatsächlich wählten die Forschenden KI-Modelle, die keinen Zugang zum Internet hatten, denn die Menschen in der Show hatten diesen ja auch nicht.
Was ist mit „Halbmond“-Abbildungen auf Flaggen?
In der Show müssen die Menschen und die KI eine Zeichnung nach einer Beschreibung anfertigen. Unter anderem sollen sie einen liegenden Halbmond zeichnen. Den Menschen gelingt das, der KI nicht. Als Grund nennt Prof. Dr. Herbold, dass die KI in ihren Trainingsdaten kaum Bilder von Halbmonden zur Verfügung hatte. Noch seltener sei die Abbildung von liegenden Halbmonden. Manche Youtube-Kommentare wollen wissen, was denn mit Abbildungen auf Flaggen sei, wie etwa der Flagge Mauretaniens. Auch wenn diese umgangssprachlich oft als Halbmond bezeichnet werden, handelt es sich dennoch um eine Sichelform. Wäre es eine liegende Sichel gewesen, wäre die Wertung wohl unentschieden gewesen. Aber eine aufrechte Sichel ist beim besten Willen kein liegender Halbmond.
Das flächenmäßig viertgrößte Land Asiens
In der Show fragt Prof. Dr. Herbold nach dem flächenmäßig viertgrößten Land Asiens. Die richtige Antwort lautet Kasachstan. In der Erklärung nennt er Indonesien auf Platz fünf und Saudi-Arabien auf Platz vier. Korrekt ist: Saudi-Arabien liegt auf Platz fünf und Indonesien an sechster Stelle. Den aufmerksamen Zuschauenden auf Youtube ist das nicht entgangen. Die Erklärung: Nicht nur eine KI irrt bisweilen, auch ein Professor kann sich mal versprechen.
Kann eine Sprache mit nur einem Sprecher wirklich eine Sprache sein?
In der Quizshow fragt Prof. Dr. Herbold nach der Sprache mit den wenigsten, noch lebenden, Sprechenden. Die Antwort lautet Taushiro, auch bekannt als Pinche oder Pinchi, das nur noch einen Sprecher im peruanischen Amazonas nahe Ecuador hat. Manche Youtube-Nutzende wollen wissen: Ist das dann überhaupt noch eine Sprache, wenn man sich nur mit sich selbst unterhalten kann? Auf der Bühne saß mit Prof. Dr. Johann-Mattis List auch ein Sprachwissenschaftler. Seine Antwort: Ja, wenn es zuvor mehr als eine Person gab, die diese Sprache gesprochen hat. Wichtig sei weiterhin, dass diese Personen die Sprache sehr früh gelernt haben, als eine ihrer ersten Sprachen nach der Geburt. „Unter diesen Umständen kann man meiner Meinung nach schon sagen, dass eine Sprache nur noch von einer Person gesprochen wird: diese Person hat ja eine Theorie über Lexikon, Laute und Grammatik der Sprache aufgebaut, und kann die Sprache akzentfrei sprechen“, sagt List. Klar sei aber auch, dass die Sprache mit der letzten sprechenden Person aussterbe und zu einer toten Sprache werde. Dieses Schicksal erleide eine beträchtliche Anzahl der derzeit noch gesprochenen Sprachen, wobei es nicht wirklich möglich sei, die Zahl klar zu beziffern.
Wer hat letztlich gewonnen – Mensch oder KI?
Das Professoren-Team siegte mit insgesamt 9 richtigen Antworten. Die KI kam auf 6 richtige. Manche Youtube-Nutzende monieren, dass der Talkshow-Host die Menschen bevorzugt habe, zum Beispiel bei der Frage, wann der Text des BGB an die neue deutsche Rechtschreibung angepasst wurde. Hier hatte sich das Professoren-Team auf 1998 geeinigt, während die KI auf 2001 tippte. Die korrekte Antwort lautete: am 2. Januar 2002. Moderator Herbold sah die Menschen dennoch näher an der Lösung. Grund war die schöne Anekdote von Jurist Prof. Dr. Brian Valerius, der das Team fast noch auf die richtige Fährte gebracht hätte. Er wandte ein, dass es auch 2002 im Zuge einer größeren inhaltlichen Änderung gewesen sein könnte. Denn da sei die Schuldrechtsreform in Kraft getreten. Das wisse er so genau, da er deswegen am 1. Januar 2002 noch auf seine mündliche Prüfung lernen musste. Einen Punkt gab es bei dieser Frage übrigens weder für die Menschen noch für die KI.
Soll man sich über die KI freuen oder Angst haben?
Ein Youtube-Kommentator wirft eine grundlegende Frage auf: Irgendwann werde die KI selbst den klügsten Menschen überflügeln – soll man sich nun darüber freuen oder Angst haben? Wie gut KI inzwischen ist und wo ihre Grenzen liegen – das war das Thema unserer Ringvorlesung, dessen Abschluss die Quizshow bildete. Der Sprachwissenschaftler Prof. Dr. List widmete sich in einer Veranstaltung der Frage, wie gut Sprachmodelle Sprache verstehen. Er thematisierte auch die möglichen negativen Folgen einer KI-Nutzung. In den Vorträgen wurde aber auch immer wieder klar, wie wichtig es ist, sich der Fähigkeiten der Technologie bewusst zu werden, um einen verantwortungsvollen Umgang damit zu finden.
Warum stecken die Professorin und die Professoren ihre wertvolle Zeit nicht lieber in Forschung und Lehre?
Die Aufgaben einer Universität gliedern sich in drei Bereiche: Forschung, Lehre und Transfer, was auch gerne als „Dritte Mission“ bezeichnet wird. Zu letzterem zählt, dass Forschende öffentlich über wissenschaftliche Erkenntnisse kommunizieren. Das machen sie auf unterschiedliche Weise – beispielsweise in Form von Veranstaltungen. Auch die Quizshow hatte ihren Ausgangspunkt in einer Veranstaltung: der Prototyp, in dem der Jura-Professor Kai von Lewinski gegen eine KI antrat, feierte Premiere im Rahmen der Veranstaltungsreihe „Unilive – Campus trifft Stadt“, die in einem Seminarraum der Universität im Zentrum der Stadt Passau stattfindet. Allerdings ist es auch so, dass die Professorinnen und Professoren dieses öffentliche Engagement zusätzlich zu ihren regulären Aufgaben erbringen.
Wird es eine Fortsetzung geben?
Das ist offen, denn das hängt stark von den vorhandenen Ressourcen ab, siehe auch vorhergehende Frage. Gute Kommunikation kostet Zeit – nicht nur auf Seiten der Professorinnen und Professoren, auch auf Seiten der unterstützenden Dienste. Dazu zählen alle Mitarbeitenden, die die Show so professionell begleitet und produziert haben, dass das Video auf Youtube auf solch große Resonanz stoßen konnte. An der Stelle sei auch gesagt, dass wir kein professionelles Medienunternehmen sind. Umso mehr freuen wir uns über die überwältigenden positiven Rückmeldungen und sind auf jeden Fall motiviert!
Prof. Dr. Steffen Herbold
Wie lässt sich Künstliche Intelligenz für die Software-Entwicklung einsetzen?
Wie lässt sich Künstliche Intelligenz für die Software-Entwicklung einsetzen?
Prof. Dr. Steffen Herbold ist seit 2022 Inhaber des Lehrstuhls für AI Engineering an der Universität Passau. Davor vertrat er verschiedene Professuren im Bereich Datenanalyse, darunter am Karlsruher Institut für Technologie, bevor er im Jahr 2021 zum Professor für "Methoden und Anwendungen des Maschinellen Lernens" an der TU Clausthal ernannt wurde. Er studierte, promovierte und habilitierte im Bereich Informatik an der Universität Göttingen.
Mehr Informationen
- Zum Online-Quiz
- Ringvorlesung "Künstliche Intelligenz - zwischen Hype und Realität" mit Nachberichten zu den Terminen
- Themenseite zu interdisziplinärer Forschung zu Sprachmodellen an der Universität Passau
- "Professoren der Uni Passau treten in einem Quiz gegen ChatGPT an" - Bericht der Passauer Neuen Presse (19.07.2025)



