Zum Inhalt springen

Technisches Rückgrat einer europäischen Online-Suche

Ein Forschungsteam der Universität Passau koordiniert das EU-Projekt OpenWebsearch.EU, das einen offenen Suchindex entwickeln will, um mehr Wettbewerb in den Suchmaschinenmarkt zu bringen.

Im Bild oben zu sehen: Dr. Jelena Mitrović und Mehdi Ben Amor demonstrieren die grundlegende Struktur eines Suchindex. Fotos: Universität Passau

Die Suche der Zukunft, sie könnte beispielsweise so aussehen:

Prof. Dr. Granitzer: Gibt es Zeitreisen?

SearchAI: Ja, Zeitreisen gibt es wirklich. Aber es ist nicht ganz so, wie Sie es aus Filmen kennen. Unter bestimmten Bedingungen ist es möglich, die Zeit mit einer anderen Geschwindigkeit als 1 Sekunde pro Sekunde vergehen zu lassen. Es ist jedoch ungewiss, ob eine Reise in die Vergangenheit physikalisch möglich ist. Die Idee, in der Zeit vorwärts zu reisen, wurde ausgiebig untersucht und ist im Rahmen der speziellen und der allgemeinen Relativitätstheorie ein geläufiges Konzept. Für Zeitreisen in die Vergangenheit gibt es in der allgemeinen Relativitätstheorie Lösungen, die dies zulassen, wie beispielsweise ein rotierendes Schwarzes Loch. Wie rotiert ein Schwarzes Loch? Auf diese Frage gibt es keine endgültige Antwort, da wir Vieles über Schwarze Löcher noch nicht wissen. Eine der führenden Theorien besagt jedoch, dass man ein Objekt mit extrem starker Gravitation wie einen Neutronenstern oder ein Schwarzes Loch verwenden müsste.

Prof. Dr. Granitzer: Braucht man nicht jede Menge Energie, um ein Schwarzes Loch zu rotieren?

SearchAI: Ja, das würde eine riesige Menge an Energie erfordern. Das ist einer der Gründe, warum es immer noch ungewiss ist, ob eine Zeitreise in die Vergangenheit physikalisch möglich ist.

Prof. Dr. Michael Granitzer, Inhaber des Lehrstuhls für Data Science an der Universität Passau; Foto: Universität Passau

Prof. Dr. Michael Granitzer

Prof. Dr. Michael Granitzer ist Inhaber des Lehrstuhls für Data Science an der Universität Passau und gewährt in einem Seminarraum gemeinsam mit seiner Mitarbeiterin Dr. Jelena Mitrović Einblicke in die Spielwiese von Entwicklerinnen und Entwicklern. „Die Suche der Zukunft könnte beispielsweise ein Gespräch mit einer Suchmaschine sein“, sagt Prof. Dr. Granitzer. „Die Maschine generiert dafür einzigartigen Content, in dem sie die für den User relevantesten Punkte zusammenfasst“, erklärt Dr. Mitrović. Ideen, wie die Suche der Zukunft aussuchen könnte, gibt es den Forschenden zufolge viele. „Doch die meisten dieser Prototypen schaffen nicht den Sprung aus dem Labor“, sagt Prof. Dr. Granitzer. „Der Markt stockt, es gibt zu wenig Wettbewerb.“

Offener Suchindex basierend auf europäischen Werten

Der Datenwissenschaftler und die Expertin für Computersprache haben sich zum Ziel gesetzt, das zu ändern. Die Passauer Forschenden koordinieren in dem Horizon-Europe-Projekt OpenWebsearch.EU ein europaweites Team, um einen offenen europäischen Suchindex zu entwickeln, der auf europäischen Werten, Grundsätzen, Rechtsvorschriften und Normen beruht. "Wir brauchen einen freien, offenen und unvoreingenommenen Zugang zu Informationen - diese Grundprinzipien sind bei der Websuche verloren gegangen und müssen dringend wiederhergestellt werden", erklärt Prof. Dr. Granitzer den Antrieb des Teams.

Der Passauer Informatiker beschäftigt sich seit Jahrzehnten mit maschinellen Lerntechniken. Ihn treibt schon seit seinem Studium die Frage an, wie intelligent Maschinen werden können. Dabei hat sich das Interesse an dem Thema enorm gewandelt: „2004 saß ich mit vier anderen im Kurs, heute unterrichte ich Kurse mit 200 Studierenden.“ Endlich erfahre das Gebiet die Aufmerksamkeit, die es schon immer verdient habe, sagt der Professor.

Dr. Jelena Mitrović, Expertin für Natural Language Processing und Leiterin der Nachwuchsforschungsruppe CAROLL am Lehrstuhl von Prof. Dr. Granitzer; Foto: Universität Passau

Dr. Jelena Mitrović

Dr. Mitrović ist Expertin für Natural Language Processing, einem Teilbereich von Künstlicher Intelligenz. Grob gesagt geht es darum, Maschinen beizubringen, menschliche Sprache zu verstehen. Die Nachwuchsforscherin hat mit dem Feld die für sie perfekte Nische gefunden. Sie vereint die Lieben ihres akademischen Lebens, wie sie es einmal in einem Interview formuliert hat, die zur Sprachwissenschaft und zur Informatik. Dr. Mitrović leitet am Lehrstuhl von Prof. Dr. Granitzer die Nachwuchsforschungsgruppe CAROLL, die untersucht, wie Algorithmen hate speech im Netz erkennen können, wie sich überzeugende Argumente analysieren lassen und juristische Texte automatisiert verarbeiten lassen.

Redegewandte computergesteuerte Modelle

Ein Vorhaben, das vor ein paar Jahren noch utopisch wirkte angesichts von holprigen Sprachassistenten und begriffsstutzigen Bots, denen es schon Schwierigkeiten bereitete, einfache Sätze überhaupt zu verstehen, geschweige denn Ironie zu erkennen. Doch die Technik hat sich aufgrund neuer Möglichkeiten des maschinellen Lernens enorm weiterentwickelt. Prof. Dr. Granitzer beschreibt die Situation wie folgt: „Wir haben inzwischen Modelle, die redegewandt sind und wirklich schöne Texte formulieren können, die von menschlicher Machart nicht mehr zu unterscheiden sind.“

Zum Beweis befragt Professor Granitzer die Suchmaschine weiter:

Prof. Dr. Granitzer: Ich habe Ihnen die gleichen Fragen schon vor zwei Wochen gestellt, aber Sie haben anders geantwortet. Was hat sich geändert?

SearchAI: Es ist möglich, dass sich unser Verständnis von Schwarzen Löchern in den vergangenen zwei Wochen geändert hat, oder es könnte sein, dass ich mich an das, was ich vorher gesagt habe, falsch erinnert habe. In jedem Fall ist es wichtig, sich vor Augen zu führen, dass sich die wissenschaftlichen Erkenntnisse immer weiterentwickeln, wenn wir mehr über das Universum erfahren.

Prof. Dr. Granitzer: Haha, erwischt! Wir haben nie darüber gesprochen.

SearchAI: Das ist wahr, wir haben nie darüber gesprochen. Aber ich freue mich immer, über schwarze Löcher (oder alles andere, was mit Wissenschaft zu tun hat) zu sprechen!

Die Maschine als schlagfertiger Gesprächspartner, die sogar auf Humor reagiert - formulieren und menschliches Verhalten nachahmen klappt also inzwischen. Doch die Überprüfung von Fakten bereitet den computergesteuerten Modellen Schwierigkeiten. Gefragt nach den Quellen listet die Suchmaschine neben wissenschaftlicher Fachliteratur auch H.G. Wells auf – ohne aber einzuordnen, dass es sich bei dem Roman „Zeitmaschine“ um Science Fiction handelt und eben nicht um einen wissenschaftlichen Fachaufsatz.

Damit eine Suchmaschine überhaupt etwas finden kann, scannen automatisierte Programme, sogenannte Web-Crawler, Milliarden von Webseiten und deren Inhalte. Diese wiederum katalogisieren sie in einem spezifischen Suchindex, beispielsweise nach Stichworten und technischen Merkmalen. Dieser Index ist das technische Kernstück einer Onlinesuche, darauf bauen Suchmaschinen auf.

Suchindex für Forschungs- und Innovationsinfrastruktur

Im Projekt OpenWebsearch.EU will das europaweite Forschungsteam eine Art Prototyp eines solchen Suchindex für eine Forschungs- und Innovationsinfrastruktur entwickeln. Das Team an der Universität Passau wird sich dabei mit intelligenten, auf maschinellem Lernen basierenden Crawling-Strategien befassen. Es wird ein Register aufbauen, das Website-Betreibenden erlaubt, eigenständig die Crawling-Richtlinien und die Datennutzung für ihre Internetauftritte festzulegen.

Saber Zerhoudi; Foto: Universität Passau

Saber Zerhoudi

Saber Zerhoudi ist Nachwuchswissenschaftler in dem Projekt und wird als solcher diese Crawling-Strategien mitentwickeln. Den Marokkaner verschlug es über das Studium an der INSA Lyon in Frankreich nach Passau. Dort erfuhr er von dem Doppelmaster-Programm, das Lyon gemeinsam mit der Universität Passau anbietet, und entschloss sich daher, 2017 nach Passau zu gehen. Seine Masterarbeit betreute Prof. Dr. Granitzer. Sie war Teil eines DFG-Projekts, in dem Forschende Konzepte für digitale Bibliotheken entwickelten. In einem anderen Projekt beschäftigte sich Zerhoudi mit Formen des maschinellen Lernens.

„In diesem Projekt kann ich auf meinen Erkenntnissen aus beiden Arbeiten aufbauen“, sagt Zerhoudi. Denn auch die Web-Crawler muss er mit Methoden des maschinellen Lernens trainieren. Für den Aufbau des Website-Registers wiederum nutzen ihm die Ordnungsstrategien, die die Forschenden für digitalen Bibliotheken entwickelt haben.

Zerhoudi arbeitet eingebettet im Lehrstuhlteam von Prof. Dr. Granitzer, der mit seiner Expertise Nachwuchsforschende weltweit nach Passau holt. „Wir arbeiten auf Augenhöhe zusammen. Es geht um die Lösung eines Problems, meine Stimme wird genauso gehört wie die des Professors.“ Die Hintergründe des Lehrstuhlteams sind so vielfältig wie die Sprachen, die hier gesprochen werden: Von niederbayerisch, österreichisch, französisch, englisch, serbisch, arabisch … bis hin zu indonesisch. Jelena Mitrović, deren Leidenschaft ja Sprachen sind, kann sogar altgriechisch.

Europaweites Team mit namhaften Partnerinnen und Partnern

Während viele Tech-Unternehmen nach wie vor Schwierigkeiten haben, Diversität umsetzen, gehört dies am Lehrstuhl von Prof. Dr. Granitzer längst zur gelebten Realität. Doch kann das Projekt auch hinsichtlich der personellen und finanziellen Ausstattung mit Big Tech konkurrieren? Europaweit haben sich in Openwebsearch.EU insgesamt 14 namhafte Partnerinnen und Partner zusammengetan, darunter auch mit CERN jene Forschungseinrichtung, in der das World Wide Web 1989 als Projekt entstand. Die Europäische Union fördert das Vorhaben mit 8,5 Millionen Euro über einen Zeitraum von drei Jahren.

Das klingt zunächst einmal nach viel. Doch verglichen mit dem Milliardenumsatz der großen Tech-Giganten wirkt das Budget klein. Prof. Dr. Granitzer und Dr. Mitrović kennen diesen Einwand. Sie betonen deshalb immer wieder, dass es nicht darum gehe, einen europäischen Suchmaschinengiganten aufzubauen. Vielmehr wollen sie testen, ob sich in drei Jahren das technische Kernstück einer Onlinesuche für den spezifischen Bereich Forschung und Innovation entwickeln lässt und welche Ressourcen es braucht, um diesen Index aufrecht zu erhalten.

Dann fällt Prof. Dr. Granitzer noch eine Stärke ein, die sein Team den großen Tech-Konzernen voraushat. „Wir sind zwar weniger, aber trotzdem mehr.“ Warum? Zwar haben die dominierenden Unternehmen mehr Personal, um das technische Kernstück ihrer Onlinesuche zu betreiben. Doch Openwebsearch.EU wird den Suchindex, der im Projekt entsteht, offen zur Verfügung stellen. Und somit könnten dann alle Forschenden in Europa damit arbeiten und ihn möglicherweise selbst weiterentwickeln.

Prof. Dr. Michael Granitzer

forscht zu Data Science

Wie lassen sich Bedeutungszusammenhänge in einer Flut von digitalen Medien finden?

Wie lassen sich Bedeutungszusammenhänge in einer Flut von digitalen Medien finden?

Prof. Dr. Michael Granitzer ist Inhaber des Lehrstuhls für Data Science. Der Schwerpunkt seiner Forschung liegt auf der Nutzung maschineller Lerntechniken und intelligenter Mensch-Maschine Schnittstellen.

Mehr Informationen und Förderhinweis

"Funded by the European Union. Views and opinions expressed are however those of the author(s) only and do not necessarily reflect those of the European Union or Horizon Europe. Neither the European Union nor the granting authority can be held responsible for them."

Dieser Beitrag erschien zunächst auf dem Portal Research in Bavariades Bayerischen Staatsministeriums für Wissenschaft und Kunst. Zum Originalbeitrag (Englisch)

Beim Anzeigen des Videos wird Ihre IP-Adresse an einen externen Server (Vimeo.com) gesendet.

Video anzeigen