Zum Inhalt springen

Passauer Informatik-Doktorand auf internationaler Datenbank-Konferenz mit dem 1. Platz ausgezeichnet

Bei der diesjährigen „International Conference on Management of Data“ (SIGMOD) in Seattle sicherte sich der Passauer Promotionsstudent in Informatik Stefan Klessinger den ersten Platz in der „Student Research Competition“, einem Programm, in dem Doktoranden ihre laufende Forschungsarbeit vorstellen. Seine Forschung widmet sich dem Ziel, Strukturen in Daten zu erkennen und so die Qualität von Daten in einem Datensatz zu erhöhen. Von Nicola Jacobi

Symbolbild: Colourbox.

„In Zeiten von „Big-Data“ und der massenweisen Verarbeitung von Daten ist die Qualität der Daten ein zentrales Problem“, so Klessinger. In seiner Forschung geht es um die automatische Erkennung von Abhängigkeiten in semi-strukturierten Daten. Mit diesen Abhängigkeiten kann die Struktur der Daten (in einem sogenannten Schema) genauer beschrieben werden, als es bestehende Ansätze können. Darüber hinaus kann ein genaueres Schema die Arbeit von Konsumenten der Daten (z.B. Software-Entwickler) erleichtern, indem sie eine genauere Vorstellung davon erhalten, wie die Daten aussehen.

Beschreibt man die Abhängigkeiten oder Struktur der verarbeiteten Daten zu eng, kann es passieren, dass neue, eigentlich valide Daten als fehlerhaft erkannt werden. Ist die Beschreibung hingegen zu ungenau, werden eigentlich fehlerhafte Daten nicht als solche erkannt.

Stefan Klessinger, Doktorand an der Universität Passau

Doktorand Stefan Klessinger.

Doktorand Stefan Klessinger arbeitet am Lehrstuhl für Informatik mit Schwerpunkt Skalierbare Datenbanksysteme. Foto: Christian Haasz (werbeFOTO HAASZ)

Klessinger arbeitet seit Oktober 2021 am Lehrstuhl für Informatik mit Schwerpunkt Skalierbare Datenbanksysteme von Prof. Dr. Stefanie Scherzinger, die bereits an semi-strukturierten Daten forscht, sowohl in internationalen, als auch nationalen Teams. „Durch die Diversität in diesen Forschungsgruppen gibt es viele spannende Ideen“, so Klessinger, der sich seit etwa einem Jahr seinem aktuellen Forschungsthema widmet. „Daraus ergeben sich diverse Anknüpfungspunkte. Die Diskussionen in den Teams und auch auf internationalen Konferenzreisen sind inspirierend und motivierend.“

Sein Forschungsthema vereint zwei Themenfelder, die bisher überwiegend unabhängig voneinander erforscht wurden: die automatische Erkennung der Struktur semi-strukturierter Daten einerseits und die automatisierte Erkennung von Abhängigkeiten (auf strukturierten Daten) andererseits. Ein zentrales Problem in beiden Themenfeldern sei es, so erklärt er, die Struktur bzw. die Abhängigkeiten ausreichend, aber nicht zu genau zu beschreiben. Automatisch erkannte Abhängigkeiten gelten oft nur zufällig auf den betrachteten Daten und können unter Hinzunahme weiterer Daten verletzt werden. Ebenso kann sich die Struktur verschiedener Daten aus dem gleichen Datensatz unterscheiden, sodass man oft eine sinnvolle Abstraktion der erkannten Struktur beschreiben möchte. „Beschreibt man die Abhängigkeiten oder Struktur der verarbeiteten Daten zu eng, kann es passieren, dass neue, eigentlich valide Daten als fehlerhaft erkannt werden. Ist die Beschreibung hingegen zu ungenau, werden eigentlich fehlerhafte Daten nicht als solche erkannt.“

Ein Beispiel zur Veranschaulichung

Ein Datensatz beschreibt Personen jeweils durch sogenannte Attribute, wie z.B. Vorname, Zweitname, Nachname, Geburtsjahr und Generation. Bestehende Ansätze konzentrieren sich darauf zu erkennen, dass etwa „Zweitname“ nicht immer auftritt oder dass „Geburtsjahr“ eine Zahl ist, während die anderen Attribute jeweils Zeichenketten aus Buchstaben sind. In Klessingers Forschung geht es darum, genauere Beschreibungen durch sogenannte Abhängigkeiten zu formulieren. In diesem Fall könnte man z.B. erkennen, dass es sich um die „Generation Z“ handelt, wenn als Geburtsjahr das Jahr 2000 erscheint.

Mit dieser Forschungsarbeit sicherte sich Klessinger in der diesjährigen „International Conference on Management of Data“ (SIGMOD), die im Juni in Seattle stattfand und eine der wichtigsten internationalen Konferenzen im Bereich Datenbanken ist, den ersten Platz in der "Student Research Competition". Lehrstuhlinhaberin Prof. Dr. Stefanie Scherzinger gratuliert: „Es ist das zweite Mal in Folge, dass es ein Mitarbeiter des Lehrstuhls in die Endrunde des ACM Sigmod Student Research Contests schafft. Dass Herr Klessinger dieses Jahr den Wettbewerb sogar gewonnen hat, freut mich wirklich sehr."

Über Stefan Klessinger

Klessinger studiert seit 2013 an der Universität Passau. 2019 schloss er den Bachelor in Internet Computing und anschließend seinen Master in Informatik ab. Seit Oktober 2021 arbeitet er als wissenschaftlicher Mitarbeiter am Lehrstuhl für Informatik mit Schwerpunkt Skalierbare Datenbanksysteme von Prof. Dr. Stefanie Scherzinger.

Prof. Dr.-Ing. Stefanie Scherzinger

forscht zur Strukturierung großer Datenmengen

Wie lässt sich in großen Datenmengen Ordnung schaffen?

Wie lässt sich in großen Datenmengen Ordnung schaffen?

Prof. Dr.-Ing. Stefanie Scherzinger hat den Lehrstuhl für Skalierbare Datenbanksysteme an der Universität Passau inne. Ihre akademische Laufbahn begann ebenfalls in Passau, wo sie Informatik studierte. Nach Stationen in der Praxis als Software-Entwicklerin bei IBM und Google war sie acht Jahre als Professorin an der OTH Regensburg tätig, bevor sie im April 2020 den Ruf an die Universität Passau erhielt.

Bluesky

Beim Anzeigen des Videos wird Ihre IP-Adresse an einen externen Server (Vimeo.com) gesendet.

Video anzeigen