ERC-Forschungsgruppe „ProduSemy“: Mit Algorithmen der Evolution von Wortfamilien auf der Spur
Von „Elle“, „Bogen“ und „Gesell“ zu „Ellbogengesellschaft“: Eine ERC-geförderte Forschungsgruppe an der Universität Passau unter der Leitung von Prof. Dr. Johann-Mattis List untersucht mit Hilfe von computergesteuerten Modellen ein Thema, über das die Sprachwissenschaft wenig weiß. Der Europäische Forschungsrat stellt für das Vorhaben zwei Millionen Euro bereit.
Während Maschinen immer intelligenter werden und Autos sprechen lernen, gibt es vermeintlich einfache Fragen, die die Sprachwissenschaft vor Rätsel stellen: Wie entstehen Wortfamilien und warum sind manche größer als andere? „In der Linguistik wissen wir erstaunlich wenig, wie neue Wörter in unseren Sprachen gebildet werden, und was Menschen dazu antreibt, den neuen Wörtern die Gestalt zu geben, die sie dann bekommen“, sagt Prof. Dr. Johann-Mattis List. Er ist Inhaber des Lehrstuhls für Multilinguale Computerlinguistik an der Universität Passau und hat sich zum Ziel gesetzt, das Thema mit maschineller Unterstützung anzugehen.
Wörter, die innerhalb derselben Sprache oder über Sprachen hinweg denselben Ursprung teilen, bezeichnet die Linguistik als Wortfamilien. Allerdings sind diese dynamisch und entwickeln sich weiter, etwa indem sie miteinander kombiniert werden. Prof. Dr. List nennt als Beispiel das Wort „Ellenbogengesellschaft“, das sich aus den Wörtern „Elle“, „Bogen“, „Geselle“ und „-schaft“ zusammensetzt und eine neue Bedeutung annimmt, die nichts mehr mit denen der ursprünglichen Wörter zu tun hat. Dabei sind manche Wort-Teile produktiver als andere, wie es Prof. Dr. List ausdrückt, und erzeugen wesentlich mehr neue Wörter aus andere.
Verständnis von Wortfamilien durch Computermodellierung
Warum das so ist und wie sich Wortfamilien auch über Sprachen hinweg bilden, diese Fragen will Prof. Dr. List mit der neuen ERC-geförderten Forschungsgruppe „ProduSemy“ untersuchen, die er derzeit aufbaut. Der Titel ist eine Anspielung auf die „produktiven Zeichen“, jene Wörter, die besonders große Wortfamilien bilden. Die Gruppe arbeitet mit computergestützten Methoden: Sie entwickelt Algorithmen, mit deren Hilfe die Forschenden innerhalb großer Sprachkorpora Wortfamilien entdecken und diese Daten über Sprachen hinweg vereinheitlichen können. Die Korpora enthalten Wörter aus bis zu 1000 Sprachen.
„Warum Wörter Familien bilden, warum bestimmte Wortfamilien größer sind als andere, und inwiefern sich die Wortfamilienstrukturen von Sprache zu Sprache unterscheiden oder ähneln, fasziniert mich schon seit langem“, sagt der Linguist. „Ich freue mich, dass ich mit der neuen Forschungsgruppe diese Fragen nun tiefgehend untersuchen kann."
Für das Vorhaben hat Prof. Dr. List einen der renommierten ERC Consolidator Grants des Europäischen Forschungsrats eingeworben, die in einem mehrstufigen, hochkompetitiven Auswahlverfahren vergeben werden. Der Europäische Forschungsrat (European Research Council, ERC) ist eine von der Europäischen Kommission eingerichtete wissenschaftsgeleitete Institution zur Förderung von exzellenten Wissenschaftlerinnen und Wissenschaftlern mit bahnbrechenden Forschungsprojekten. Die Forschungsgruppe an der Universität Passau wird über eine Laufzeit von fünf Jahren mit zwei Millionen Euro gefördert.
Zur Person
Der Sprachwissenschaftler Prof. Dr. List hat seit Januar den Lehrstuhl für Multilinguale Computerlinguistik inne, der aus Mitteln der Innovationsoffensive „Hightech Agenda“ des Freistaats Bayern geschaffen wurde. Davor war er unter anderem Vertretungsprofessor an der Universität Bielefeld, leitender Wissenschaftler am Max-Planck-Institut für Evolutionäre Anthropologie in Leipzig und am Max-Planck-Institut für Menschheitsgeschichte in Jena, wo er ebenfalls eine ERC-geförderte Forschungsgruppe zu computergestützten Sprachvergleich leitete. Er promovierte an der Heinrich-Heine-Universität Düsseldorf und schrieb seine Habilitation an der Friedrich-Schiller-Universität Jena.
Mehr Informationen:
Projektbeschreibung in der EU-Datenbank CORDIS
Interview mit Prof. Dr. List zum ERC Projekt
Blogbeitrag von Prof. Dr. List zum Thema „produktive Zeichen“
Lehrstuhlwebseite
Projektleitung an der Universität Passau | Prof. Dr. Johann-Mattis List (Lehrstuhl für Multilinguale Computerlinguistik) |
---|---|
Laufzeit | 01.01.2023 - 31.12.2027 |
Mittelgeber | Europäische Union (EU) > EU - 9. Forschungsrahmenprogramm (Horizon Europe) > EU - Horizon Europe - ERC - Consolidator Grant |
Förderhinweis | “Funded by the European Union (ERC, Produsemy, 101044282). Views and opinions expressed are however those of the author(s) only and do not necessarily reflect those of the European Union or the European Research Council Executive Agency. Neither the European Union nor the granting authority can be held responsible for them.” |