Zum Inhalt springen

Mit Computern dem Geheimnis von Sprachstrukturen auf der Spur

Frederic Blum hat im Rahmen seiner Master-Arbeit eine Nature-Studie zur Länge von Wortanfängen vorgelegt. Jetzt promoviert er in Passau beim Sprachwissenschaftler Prof. Dr. List.

Wenn Medien über Ergebnisse von Studien berichten, die in Nature-Journals erscheinen, findet sich meist der Satz: „Ein internationales Forschungsteam hat herausgefunden...“. In diesem Fall hat ein internationales Forschungsteam unter der Leitung von Frederic Blum herausgefunden, dass verlängerte Wortanfänge ein universelles Merkmal von Sprache sind.

Doktorand Frederic Blum

Wie war es für ihn, Medienberichte zu lesen, die seinen Namen in leitender Funktion nennen? „In mehrfacher Hinsicht merkwürdig“, sagt Blum und lacht. Denn als er die Studie durchführte, war er noch Masterstudent an der Humboldt-Universität zu Berlin und studentische Hilfskraft in einem Forschungsprojekt am Leibniz-Institut Allgemeine Sprachwissenschaft. Während eines studentischen Projekts zur Erforschung der Geschichte der Quechua-Sprachen lernte er auch seinen jetzigen Doktorvater Prof. Dr. Johann-Mattis List kennen, der seit 2023 den Lehrstuhl für Multilinguale Computerlinguistik an der Universität Passau innehat und sich über das Talent in seinem Team freut: „Es ist toll für unseren Lehrstuhl, so einen erfolgreichen Doktoranden zu haben.“

13 Millisekunden markieren Wortanfang

Blums Masterarbeit war eine Vorstufe zu der Studie, die im September 2024 in dem Nature-Journal „Human Behaviour“ erschienen ist. Darin untersuchen die Forschenden mit Hilfe von computergestützten Methoden Phänomene von systematischer akustischer Längung in Sprachdaten. Sie konnten erstmals ein Muster akustischer Effekte beobachten, das verschiedenen Sprachen als eindeutige Markierung dienen könnte – die systematische Verlängerung von Konsonanten am Wortanfang.

Wahrnehmbar ist diese Verlängerung kaum, denn es geht um 13 Millisekunden. Doch für Linguistinnen und Linguisten wird es hier spannend: Die maschinellen Auswertungen bestätigen erstmals eine Hypothese, wonach verlängerte Wortanfänge ein universelles Merkmal von Sprache sein könnten. Bislang beruhte diese Hypothese auf einer kleinen Auswertung von sprachlichen Daten. „Diese stammen  zudem aus sogenannten WEIRD-Gesellschaften. Die Abkürzung steht für westlich, akademisch, industriell, reich und demokratisch. Die Daten bilden also nur einen sehr homogenen Teil der menschlichen Vielfalt ab“, erklärt Blum.

Beim Anzeigen des Videos wird Ihre IP-Adresse an einen externen Server (Vimeo.com) gesendet.

Video anzeigen
/uploads/tx_upatheme/vimeo-8463e2d2c3169a1864283499036004d096e278a7.jpg

Beispiel für einen verlängerten Konsonanten am Wortanfang in Mojeño Trinitario, einer Arawak-Sprache, die im Amazonasgebiet Boliviens gesprochen wird. Das /n/ am Wortanfang (100 ms) ist deutlich länger als das /n/ in der Wortmitte (50 ms) und das /n/ am Anfang einer Äußerung (50 ms).
© Frederic Blum et al., Nature Human Behaviour (2024)

Sein Team, das sich aus Forschenden des Max-Planck-Instituts in Leipzig, des CNRS Laboratoire Structure et Dynamique des Langeus, der Humboldt Universität zu Berlin und des Leibniz-Zentrums Allgemeine Sprachwissenschaft zusammensetzte, überprüfte die Hypothese mit einer sehr viel breiteren und vielfältigeren Datenbasis. Dazu nutzte es Daten des DoReCo-Korpus, der eine beispiellose linguistische und kulturelle Vielfalt menschlicher Sprache repräsentiert: er enthält Sprachproben von 51 Populationen aus allen bewohnten Kontinenten.

„Ursprünglich hatten wir erwartet, die Hypothese zu widerlegen. Deshalb waren wir von den Ergebnissen unserer Analyse selbst überrascht“, sagt Blum. Die Forschenden stellten fest, dass das Phänomen der Verlängerung von Konsonanten am Wortbeginn tatsächlich in den meisten Sprachen der Welt vorkommt. In 43 der 51 untersuchten Sprachen gab es eindeutige Hinweise auf verlängerte Wortanfänge.

Verwandtschaft indigener Sprachen entschlüsseln

Frederic Blum zusammen mit seinem Doktorvater Prof. Dr. Johann-Mattis List, Inhaber des Lehrstuhls für Multilinguale Computerlinguistik.

Die Erforschung von Sprachstruktur und sprachlicher Diversität mit Hilfe neuer, computergestützter Methoden beschäftigt Frederic Blum auch in seiner Promotion. Darin befasst er sich schwerpunktmäßig mit Sprachen im südamerikanischen Kontext. Denn hier ist im Zuge der Kolonialisierung und der Vernichtung der indigenen Bevölkerung viel Wissen verloren gegangen. „Wir wissen kaum, welche Sprachen wo vor tausend Jahren gesprochen wurden“, sagt Blum. „Hier kann die historische Linguistik auch ein Schlüssel zur Vergangenheit sein.“

In seiner Promotion untersucht er die Geschichte der Pano-Sprachen, einer indigenen Sprachfamilie, die vor allem im peruanischen Amazonasgebiet gesprochen wird. Schon seit längerem gibt es die Hypothese, dass diese Sprache eine gemeinsame Vergangenheit mit den Tacana-Sprachen habe, die im bolivianischen Tiefland verbreitet sind. Allerdings fehlt die abschließende Evidenz dafür. In seiner Promotion entwickelt Blum computergestützte Methoden, um Sprachdaten automatisch verarbeiten zu können und so diese Hypothese weitergehender überprüfen zu können, als dies mit traditionellen Methoden möglich wäre.

„Ich habe Spaß an der Entschlüsselung von Sprachstruktur und an sprachlicher Diversität“, sagt Blum. Darüber hinaus begeistert er sich auch für Statistik. Bereits während seines Master-Studiums fing er an, zusätzlich Statistik-Kurse zu belegen, die im Bereich Geographie angeboten wurden. Das Wissen aus dem Studium half ihm zunächst bei der Forschungsarbeit im Masterstudium und jetzt in der Promotion.

Dass er seine Arbeit bei Prof. Dr. List an der Universität Passau durchführen kann und zugleich weiterhin als wissenschaftlicher Mitarbeiter am Max-Planck-Institut in Leipzig forschen kann, empfindet er als glückliche Fügung: „Prof. Dr. Johann-Mattis List gehört zu den Pionieren, was die Entwicklung computergestützter Methoden in der Linguistik betrifft.“ So kämen viel Software und viele Werkzeuge, die Forschende in dem Bereich nutzen, aus seiner Hand. „Da ich genau in diese Richtung gehen wollte, war das für mich die perfekte Promotionsstelle“, sagt Blum.

Prof. Dr. Johann-Mattis List

forscht zu Computergestütztem Sprachvergleich und Multilingualer Computerlinguistik

Wie kann man die mehr als 6000 Sprachen der Welt vergleichen und wie helfen Computermethoden dabei?

Wie kann man die mehr als 6000 Sprachen der Welt vergleichen und wie helfen Computermethoden dabei?

Der Sprachwissenschaftler Prof. Dr. Johann-Mattis List hat seit Januar 2023 den Lehrstuhl für Multilinguale Computerlinguistik an der Universität Passau inne und leitet die ERC-Forschungsgruppe „ProduSemy“. Davor war er unter anderem Vertretungsprofessor an der Universität Bielefeld, leitender Wissenschaftler am Max-Planck-Institut für Evolutionäre Anthropologie in Leipzig und am Max-Planck-Institut für Menschheitsgeschichte in Jena, wo er ebenfalls eine ERC-geförderte Forschungsgruppe zum computergestützten Sprachvergleich leitete. Er promovierte an der Heinrich Heine Universität Düsseldorf und schrieb seine Habilitation an der Friedrich-Schiller-Universität Jena.

Bluesky

Beim Anzeigen des Videos wird Ihre IP-Adresse an einen externen Server (Vimeo.com) gesendet.

Video anzeigen