Exploring Bilingual Word Embeddings for Hiligaynon

Beitrag zur 12. Language Resources and Evaluation Conference

Leah Michel | Mai 2020

Die austronesische Sprache Hiligaynon gehört sicher nicht zu denjenigen Sprachen, deren Existenz – auch linguistisch gebildeten – Menschen geläufig sein dürfte: Mit etwa 9 Millionen Sprecherinnen und Sprechern ist Ilonggo, wie der umgangssprachliche Name lautet, die zweitwichtigste Sprache der zentralphilippinischen Visayas-Region.

Zur 12. Language Resources and Evaluation Conference, die im Mai 2020 in Marseille hätte stattfinden sollen, hatte Leah Michel in Zusammenarbeit mit Viktor Hangya und Alexander Fraser am Center for Information and Language Processing (CIS) der LMU und mit Unterstützung des Studienbüros der Fakultät 13 einen Beitrag vorbereitet, der die Möglichkeiten automatisierter Erstellung zweisprachiger Lexika für low-resource languages am Beispiel von Hiligaynon auslotet. Dafür wurden Wortkorpora aus jeweils etwa 300.000 Worten aus dem Englischen, dem Deutschen und Hiligaynon gesammelt und in bilingual word embeddings für Englisch–Hiligaynon und Englisch–Deutsch umgewandelt.

Zwar wurde die Konferenz pandemiebedingt abgesagt; nichtsdestotrotz wurden jetzt die zu dieser eingebrachten Forschungsergebnisse publiziert. Wir präsentieren hier Leah Michels Beitrag zu den Proceedings of the 12th Conference on Language Resources and Evaluation (LREC 2020), „Exploring Bilingual Word Embeddings for Hiligaynon, a Low-Resource Language“.

Verbreitung der Visayassprachen auf den Philippinen.
Bild: Christopher Sundita, CC-BY-SA 3.0