Thesis (Selection of subject)Thesis (Selection of subject)(version: 385)
Thesis details
   Login via CAS
Mnohojazyčná fonetická transkripce dat z Wikislovníku
Thesis title in Czech: Mnohojazyčná fonetická transkripce dat z Wikislovníku
Thesis title in English: Multilingual phonetic transcription of Wiktionary data
Key words: transkripce|fonetika|ipa|wikislovník
English key words: transcription|phonetics|ipa|wiktionary
Academic year of topic announcement: 2024/2025
Thesis type: Bachelor's thesis
Thesis language:
Department: Institute of Formal and Applied Linguistics (32-UFAL)
Supervisor: doc. RNDr. Daniel Zeman, Ph.D.
Author: hidden - assigned and confirmed by the Study Dept.
Date of registration: 15.05.2025
Date of assignment: 15.05.2025
Confirmed by Study dept. on: 15.05.2025
Guidelines
Vytvořte programové rozhraní pro práci s Wikislovníkem se zaměřením na výslovnost slov. Pro vlastní přístup k datům Wikislovníku využijte některou z existujících knihoven / nástrojů (např. Ylonen 2022, Wiktextract, https://aclanthology.org/2022.lrec-1.140/; místo přístupu k aktuálnímu Wikislovníku v reálném čase můžete pracovat offline s dumpem dat) a výslovnostní rozhraní postavte nad ní. Pro mapování mezi výslovností a pravopisem různých jazyků využijte a vhodným způsobem rozšiřte existující knihovnu / nástroj (např. Mortensen et al. 2018, Epitran, https://aclanthology.org/L18-1429/, též Mortensen et al. 2016, PanPhon, https://aclanthology.org/C16-1328/).

Rozhraní by mělo podporovat mnoho různých jazyků, ideálně všechny, které podporuje současná verze Epitranu; mělo by také umožňovat budoucí rozšíření o další jazyky. Pro každý podporovaný jazyk by mělo zvládat obousměrný převod mezi jeho standardním pravopisem a zápisem výslovnosti v mezinárodní fonetické abecedě (IPA). Epitran poskytuje pouze převod ve směru z pravopisu do IPA, opačný směr tedy budete muset doplnit. Navrhněte, implementujte a otestujte algoritmus, který vygeneruje co možná nejlepší převodní tabulku z IPA do psaného jazyka na základě dat a Epitranem podporované transkripce do IPA.

Směrem k Wikislovníku by rozhraní mělo zprostředkovat (přinejmenším) tyto dva úkoly: 1. doplnění výslovnosti do hesla staženého z Wikislovníku a předkládaného uživateli; 2. vyhledávání ve Wikislovníku podle výslovnosti. Ad 1: Hesla ve Wikislovníku mnohdy, ale ne vždy, už obsahují výslovnost slova v IPA. Rozhraní by ji doplnilo do hesel, kde není, popř. k částem hesla, jako jsou vyskloňované resp. vyčasované tvary slova, a navíc by kromě výslovnosti v IPA nabídlo i přibližnou výslovnost zapsanou podle pravopisu jazyka, který si uživatel zvolí. Např. u slova čaj by kromě IPA /t͡ʃaj/ nabídlo v češtině čaj, v angličtině chai nebo chay, v němčině tschai nebo tschaj atd. Ad 2: Uživatel zadá slovo ve zvoleném jazyce, např. české čaj. Rozhraní se pokusí převodem přes IPA vygenerovat zápis obdobné výslovnosti ve všech dalších jazycích, které má pokryté, následně zjistí, zda některé ze zápisů odpovídají názvu hesla ve Wikislovníku, a tato hesla vrátí. Výsledkem může být kromě českého čaj např. turecké çay nebo ruské чай.

Přesnost převodu mezi pravopisem a IPA vhodným způsobem otestujte na datech. Lze k tomu využít hesla Wikislovníku, která už obsahují výslovnost zapsanou v IPA.
References
David R. Mortensen, Patrick Littell, Akash Bharadwaj, Kartik Goyal, Chris Dyer, Lori Levin. 2016. PanPhon: A Resource for Mapping IPA Segments to Articulatory Feature Vectors. In Proceedings of COLING, Osaka, Japan. https://aclanthology.org/C16-1328/

David R. Mortensen, Siddharth Dalmia, Patrick Littell. 2018. Epitran: Precision G2P for Many Languages. In Proceedings of LREC, Miyazaki, Japan. https://aclanthology.org/L18-1429/

Tatu Ylonen. 2022. Wiktextract: Wiktionary as Machine-Readable Structured Data. In Proceedings of LREC, Marseille, France. https://aclanthology.org/2022.lrec-1.140/
 
Charles University | Information system of Charles University | http://www.cuni.cz/UKEN-329.html