Morphological Segmentation in Czech using Word-Formation Network
Thesis title in Czech: | Morfologická segmentace v češtině s využitím slovotvorné sítě |
---|---|
Thesis title in English: | Morphological Segmentation in Czech using Word-Formation Network |
Key words: | morfém, morfologie, segmentace |
English key words: | morpheme, morphology, segmentation |
Academic year of topic announcement: | 2019/2020 |
Thesis type: | diploma thesis |
Thesis language: | angličtina |
Department: | Institute of Formal and Applied Linguistics (32-UFAL) |
Supervisor: | prof. Ing. Zdeněk Žabokrtský, Ph.D. |
Author: | hidden![]() |
Date of registration: | 19.05.2020 |
Date of assignment: | 19.05.2020 |
Confirmed by Study dept. on: | 21.07.2020 |
Date and time of defence: | 14.09.2020 09:00 |
Date of electronic submission: | 30.07.2020 |
Date of submission of printed version: | 30.07.2020 |
Date of proceeded defence: | 14.09.2020 |
Opponents: | RNDr. Jiří Hana, Ph.D. |
Guidelines |
Tématem práce je automatická morfologická segmentace českých slov. Cílem je vytvořit algoritmus, který bude dělit základní tvary slov (lemmata) na morfémy - nejmenší jazykové jednotky nesoucí význam [1]. Student navrhne a implementuje postup, který umožní zkombinovat využití slovotvorné informace obsažené v databázi DeriNet [2] a v dalších ručně označkovaných datech s moderními metodami strojového učení [3], vyhodnotí celkovou úspěšnost a srovná ji s výsledky již publikovanými pro češtinu [4]. |
References |
[1] Miroslav Dokulil: Tvoření slov v češtině 1: Teorie odvozování slov, Nakladatelství Československé Akademie Věd, Praha, 1962.
[2] Jonáš Vidra, Zdeněk Žabokrtský, Magda Ševčíková, Lukáš Kyjánek: DeriNet 2.0: Towards an All-in-One Word-Formation Resource. In: Proceedings of the Second International Workshop on Resources and Tools for Derivational Morphology (DeriMo 2019), pp. 81-89, ÚFAL MFF UK, Praha, 2019. [3] Ian Goodfellow and Yoshua Bengio and Aaron Courville: Deep Learning, MIT Press, 2016. [4] Jonáš Vidra: Morphological segmentation of Czech Words. Diplomová práce, MFF UK, 2018. |