Thesis (Selection of subject)Thesis (Selection of subject)(version: 385)
Thesis details
   Login via CAS
Morphological segmentation of Czech Words
Thesis title in Czech: Morfologická segmentace českých slov
Thesis title in English: Morphological segmentation of Czech Words
Key words: morfém, morfologie, segmentace, stemming
English key words: morpheme, morphology, segmentation, stemming
Academic year of topic announcement: 2017/2018
Thesis type: diploma thesis
Thesis language: angličtina
Department: Institute of Formal and Applied Linguistics (32-UFAL)
Supervisor: prof. Ing. Zdeněk Žabokrtský, Ph.D.
Author: hidden - assigned and confirmed by the Study Dept.
Date of registration: 05.04.2018
Date of assignment: 05.04.2018
Confirmed by Study dept. on: 09.05.2018
Date and time of defence: 11.09.2018 00:00
Date of electronic submission:21.08.2018
Date of submission of printed version:20.07.2018
Date of proceeded defence: 11.09.2018
Opponents: RNDr. David Mareček, Ph.D.
 
 
 
Guidelines
V lingvistice se používá pojem morfému jako nejmenší jazykové jednotky, z níž se skládají slova a která nese sémantickou nebo syntaktickou informaci [1]. Existuje několik segmentačních nástrojů využívajících neřízené strojové učení, např. Morfessor [1] a Affisix [3]. Jejich výhodou je univerzální použitelnost napříč jazyky, nevýhodou je, že výstup nemusí odpovídat lingvistické představě o morfémech v daném jazyce. Cílem diplomové práce je navrhnout a implementovat postup, který s využitím metod strojového učení a slovotvorné informace obsažené v síti DeriNet [6] i v existujících morfematických slovnících [5] a [7] nalezne lingvisticky relevantní segmentaci všech lemmat obsažených v DeriNetu.
References
[1] CREUTZ, Mathias; LAGUS, Krista, 2005. Unsupervised morpheme segmentation and morphology induction from text corpora using Morfessor 1.0. In: Unsupervised morpheme segmentation and morphology induction from text corpora using Morfessor 1.0. Technical Report A81, Publications in Computer and Information Science. Helsinki University of Technology.
[2] DOKULIL, Miloš, 1962. Tvoření slov v češtině 1. Teorie odvozování slov. Nakladatelství Československé akademie věd.
[3] HRUŠECKÝ, Michal, 2008. České předpony. Praha, Česká Republika. Diplomová práce. Univerzita Karlova. Vedoucí práce Jaroslava HLAVÁČOVÁ.
[4] KOSKENNIEMI, Kimmo, 1983. Two-level Morphology: A General Computational Model for Word-Form Recognition and Production. ISBN 951-45-3201-5. ISSN 0355-7170. Disertační práce. Department of General Linguistics, University of Helsinki.
[5] SLAVÍČKOVÁ, Eleonora, 1975. Retrográdní morfematický slovník češtiny. Academia.
[6] ŠEVČÍKOVÁ, Magda; ŽABOKRTSKÝ, Zdeněk, 2014. Word-Formation Network for Czech. Proceedings of LREC 2014.
[7] ŠIŠKA, Zbyněk, 1998. Bázový morfematický slovník češtiny. Univerzita Palackého v Olomouci. ISBN 80-7067-885-2.
 
Charles University | Information system of Charles University | http://www.cuni.cz/UKEN-329.html