Thesis (Selection of subject)Thesis (Selection of subject)(version: 390)
Thesis details
   Login via CAS
Identification and analysis of Czech equivalents of German compounds
Thesis title in Czech: Identifikace a analýza českých ekvivalentů německých kompozit
Thesis title in English: Identification and analysis of Czech equivalents of German compounds
Key words: slovotvorba|skládání slov|odvozování|morfologie|syntax|zpracování přirozeného jazyka|paralelní korpus|zarovnání
English key words: word formation|composition|derivation|morphology|syntax|natural language processing|parallel corpus|alignment
Academic year of topic announcement: 2020/2021
Thesis type: Bachelor's thesis
Thesis language: angličtina
Department: Institute of Formal and Applied Linguistics (32-UFAL)
Supervisor: doc. Mgr. Magda Ševčíková, Ph.D.
Author: hidden - assigned and confirmed by the Study Dept.
Date of registration: 21.04.2021
Date of assignment: 21.04.2021
Confirmed by Study dept. on: 04.05.2021
Date and time of defence: 02.07.2021 09:00
Date of electronic submission:27.05.2021
Date of submission of printed version:27.05.2021
Date of proceeded defence: 02.07.2021
Opponents: doc. RNDr. Daniel Zeman, Ph.D.
 
 
 
Advisors: prof. Ing. Zdeněk Žabokrtský, Ph.D.
Guidelines
Kompozice je slovotvorný proces, při kterém se spojením dvou nebo více bází tvoří nové slovo (starý + věk > starověk, klein + Kind > Kleinkind). Kompozice je doložena napříč jazyky, v jednotlivých jazycích ovšem sehrává různě důležitou roli. V němčině je tento slovotvorný proces vysoce produktivní, naopak v češtině je využíván mnohem méně než tvoření slov odvozováním (srov. Wasserleitung : vodovod, Spielplatz : hřiště, Weihnachtsmarkt : vánoční trh).
Cílem bakalářské práce je navrhnout a implementovat automatickou metodu pro identifikaci slov nebo syntaktických frází, které odpovídají německým kompozitům v češtině, a provést jejich lingvistickou analýzu. Identifikace českých protějšků německých kompozit bude vycházet z dostupných zdrojů jazykových dat, zvl. lexikálních databází a textových korpusů (GermaNet, CELEX, DeriNet, OPUS, InterCorp) a bude realizována s využitím nástrojů pro zpracování přirozeného jazyka (FastAlign, UDPipe ad.). V navazující analýze budou české protějšky klasifikovány podle typu, pozornost bude věnována jejich slovnědruhovému zařazení a morfematické struktuře, případně syntaktické struktuře frází a také frekvenčním vlastnostem českých protějšků.
References
Baayen, H. R. et al.: CELEX2. Linguistic Data Consortium, Catalogue No. LDC96L14. Philadelphia 1995.
Barz, I.: German. In P. O. Müller et al., Word-Formation. An International Handbook of the Languages of Europe, Vol. 4. Berlin: Mouton de Gruyter 2016, pp. 2387–2410.
Bozděchová, I.: Tvoření slov skládáním. Praha: ISV 1994.
Čermák, F. – Rosen, A.: The case of InterCorp, a multilingual parallel corpus. International Journal of Corpus Linguistics 13:3, 2012, pp. 411–427.
Dokulil, M.: Tvoření slov v češtině 1: Teorie odvozování slov. Praha: Nakl. ČSAV 1962.
Dyer, C.: A Simple, Fast, and Effective Reparameterization of IBM Model 2. In Proceedings of NAACL-HLT 2013. Atlanta 2013, pp. 644–648.
Henrich, V. – Hinrichs, E.: Determining Immediate Constituents of Compounds in GermaNet. In Proceedings of Recent Advances in Natural Language Processing (RANLP 2011). Hissar 2011, pp. 420–426.
Straka, M. et al.: UDPipe at SIGMORPHON 2019: Contextualized Embeddings, Regularization with Morphological Categories, Corpora Merging. In Proceedings of the 16th SIGMORPHON Workshop on Computational Research in Phonetics, Phonology, and Morphology. Stroudsburg 2019, pp. 95-103.
Ševčíková, M. – Žabokrtský, Z.: Word-Formation Network for Czech. In Proceedings of the 9th International Conference on Language Resources and Evaluation (LREC 2014). Reykjavík 2014, pp. 1087–1093.
Štekauer, P. et al.: Word-Formation in the World’s Languages. Cambridge: CUP 2012.
Tiedemann, J.: Parallel Data, Tools and Interfaces in OPUS. In Proceedings of the 8th International Conference on Language Resources and Evaluation (LREC 2012). Istanbul 2012, pp. 2214–2218.
 
Charles University | Information system of Charles University | http://www.cuni.cz/UKEN-329.html