Morfologická derivace ve vektorové reprezentaci slov pro angličtinu a češtinu
Thesis title in Czech: | Morfologická derivace ve vektorové reprezentaci slov pro angličtinu a češtinu |
---|---|
Thesis title in English: | Morphological Derivation in Word Embeddings of English and Czech |
Key words: | morfologická derivace;word embeddings;distribuční sémantika;vektorový prostor;čeština;angličtina;přirozený jazyk |
English key words: | morphological derivation;word embeddings;distributional semantics;vector space;Czech;English;natural language |
Academic year of topic announcement: | 2021/2022 |
Thesis type: | Bachelor's thesis |
Thesis language: | |
Department: | Institute of Formal and Applied Linguistics (32-UFAL) |
Supervisor: | Mgr. Silvie Cinková, Ph.D. |
Author: | |
Advisors: | RNDr. Vincent Kríž, Ph.D. |
Guidelines |
Práce je koncipována jako experiment v počítačové lingvistice. Teoreticky je zakotvena v Distribuční hypotéze a Transformační teorii Z. S. Harrise (Harris, 1970) a v jazykovém formalismu Universal Dependencies (Agic et al., 2015). Navazuje na ročníkovou práci I. Krškové, která extrahovala informaci o morfoderivačních vztazích mezi slovy z dostupného slovníku CELEX2 (Baayen et al., 1995) pro angličtinu. Plánovaná práce bude tyto vztahy extrahovat pro češtinu ze zdroje DeriNet (Ševčíková et al., 2016). Dvojice slov spojené morfoderivačním vztahem student použije v syntaktických transformacích podle Z.S. Harrise. Tyto transformace implementuje v již dostupném modulu Udapi (Popel et al., 2017) a extrahuje výchozí i cílový pár slov včetně značky jejich syntaktické závislosti v UD pro trénování vektorového modelu. Základ implementace transformačních pravidel byl již položen v ročníkové práci I. Krškové - transformační pravidla jsou napsána pro angličtinu. V navazující bakalářské práci bude patrně možné některá z těchto pravidel aplikovat i na češtinu, avšak patrně budou potřeba i specificky česká pravidla. Student extrahovanými páry slov s jejich syntaktických závislostmi obohatí vektorové reprezentace slov ve vektorovém modelu word2vecf (Goldberg and Levy, 2014) a porovná úspěšnost obohaceného modelu s výchozím stavem dokumentovaným ve Vulić et al. 2017. Porovnání provede pomocí Spearmanovy korelace mezi cosinovou podobností výsledných vektorů ve vektorovém modelu s lidským hodnocením sémantické podobnosti slov v párech. K evaluaci použije evaluační datový soubor SimLex999 (Hill et al., 2015) a WordSim353 (Finkelstein et al. 2002) pro angličtinu a WordSim-CZ (Cinková, 2016) pro češtinu. Součástí práce je také intrinsická evaluace transformací, alespoň 150 položek pro každou transformaci a směr, v každém jazyce, jakož i výběr a použití vhodného českého korpusu pro trénování českých vektorových reprezentací. Pro češtinu je případně možné porovnat slovník DeriNet s nástrojem Deriv (Osolsobě, 2009), a ukázal-li by se nástroj Deriv pro úlohu vhodnějším, vyměnit DeriNet za Deriv. |
References |
- Agic, Zeljko, Maria Aranzabe, Aitziber Atutxa, Cristina Bosco, Jinho Choi, Marie-
Catherine de Marneffe, Timothy Dozat, et al. 2015. Universal Dependencies 1.1. Praha, Czechia: LINDAT/CLARIN digital library at Institute of Formal and Applied Linguistics, Charles University in Prague. - Baayen, R, R Piepenbrock, and L Gulikers. 1995. CELEX2, LDC96L14. Web download, Linguistic Data Consortium, Philadelpha, PA. - Harris, Z. S. (1970) Papers in Structural and Transformational Linguistics. Formal Linguistics series. Reidel. - Felix Hill, Roi Reichart and Anna Korhonen. 2015. SimLex-999: Evaluating Semantic Models with (Genuine) Similarity Estimation. 2014. Computational Linguistics. 2015 - Levy, O. and Goldberg, Y. (2014) Dependency-Based Word Embeddings. Proceedings of the 52nd Annual Meeting of the Association for Computational Linguistics 2 - Lieber, R., and P. Stekauer. 2014. The Oxford Handbook of Derivational Morphology. Oxford: Oxford Univ. Press. - Vulic, I. and Schwartz, R. and Rappoport, A. and Reichart, R. and Korhonen, A. (2017) Automatic selection of context configurations for improved (and fast) class-specific word representations. CoNLL 2017 - Popel, Martin, Zdenek Zabokrtsky, and Martin Vojtek. 2017. Udapi: Universal API for Universal Dependencies. In NoDaLiDa 2017 Workshop on Universal Dependencies, 96101. Goteborg, Sweden: Goteborgs universitet. - Ševčíková Magda, Žabokrtský Zdeněk, Vidra Jonáš, Straka Milan: Lexikální síť DeriNet: elektronický zdroj pro výzkum derivace v češtině. In: Časopis pro moderní filologii, Vol. 98, No. 1, Copyright © Filozofická fakulta, Univerzita Karlova v Praze, Praha, ČR, ISSN 0008-7386, pp. 62-76, Sep 2016 - Vidra Jonáš, Žabokrtský Zdeněk, Ševčíková Magda, Straka Milan: DeriNet verze 1.2. Data/software, LINDAT/CLARIN, Praha, ČR, http://ufal.mff.cuni.cz/derinet, Oct 2016 Ševčíková Magda, Žabokrtský Zdeněk: Lexikální síť DeriNet. Talk, seminář Ústavu anglického jazyka a didaktiky, Prague, Czech Republic, Jan 2015 - Lev Finkelstein, Evgeniy Gabrilovich, Yossi Matias, Ehud Rivlin, Zach Solan, Gadi Wolfman, and Eytan Ruppin, "Placing Search in Context: The Concept Revisited", ACM Transactions on Information Systems, 20(1):116-131, January 2002 - Cinková Silvie: WordSim353 for Czech. In: Lecture Notes in Computer Science, No. 9924, Text, Speech, and Dialogue: 19th International Conference, TSD 2016, Copyright © Springer International Publishing, Cham / Heidelberg / New York / Dordrecht / London, ISBN 978-3-319-45509-9, ISSN 0302-9743, pp. 190-197, 2016 - OSOLSOBĚ, Klára. Deriv - nástroj pro automatické vyhledávání slovotvorných vztahů (Deriv - the Word Derivation Tool). In Přednášky a besedy ze XLII. běhu LŠSS. 1. vyd. Brno: Masarykova Univerzita, 2009. p. 132-137, 6 pp. ISBN 978-80-210-4874-4. |