Klasifikátor pro sémantické vzory užívání anglických sloves
Název práce v jazyce práce (slovenština): | Klasifikátor pro sémantické vzory užívání anglických sloves |
---|---|
Název práce v češtině: | Klasifikátor pro sémantické vzory užívání anglických sloves |
Název v anglickém jazyce: | Classifier for semantic patterns of English verbs |
Klíčová slova: | lexikálna sémantika, anglické slovesá, strojové učenie, automatická klasifikácia, Corpus Pattern Analysis, Word Sense Disambiguation |
Klíčová slova anglicky: | lexical semantics, English verbs, machine learning, automatic classification, Corpus Pattern Analysis, Word Sense Disambiguation |
Akademický rok vypsání: | 2011/2012 |
Typ práce: | diplomová práce |
Jazyk práce: | slovenština |
Ústav: | Ústav formální a aplikované lingvistiky (32-UFAL) |
Vedoucí / školitel: | RNDr. Martin Holub, Ph.D. |
Řešitel: | skrytý - zadáno a potvrzeno stud. odd. |
Datum přihlášení: | 22.11.2011 |
Datum zadání: | 28.11.2011 |
Datum potvrzení stud. oddělením: | 07.12.2011 |
Datum a čas obhajoby: | 10.05.2012 13:00 |
Datum odevzdání elektronické podoby: | 11.04.2012 |
Datum odevzdání tištěné podoby: | 12.04.2012 |
Datum proběhlé obhajoby: | 10.05.2012 |
Oponenti: | doc. RNDr. Ondřej Bojar, Ph.D. |
Zásady pro vypracování |
Metoda CPA (z angl. Corpus Pattern Analysis) je důsledně korpusová, empirická metoda, která analyzuje typické vzory užívání slov v jazykovém korpusu a popisuje význam sloves pomocí kontextových preferencí definovaných jak syntakticky, tak sémanticky [3]. V současné době pomocí CPA a s využitím Britského národního korpusu (BNC) vzniká Slovník vzorů užívání anglických sloves (PDEV, z angl. Pattern Dictionary of English Verbs) [1, 3, 6]. V rámci tohoto projektu bylo již zkompilováno téměř 600 anglických sloves, která pokrývají cca 10% slovesných výskytů v BNC. Vedle slovníkových hesel obsahujících definici typických vzorů užívání sloves jsou též veřejně dostupná rozsáhlá korpusová data se slovesy označkovanými podle PDEV [3]. Nedílnou součástí CPA je empiricky vybudovaný systém sémantických typů [2, 3]. Kombinací sémantických typů a syntaxe metoda CPA originálním způsobem konkuruje tradičním přístupům k automatickému rozpoznávání významu sloves [4].
Diplomová práce má analyzovat a co nejlépe využít dostupná data o typických vzorech užívání anglických sloves [7, 8] pro konstrukci automatického klasifikátoru. Cílem práce je navrhnout, implementovat a empiricky evaluovat klasifikátor pro rozpoznání sémantických vzorů užívání anglických sloves. Mimo jiné se předpokládá rozpoznávání lexikálních jednotek realizujících jednotlivé sémantické typy v BNC, využití automatického parsingu angličtiny a metod strojového učení [4, 5]. |
Seznam odborné literatury |
[1] Hanks, Patrick, and James Pustejovsky: A Pattern Dictionary for Natural Language Processing. In Revue Francaise de linguistique appliquée, 10:2, 2005.
[2] Hanks Patrick, Karel Pala and Pavel Rychly: Towards an empirically well-founded ontology for NLP. In Proceedings of the 4th International Workshop on Generative Approaches to the Lexicon, Paris, 2007. [3] Webové stránky mezinárodního projektu CPA. http://nlp.fi.muni.cz/projekty/cpa/. [4] Agirre, E. and Edmonds, P. (eds.): Word Sense Disambiguation: Algorithms and Applications. Springer, 2007. (vybrané kapitoly) [5] Daniel Jurafsky and James H. Martin: SPEECH and LANGUAGE PROCESSING. An Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition. Prentice Hall, 2009. (vybrané kapitoly) [6] Cinková, S. and Hanks, P.: Validation of Corpus Pattern Analysis - Assigning pattern numbers to random verb samples. 2010. Available at http://nlp.fi.muni.cz/projekty/cpa/. [7] Cinková, Silvie; Holub, Martin; Rychlý, Pavel; Smejkalová, Lenka; Šindlerová, Jana: Can Corpus Pattern Analysis Be Used in NLP? In Sojka, Petr; Horák, Aleš; Kopeček, Ivan; Pala, Karel: Text, Speech and Dialogue. Proceedings of the 13th International Conference, TSD 2010, Brno, Czech Republic. Springer, Berlin/Heidelberg, 2010. [8] Smejkalová, L.: Typické vzory užívání anglických sloves. Diplomová práce, MFF UK, Praha 2010. |