Přednáška navazuje na Statistické metody zpracování přirozených jazyků
I. Seznámí posluchače s pokročilejšími úlohami statistického zpracování
přirozeného jazyka (diskriminativní a generativní modely, tagging,
složkový a závislostní parsing), s prováděním a vyhodnocováním
experimentů v úlohách zpracování přirozeného jazyka obecně, a s
používáním a budováním korpusů pro účely statistického zpracování
jazyka.
Poslední úprava: T_UFAL (13.05.2014)
Continuation of Statistical Methods in Natural Language Processing I.
Introduces the notion of linguistic experiment and its evaluation. The
role of corpora in statistical NLP. Standard NLP tasks (tagging,
phrase-structure and dependency parsing, generative and discriminative
models) are explained and methods presented.
Podmínky zakončení předmětu -
Poslední úprava: prof. RNDr. Jan Hajič, Dr. (02.03.2021)
Odevzdání jednoho úkolu (50 % známky), absolvování písemné zkoušky (50 %). Zápočet není podmínka konání zkoušky. Podmínkou udělení zápočtu je odevzdat úkol s nenulovým ohodnocením. Úkoly lze odevzdat opakovaně nejvýše dvakrát (celkem třikrát) do termínu uvedeného na webových stránkách předmětu; každý další den do 10 dnů po termínu se odečítá 5 bodů z hodnocení. Odevzdání po deseti dnech po termínu znamená redukci bodů o 50.
Poslední úprava: prof. RNDr. Jan Hajič, Dr. (02.03.2021)
Turning in one homework (50% of the grade), written exam (50%). "Zápočet" is not a prerequisite for taking the exam. To get "zápočet", homework grade must be at least 1 point (out of 100). Homework can be turned in max. three times, at the latest on the date announced on the course webpage. Every late day subtracts 5 points. Turning in the homework later than 10 days after the deadline, carries a constant penalty of 50 points.
Literatura -
Poslední úprava: prof. RNDr. Jan Hajič, Dr. (02.03.2021)
Manning, C. D. and H. Schütze: Foundations of Statistical Natural Language Processing . The MIT Press. 1999. ISBN 0-262-13360-1.
Wall, L., Christiansen, T. and R. L. Schwartz: Programming PERL. O'Reilly. 1996. ISBN 1-56592-149-6.
Charniak, E.: Statistical Language Learning. The MIT Press. 1996. ISBN 0-262-53141-0.
Jelinek, F.: Statistical Methods for Speech Recognition. The MIT Press. 1998. ISBN 0-262-10066-5.
McDonald, R. et al.: Non-projective dependency parsing using spanning tree algorithms. 2005. EMNLP conference proceedings, s. 523-530.
Sborníky z hlavních světových konferencí: ACL (vč. EMNLP/CoNLL), COLING.
Poslední úprava: prof. RNDr. Jan Hajič, Dr. (02.03.2021)
Manning, C. D. and H. Schütze: Foundations of Statistical Natural Language Processing . The MIT Press. 1999. ISBN 0-262-13360-1.
Wall, L., Christiansen, T. and R. L. Schwartz: Programming PERL. O'Reilly. 1996. ISBN 1-56592-149-6.
Charniak, E.: Statistical Language Learning. The MIT Press. 1996. ISBN 0-262-53141-0.
Jelinek, F.: Statistical Methods for Speech Recognition. The MIT Press. 1998. ISBN 0-262-10066-5.
McDonald, R. et al.: Non-projective dependency parsing using spanning tree algorithms. 2005. EMNLP conference proceedings, s. 523-530.
Sborníky z hlavních světových konferencí: ACL (vč. EMNLP/CoNLL), COLING.
Sylabus -
Poslední úprava: prof. RNDr. Jan Hajič, Dr. (02.03.2021)
Úvod a motivace, opakování
Vyhodnocování experimentů. Základní pojmy: recall, precision, accuracy, F-measure. Trénovací vs. testovací data. Použití křížové entropie a perplexity pro vyhodnocování v případech modelů částí systémů.
Značkování (diskrétní klasifikace). Typické případy: morfologické značkování. Algoritmy morfologické analýzy a syntézy. Metody značkování vč. nestatistických. Statistické značkování: transformation-based learning (TBL), značkování pomocí skrytých Markovových modelů, a značkování pomocí "feature-based" systemů a metody maximální entropie.
Syntaktická analýza (parsing). Statistické vs. nestatistické metody. Shift-reduce parsing pomocí tabulek. Pravděpodobnostní bezkontextové gramatiky (PCFG) a modely na nich založené. Odhad parametrů PCFG. Závislostní parsing.
Přehled metod statistického strojového překladu.
Poslední úprava: prof. RNDr. Jan Hajič, Dr. (02.03.2021)
The task of Tagging. Tagsets, Morphology, Lemmatization. Morphological Analysis and Generation. Tagging methods. Manually designed Rules and Grammars. Statistical Methods (overview). HMM Tagging (Supervised, Unsupervised). Statistical Transformation Rule-Based Tagging.
Introduction to Parsing. Generative Grammars. Properties of Regular and Context-free Grammars. Non-statistical Parsing Algorithms (An Overview). Simple top-down parser with backtracking. Shift-reduce parser. Treebanks and Treebanking. Evaluation of Parsers.
Probabilistic Parsing. Introduction. PCFG Parameter Estimation. PCFG: Best parse. Probability of a string. Lexicalized PCFG. Dependency parsing.
Statistical Machine Translation (MT). Alignment and Parameter Estimation for MT.