Continuation of Statistical Methods in Natural Language Processing I.
Introduces the notion of linguistic experiment and its evaluation. The
role of corpora in statistical NLP. Standard NLP tasks (tagging,
phrase-structure and dependency parsing, generative and discriminative
models) are explained and methods presented.
Last update: T_UFAL (13.05.2014)
Přednáška navazuje na Statistické metody zpracování přirozených jazyků
I. Seznámí posluchače s pokročilejšími úlohami statistického zpracování
přirozeného jazyka (diskriminativní a generativní modely, tagging,
složkový a závislostní parsing), s prováděním a vyhodnocováním
experimentů v úlohách zpracování přirozeného jazyka obecně, a s
používáním a budováním korpusů pro účely statistického zpracování
jazyka.
Course completion requirements -
Last update: prof. RNDr. Jan Hajič, Dr. (02.03.2021)
Turning in one homework (50% of the grade), written exam (50%). "Zápočet" is not a prerequisite for taking the exam. To get "zápočet", homework grade must be at least 1 point (out of 100). Homework can be turned in max. three times, at the latest on the date announced on the course webpage. Every late day subtracts 5 points. Turning in the homework later than 10 days after the deadline, carries a constant penalty of 50 points.
Last update: prof. RNDr. Jan Hajič, Dr. (02.03.2021)
Odevzdání jednoho úkolu (50 % známky), absolvování písemné zkoušky (50 %). Zápočet není podmínka konání zkoušky. Podmínkou udělení zápočtu je odevzdat úkol s nenulovým ohodnocením. Úkoly lze odevzdat opakovaně nejvýše dvakrát (celkem třikrát) do termínu uvedeného na webových stránkách předmětu; každý další den do 10 dnů po termínu se odečítá 5 bodů z hodnocení. Odevzdání po deseti dnech po termínu znamená redukci bodů o 50.
Literature -
Last update: prof. RNDr. Jan Hajič, Dr. (02.03.2021)
Manning, C. D. and H. Schütze: Foundations of Statistical Natural Language Processing . The MIT Press. 1999. ISBN 0-262-13360-1.
Wall, L., Christiansen, T. and R. L. Schwartz: Programming PERL. O'Reilly. 1996. ISBN 1-56592-149-6.
Charniak, E.: Statistical Language Learning. The MIT Press. 1996. ISBN 0-262-53141-0.
Jelinek, F.: Statistical Methods for Speech Recognition. The MIT Press. 1998. ISBN 0-262-10066-5.
McDonald, R. et al.: Non-projective dependency parsing using spanning tree algorithms. 2005. EMNLP conference proceedings, s. 523-530.
Sborníky z hlavních světových konferencí: ACL (vč. EMNLP/CoNLL), COLING.
Last update: prof. RNDr. Jan Hajič, Dr. (02.03.2021)
Manning, C. D. and H. Schütze: Foundations of Statistical Natural Language Processing . The MIT Press. 1999. ISBN 0-262-13360-1.
Wall, L., Christiansen, T. and R. L. Schwartz: Programming PERL. O'Reilly. 1996. ISBN 1-56592-149-6.
Charniak, E.: Statistical Language Learning. The MIT Press. 1996. ISBN 0-262-53141-0.
Jelinek, F.: Statistical Methods for Speech Recognition. The MIT Press. 1998. ISBN 0-262-10066-5.
McDonald, R. et al.: Non-projective dependency parsing using spanning tree algorithms. 2005. EMNLP conference proceedings, s. 523-530.
Sborníky z hlavních světových konferencí: ACL (vč. EMNLP/CoNLL), COLING.
Syllabus -
Last update: prof. RNDr. Jan Hajič, Dr. (02.03.2021)
The task of Tagging. Tagsets, Morphology, Lemmatization. Morphological Analysis and Generation. Tagging methods. Manually designed Rules and Grammars. Statistical Methods (overview). HMM Tagging (Supervised, Unsupervised). Statistical Transformation Rule-Based Tagging.
Introduction to Parsing. Generative Grammars. Properties of Regular and Context-free Grammars. Non-statistical Parsing Algorithms (An Overview). Simple top-down parser with backtracking. Shift-reduce parser. Treebanks and Treebanking. Evaluation of Parsers.
Probabilistic Parsing. Introduction. PCFG Parameter Estimation. PCFG: Best parse. Probability of a string. Lexicalized PCFG. Dependency parsing.
Statistical Machine Translation (MT). Alignment and Parameter Estimation for MT.
Last update: prof. RNDr. Jan Hajič, Dr. (02.03.2021)
Úvod a motivace, opakování
Vyhodnocování experimentů. Základní pojmy: recall, precision, accuracy, F-measure. Trénovací vs. testovací data. Použití křížové entropie a perplexity pro vyhodnocování v případech modelů částí systémů.
Značkování (diskrétní klasifikace). Typické případy: morfologické značkování. Algoritmy morfologické analýzy a syntézy. Metody značkování vč. nestatistických. Statistické značkování: transformation-based learning (TBL), značkování pomocí skrytých Markovových modelů, a značkování pomocí "feature-based" systemů a metody maximální entropie.
Syntaktická analýza (parsing). Statistické vs. nestatistické metody. Shift-reduce parsing pomocí tabulek. Pravděpodobnostní bezkontextové gramatiky (PCFG) a modely na nich založené. Odhad parametrů PCFG. Závislostní parsing.