Cílem je seznámit posluchače se základními pojmy z formální lingvistiky
a se základy pravděpodobnostních a statistických metod pro jazykové
modelování. Pokračování tématiky lze nalézt ve Statistickém modelování
přirozených jazyků II (v LS).
Poslední úprava: T_UFAL (20.05.2004)
Introduction to formal linguistics and the fundamentals of statistical
natural language processing, including basics of Infromation Theory,
Language MOdeling and Markov Models. Continues as Statistical Methods in
Natural Language Processing II.
Podmínky zakončení předmětu -
Poslední úprava: prof. RNDr. Jan Hajič, Dr. (28.09.2020)
Odevzdání úkolů (66,7 %), absolvování písemné zkoušky (33,3 %). Zápočet není podmínka konání zkoušky. Podmínkou udělení zápočtu je získat z úkolů alespoň 80 bodů ze 200. Úkol lze odevzdat opakovaně nejvýše dvakrát (celkem třikrát) do termínu uvedeného na webových stránkách předmětu; každý další den do 10 dnů po termínu se odečítá 5 bodů z hodnocení. Odevzdání po deseti dnech po termínu znamená redukci bodů o 50.
Poslední úprava: prof. RNDr. Jan Hajič, Dr. (28.09.2020)
Turning in both homeworks (66,7 %), written exam (33,3 %). "Zápočet" is not a prerequisite for taking the exam. To get "zápočet", homework grade total must be at least 80 points (out of 200). Homework can be turned in max. three times, at the latest on the date announced on the course webpage. Every late day subtracts 5 points. Turning in the homework later than 10 days after the deadline, carries a constant penalty of 50 points.
Literatura -
Poslední úprava: prof. RNDr. Jan Hajič, Dr. (28.09.2020)
Manning, C. D. and H. Schütze: Foundations of Statistical Natural Language Processing. The MIT Press. 1999. ISBN 0-262-13360-1.
Jurafsky, D. and J. Martin: Speech and Language Processing. Prentice Hall. Any edition (1st: 2000).
Cover, T. M. and J. A. Thomas: Elements of Information Theory. Wiley. 1991. ISBN 0-471-06259-6.
Poslední úprava: prof. RNDr. Jan Hajič, Dr. (28.09.2020)
Manning, C. D. and H. Schütze: Foundations of Statistical Natural Language Processing. The MIT Press. 1999. ISBN 0-262-13360-1.
Jurafsky, D. and J. Martin: Speech and Language Processing. Prentice Hall. Any edition (1st: 2000).
Cover, T. M. and J. A. Thomas: Elements of Information Theory. Wiley. 1991. ISBN 0-471-06259-6.
Požadavky ke zkoušce -
Poslední úprava: prof. RNDr. Jan Hajič, Dr. (28.09.2020)
Zkouška je písemná a skládá se z 4-5 otázek, z nichž každá má podotázky. Rozsah zkoušky odpovídá sylabu, tj. odpřednesené látce. Zkouška trvá 60 minut čistého času a je dovoleno mít k ruce učebnici nebo kopie slajdů k přednášce nebo používat internet, je možno mít kalkulátor. Zkouška je hodnocena 0-100 body. Váha zkoušky pro celkové hodnocení je 33,3 %. Zkouška může být provedena v online režimu.
Poslední úprava: prof. RNDr. Jan Hajič, Dr. (28.09.2020)
There is one written exam, with 4-5 questions with sub-questions. The extent of the exam corresponds to the syllabus and to the material presented in the lectures and exercises. The net time allowed for finishing the exam is 60 minutes, and it is an open books type exam. Calculators are allowed. The grading is on the scale of 0 to 100 points. The weight of the points for the final grade is 33,3 %. The exam may be administered online.
Sylabus -
Poslední úprava: prof. RNDr. Jan Hajič, Dr. (28.09.2020)
Úvod a motivace
Základní pojmy z teorie pravděpodobnosti a teorie informace
Jazykové modelování; metody vyhlazování
Základy lexikografie a třídy slov. Lexikografická definince vzájemné informace, použití t-testu a X2 testu. Základní algoritmus budování hierarchie tříd podobnosti slov z hlediska jazykového modelování; otázky efektivnosti algoritmu.
Skryté Markovovy modely (HMM). Trellis jako základní datová struktura, Viterbiho algoritmus. Odhady parametrů velkých modelů, řízené a neřízené učení, použití EM algoritmu (Forward-backward, Baum-Welch).
Poslední úprava: prof. RNDr. Jan Hajič, Dr. (28.09.2020)
Introduction. Course Overview: Intro to NLP. Main Issues.
The Very Basics on Probability Theory. Elements of Information Theory I. Elements of Information Theory II.
Language Modeling in General and the Noisy Channel Model. Smoothing and the EM algorithm.
Word Classes and Lexicography. Mutual Information (the "pointwise" version). The t-score. The Chi-square test. Word Classes for NLP tasks. Parameter Estimation. The Partitioning Algorithm. Complexity Issues of Word Classes. Programming Tricks & Tips.
Markov models, Hidden Markov Models (HMMs). The Trellis & the Viterbi Algorithms. Estimating the Parameters of HMMs. The Forward-Backward Algorithm. Implementation Issues.