hidden - assigned and confirmed by the Study Dept.
Date of registration:
10.12.2007
Date of assignment:
29.01.2008
Date and time of defence:
09.09.2008 00:00
Date of electronic submission:
09.09.2008
Date of submission of printed version:
09.09.2008
Date of proceeded defence:
09.09.2008
Opponents:
doc. RNDr. Ondřej Bojar, Ph.D.
Guidelines
Student má za úkol napsat rozšíření ke spellcheckeru, které dokáže najít překlepy, jež jsou zároveň platnými českými slovy. K tomuto úkolu bude použito n-gramového jazykového modelu češtiny, který student sám sestaví. Součástí práce bude i jednoduchá webová aplikace, která zkontroluje uživatelem vložený text pomocí spellcheckeru s naprogramovaným rozšířením.
References
Kenneth Church; Ted Hart; Jianfeng Gao: Compressing Trigram Language Models With Golomb Coding (www.aclweb.org/anthology-new/D/D07/D07-1021.pdf)
- viz také "Bloomův Filter" pro efektivní reprezentaci velkých množin (článek na EMNLP 2007, CPAN)
Christopher D. Manning, Hinrich Schutze: Foundations of Statistical Natural Language Processing, MIT Press, 1999
Preliminary scope of work
N-gramový jazykový model pro český spellchecker, který najde překlepy, jež jsou zároveň platnými českými slovy.
Preliminary scope of work in English
N-gram language model integrated into a spellchecker can identify spelling errors that result in correct words of a language.