Thesis (Selection of subject)Thesis (Selection of subject)(version: 385)
Thesis details
   Login via CAS
N-gramový jazykový model pro český spellchecker
Thesis title in Czech: N-gramový jazykový model pro český spellchecker
Thesis title in English: N-gram language model for a Czech spellchecker
Academic year of topic announcement: 2007/2008
Thesis type: Bachelor's thesis
Thesis language: čeština
Department: Institute of Formal and Applied Linguistics (32-UFAL)
Supervisor: Mgr. Bc. Pavel Straňák, Ph.D.
Author: hidden - assigned and confirmed by the Study Dept.
Date of registration: 10.12.2007
Date of assignment: 29.01.2008
Date and time of defence: 09.09.2008 00:00
Date of electronic submission:09.09.2008
Date of submission of printed version:09.09.2008
Date of proceeded defence: 09.09.2008
Opponents: doc. RNDr. Ondřej Bojar, Ph.D.
 
 
 
Guidelines
Student má za úkol napsat rozšíření ke spellcheckeru, které dokáže najít překlepy, jež jsou zároveň platnými českými slovy. K tomuto úkolu bude použito n-gramového jazykového modelu češtiny, který student sám sestaví. Součástí práce bude i jednoduchá webová aplikace, která zkontroluje uživatelem vložený text pomocí spellcheckeru s naprogramovaným rozšířením.
References
Kenneth Church; Ted Hart; Jianfeng Gao: Compressing Trigram Language Models With Golomb Coding (www.aclweb.org/anthology-new/D/D07/D07-1021.pdf)
- viz také "Bloomův Filter" pro efektivní reprezentaci velkých množin (článek na EMNLP 2007, CPAN)
Christopher D. Manning, Hinrich Schutze: Foundations of Statistical Natural Language Processing, MIT Press, 1999
Preliminary scope of work
N-gramový jazykový model pro český spellchecker, který najde překlepy, jež jsou zároveň platnými českými slovy.
Preliminary scope of work in English
N-gram language model integrated into a spellchecker can identify spelling errors that result in correct words of a language.
 
Charles University | Information system of Charles University | http://www.cuni.cz/UKEN-329.html