Thesis (Selection of subject)

Your browser does not support JavaScript, or its support is disabled. Some features may not be available.

N-gramový jazykový model pro český spellchecker

Thesis title in Czech:	N-gramový jazykový model pro český spellchecker
Thesis title in English:	N-gram language model for a Czech spellchecker
Academic year of topic announcement:	2007/2008
Thesis type:	Bachelor's thesis
Thesis language:	čeština
Department:	Institute of Formal and Applied Linguistics (32-UFAL)
Supervisor:	Mgr. Bc. Pavel Straňák, Ph.D.
Author:	hidden - assigned and confirmed by the Study Dept.
Date of registration:	10.12.2007
Date of assignment:	29.01.2008
Date and time of defence:	09.09.2008 00:00
Date of electronic submission:	09.09.2008
Date of submission of printed version:	09.09.2008
Date of proceeded defence:	09.09.2008
Opponents:	doc. RNDr. Ondřej Bojar, Ph.D.

Guidelines

Student má za úkol napsat rozšíření ke spellcheckeru, které dokáže najít překlepy, jež jsou zároveň platnými českými slovy. K tomuto úkolu bude použito n-gramového jazykového modelu češtiny, který student sám sestaví. Součástí práce bude i jednoduchá webová aplikace, která zkontroluje uživatelem vložený text pomocí spellcheckeru s naprogramovaným rozšířením.

References

Kenneth Church; Ted Hart; Jianfeng Gao: Compressing Trigram Language Models With Golomb Coding (www.aclweb.org/anthology-new/D/D07/D07-1021.pdf)
- viz také "Bloomův Filter" pro efektivní reprezentaci velkých množin (článek na EMNLP 2007, CPAN)
Christopher D. Manning, Hinrich Schutze: Foundations of Statistical Natural Language Processing, MIT Press, 1999

Preliminary scope of work

N-gramový jazykový model pro český spellchecker, který najde překlepy, jež jsou zároveň platnými českými slovy.

Preliminary scope of work in English

N-gram language model integrated into a spellchecker can identify spelling errors that result in correct words of a language.