Témata prací (Výběr práce)

Váš prohlížeč nepodporuje JavaScript nebo je jeho podpora vypnutá. Některé funkce nemusejí být dostupné.

N-gramový jazykový model pro český spellchecker

Název práce v češtině:	N-gramový jazykový model pro český spellchecker
Název v anglickém jazyce:	N-gram language model for a Czech spellchecker
Akademický rok vypsání:	2007/2008
Typ práce:	bakalářská práce
Jazyk práce:	čeština
Ústav:	Ústav formální a aplikované lingvistiky (32-UFAL)
Vedoucí / školitel:	Mgr. Bc. Pavel Straňák, Ph.D.
Řešitel:	skrytý - zadáno a potvrzeno stud. odd.
Datum přihlášení:	10.12.2007
Datum zadání:	29.01.2008
Datum a čas obhajoby:	09.09.2008 00:00
Datum odevzdání elektronické podoby:	09.09.2008
Datum odevzdání tištěné podoby:	09.09.2008
Datum proběhlé obhajoby:	09.09.2008
Oponenti:	doc. RNDr. Ondřej Bojar, Ph.D.

Zásady pro vypracování

Student má za úkol napsat rozšíření ke spellcheckeru, které dokáže najít překlepy, jež jsou zároveň platnými českými slovy. K tomuto úkolu bude použito n-gramového jazykového modelu češtiny, který student sám sestaví. Součástí práce bude i jednoduchá webová aplikace, která zkontroluje uživatelem vložený text pomocí spellcheckeru s naprogramovaným rozšířením.

Seznam odborné literatury

Kenneth Church; Ted Hart; Jianfeng Gao: Compressing Trigram Language Models With Golomb Coding (www.aclweb.org/anthology-new/D/D07/D07-1021.pdf)
- viz také "Bloomův Filter" pro efektivní reprezentaci velkých množin (článek na EMNLP 2007, CPAN)
Christopher D. Manning, Hinrich Schutze: Foundations of Statistical Natural Language Processing, MIT Press, 1999

Předběžná náplň práce

N-gramový jazykový model pro český spellchecker, který najde překlepy, jež jsou zároveň platnými českými slovy.

Předběžná náplň práce v anglickém jazyce

N-gram language model integrated into a spellchecker can identify spelling errors that result in correct words of a language.