Student má za úkol napsat rozšíření ke spellcheckeru, které dokáže najít překlepy, jež jsou zároveň platnými českými slovy. K tomuto úkolu bude použito n-gramového jazykového modelu češtiny, který student sám sestaví. Součástí práce bude i jednoduchá webová aplikace, která zkontroluje uživatelem vložený text pomocí spellcheckeru s naprogramovaným rozšířením.
Seznam odborné literatury
Kenneth Church; Ted Hart; Jianfeng Gao: Compressing Trigram Language Models With Golomb Coding (www.aclweb.org/anthology-new/D/D07/D07-1021.pdf)
- viz také "Bloomův Filter" pro efektivní reprezentaci velkých množin (článek na EMNLP 2007, CPAN)
Christopher D. Manning, Hinrich Schutze: Foundations of Statistical Natural Language Processing, MIT Press, 1999
Předběžná náplň práce
N-gramový jazykový model pro český spellchecker, který najde překlepy, jež jsou zároveň platnými českými slovy.
Předběžná náplň práce v anglickém jazyce
N-gram language model integrated into a spellchecker can identify spelling errors that result in correct words of a language.