The main goal of the course is to introduce basic types of natural language processing (NLP)
applications and to give the students a chance to work with some of those applications in seminars.
The course will concern machine translation, machine aided human translation tools, localization
tools, information retrieval and extraction, question answering, speech recognition, spelling and
grammar checking, generation etc.
Last update: T_UFAL (10.05.2010)
Cílem předmětu je seznámit studenty se základními typy aplikací počítačové lingvistiky a dát jim
příležitost si některé z nich vyzkoušet na cvičeních. Jedná se zejména o systémy automatického
překladu a automatizované nástroje na podporu lidského překladu, o lokalizační nástroje, o
vyhledávání a extrakci informací, zodpovídání dotazů, rozpoznávání mluvené řeči, kontrolu
překlepů, kontrolu gramatické správnosti, generování textů v přirozeném jazyce apod.
Course completion requirements
Last update: doc. RNDr. Vladislav Kuboň, Ph.D. (22.04.2020)
The course requires a continuous work of students in the form of reports describing topics of individual lectures. The reports are required even if a student is not present on the lecture, in such a case (s)he submits a general report on the topic of the missed lecture. A participation is strongly recommended. After submitting all reports, the student obtains a grade based upon the quality of those reports.
Literature -
Last update: T_UFAL (10.05.2010)
Handbook of NLP, ed. N.Indurkhya, F.Damerau, CRC Press, 2010.
Foundations of Statistical Natural Language Processing, C. Manning and H. Schütze, MIT Press, 1999.
Last update: T_UFAL (10.05.2010)
Handbook of NLP, ed. N.Indurkhya, F.Damerau, CRC Press, 2010.
Foundations of Statistical Natural Language Processing, C. Manning and H. Schütze, MIT Press, 1999.
Syllabus -
Last update: T_UFAL (10.05.2010)
1. Introduction - an overview of basic application components.
2. Spelling checker
Dictionary based methods vs. checking of illegal combinations of characters, string similarity metrics, communication towards the user.
3. Grammar checking
Error patterns vs. syntactic analysis, types of detectable errors, attitude towards the user, RFODG and LanGR.
4. Machine Assisted human translation
Translation memory and its variants in commercial products, controlled language, glossary hierarchies.
5. Machine Translation
Google Translate vs. rule-based systems commercial systems (Systran, PC Translator), quality evaluation methods, evaluation of translation competitions, project Euromatrix.
6. Localization
Differences between translation and localization, commercial localization tools.
7. Generating
Text generation from tectogrammatical layer.
8. Information retrieval and extraction
Basic models, evaluation metrics, text similarity metrics, lemmatization, stop words, the role of linguistic tools, Malach project.
Exploitation of linguistic methods for searching for information on the web, the role of the tectogrammatical layer.
Last update: T_UFAL (10.05.2010)
1. Úvod - přehled základních komponent aplikací.
2. Kontrola překlepů
Slovníkové metody vs. kontrola neexistujících skupin znaků, metriky pro zjišťování podobnosti řetězců, komunikace s uživatelem.
3. Kontrola gramatické správnosti
Chybové vzorky vs. syntaktická analýza, typy zachytitelných chyb, postoj k uživateli, RFODG a LanGR.
4. Nástroje na podporu lidského překladu
Překladová paměť a varianty jejího použití v komerčních produktech, řízené psaní, hierarchie glosářů.
5. Automatický překlad
Google Translate vs. pravidlové komerční systémy (Systran, PC Translator), metody měření kvality překladu, vyhodnocování překladových soutěží, projekt Euromatrix.
6. Lokalizace
Rozdíly mezi překladem a lokalizací, komerční lokalizační nástroje.
7. Generování
Generování textů z tektogramatické roviny.
8. Vyhledávání a extrakce informací
Základní modely, evaluační metriky, metriky podobnosti textů, lemmatizace, stop slova, role jazykových nástrojů, projekt Malach.
9. Zodpovídání dotazů
Dialogové systémy, multimodální komunikace.
10. Rozpoznávání a syntéza mluvené řeči
Základní problémy, používané algoritmy.
11. Sémantický web
Využití lingvistických metod pro získávání informací z webu, role tektogramatické roviny.