Témata prací (Výběr práce)Témata prací (Výběr práce)(verze: 385)
Detail práce
   Přihlásit přes CAS
Rozšíření paralelního korpusu Czeng
Název práce v češtině: Rozšíření paralelního korpusu Czeng
Název v anglickém jazyce: Enriching the parallel corpus Czeng
Akademický rok vypsání: 2006/2007
Typ práce: ročníková práce
Jazyk práce: čeština
Ústav: Ústav formální a aplikované lingvistiky (32-UFAL)
Vedoucí / školitel: prof. Ing. Zdeněk Žabokrtský, Ph.D.
Řešitel: skrytý - zadáno vedoucím/školitelem
Datum přihlášení: 25.04.2008
Datum zadání: 25.04.2008
Seznam odborné literatury
Bojar, O; Žabokrtský, Z.: CzEng: Czech-English Parallel Corpus, Release version 0.5 PBML 86 (Prague Bulletin of Mathematical Linguistics), 2006.

D. Varga et al.: Parallel Corpora for Medium Density Languages. In N. Nicolov, K. Bontcheva, G. Angelova and R. Mitkov (eds): Recent Advances in Natural Language Processing IV. Selected papers from RANLP-05 John Benjamins.

Specifikace XML, např. http://www.w3.org/XML

Předběžná náplň práce
Student se seznámí s metodami a nástroji pro budování paralelních korpusů
a zaměří se na česko-anglický paralelní korpus Czeng (http://ufal.mff.cuni.cz/czeng/).
Hlavním cílem práce je rozšířit sadu paralelních dokumentů, které jsou v tomto korpusu
již obsaženy, o další, například o paralelní texty získané z volně dostupných
anglických a českých titulků k filmům. Součástí úlohy je kromě vlastního hromáždění
textů i jejich čistění, sjednocení kódování a formátů, automatické párování na
úrovni vět, konverze do formátů podporovaných korpusem Czeng a dokumentace celého procesu.
Řešení bude implementováno v programovacím jazyku Perl v prostředí Linux.
Předběžná náplň práce v anglickém jazyce
After learning the basic principles of building parallel corpora, the student will
focus on the Czech-English parallel corpus Czeng (http://ufal.mff.cuni.cz/czeng/).
The main goal is to enrich the set of parallel documents already contained in
this corpus with new texts, for example with parallel texts obtained from
freely available movie subtitles. The collected texts will be cleaned,
converted into a unified file format and character encoding, automatically
alligned on the sentences level, and converted into the formats supported by Czeng.
The whole process will be documented. The system is to be implemented in Perl under Linux.
 
Univerzita Karlova | Informační systém UK