Zdroje lingvistických dat II - NPFL076
Anglický název: |
Language Data Resources II |
Zajišťuje: |
Ústav formální a aplikované lingvistiky (32-UFAL) |
Fakulta: |
Matematicko-fyzikální fakulta |
Platnost: |
od 2010 |
Semestr: |
letní |
E-Kredity: |
3 |
Rozsah, examinace: |
letní s.:0/2, KZ [HT] |
Počet míst: |
neomezen |
Minimální obsazenost: |
neomezen |
4EU+: |
ne |
Virtuální mobilita / počet míst pro virtuální mobilitu: |
ne |
Stav předmětu: |
zrušen |
Jazyk výuky: |
čeština |
Způsob výuky: |
prezenční |
Způsob výuky: |
prezenční |
|
|
Anotace -
| |
|
Poslední úprava: T_UFAL (10.05.2006)
Seminář je zaměřen na praktické procvičení znalostí z předmětu Zdroje lingvistických dat I v prostředí Linux/Perl.
Poslední úprava: T_UFAL (10.05.2006)
The seminar is aimed at obtaining practical experience in application of knowledge from Language Resouces I in the Linux/Perl environment. |
|
Poslední úprava: T_UFAL (10.05.2006)
Vybrané články z konferencí (LREC, ACL atd.), technické zprávy ÚFAL/CKL.
(Selected conference papers (LREC, ACL etc.), UFAL/CKL technical reports.)
|
Sylabus -
| |
|
Poslední úprava: T_UFAL (22.05.2006)
1) Stručný úvod do programovacího jazyka Perl
- základní techniky zpracování textových dat
2) Lingvistická data ve formátu XML
- transformace v jazyku XSL
- dotazování v jazyku XPath
3) Zpracování dat z PDT 2.0
- datové formáty použité v PDT
- dávkové zpracování souborů z PDT 2.0 v prostředí btred/ntred
4) Zpracování dat z dalších jazyků
- konverze lingvistických zdrojů z jiných formátů/formalismů/jazyků (včetně jazyků typologicky vzdálených)
- vzájemný převod složkové a závislostní orientovaných struktur
- extrémní vývoj syntakticky značkovaných dat pro jazyky bez existujících treebanků
5) Vyhodnocování experimentů
- precision/recall v morfologickém a syntaktickém značkování
- 10-fold cross evaluation, testy signifikance
Poslední úprava: T_UFAL (10.05.2006)
1) Short introduction into programming language Perl
- basic processing of textual data
2) Language resources in XML
- declaration (DTD, schemata)
3) PDT 2.0 data processing
- btred/ntred batch processing of PDT 2.0 data
4) Processing of other languages resources
- conversion from other formats/formalisms/languages (including the typologically distant languages)
- mutual conversion of dependency and constituency structures
- rapid development of syntactically tagged data for languages with scarce resources
5) Experiment evaluation
- precision/recall in morphological and syntactical tagging
- 10-fold cross evaluation, significance tests
|