|
|
|
||
Posluchači se seznámí s efektivními nástroji a postupy pro automatické zpracování rozsáhlých textů v různých
jazycích. Získané dovednosti usnadní samostatnou vědeckou práci v libovolném oboru, kde se používají rozsáhlá
textová data i případné studium počítačové lingvistiky.
Poslední úprava: Mírovský Jiří, RNDr., Ph.D. (16.05.2022)
|
|
||
Podmínkou získání zápočtu je aktivní účast na výuce, odevzdání všech domácích úkolů a získání >70% bodů z těchto úkolů. Poslední úprava: Mírovský Jiří, RNDr., Ph.D. (16.05.2022)
|
|
||
Prezentace z výuky: http://ufal.mff.cuni.cz/courses/NPFL131
Perl pro zelenáče – 3. vydání z https://knihy.nic.cz Learning Perl, 8th Edition (nejméně 5th Edition) Pro Git z https://knihy.nic.cz Learning the bash Shell Linux Pocket Guide Poslední úprava: Mírovský Jiří, RNDr., Ph.D. (16.05.2022)
|
|
||
Na ukázkových textech většího rozsahu si ukážeme základní metody zpracování textu potřebné pro získání netriviálních informací. Pro češtinu použijeme texty děl Karla Čapka, pro klasickou čínštinu vybrané texty z https://github.com/kanripo, pro další jazyky další díla dle zaměření frekventantů.
Význam a vlastnosti velkých dat unixový shell; nejzákladnější příkazy další unixové příkazy a základy Perlu pro manipulaci s texty textové editory kvantitativní analýza textu porovnání textů a vizualizace rozdílů vyhledávání pomocí regulárních výrazů využití regulárních výrazů pro hromadné úpravy textu odstranění diakritiky, segmentace na věty, tokenizace získávání informací o čínských znacích z databáze Unihan pravidlové automatické určení slovních druhů vytvoření vlastního korpusu "NLP workflow engines" - GATE, OpenNLP, Treex volání REST API UDPipe a výběr vhodného modelu, je-li jich pro jazyk více vizualizace analýzy a výsledků Poslední úprava: Mírovský Jiří, RNDr., Ph.D. (16.05.2022)
|