PředmětyPředměty(verze: 964)
Předmět, akademický rok 2024/2025
   Přihlásit přes CAS
Jazykové technologie pro výzkum v humanitních oborech - NPFL131
Anglický název: Language Technologies for Research in Humanities
Zajišťuje: Ústav formální a aplikované lingvistiky (32-UFAL)
Fakulta: Matematicko-fyzikální fakulta
Platnost: od 2022
Semestr: letní
E-Kredity: 2
Rozsah, examinace: letní s.:0/2, Z [HT]
Počet míst: neomezen
Minimální obsazenost: neomezen
4EU+: ne
Virtuální mobilita / počet míst pro virtuální mobilitu: ne
Stav předmětu: vyučován
Jazyk výuky: čeština, angličtina
Způsob výuky: prezenční
Další informace: http://ufal.mff.cuni.cz/courses/npfl131
Garant: Mgr. Bc. Pavel Straňák, Ph.D.
Třída: Informatika Mgr. - volitelný
Kategorizace předmětu: Informatika > Počítačová a formální lingvistika
Neslučitelnost : NPFL098
Záměnnost : NPFL098
Je neslučitelnost pro: NPFL098
Je záměnnost pro: NPFL098
Anotace -
Posluchači se seznámí s efektivními nástroji a postupy pro automatické zpracování rozsáhlých textů v různých jazycích. Získané dovednosti usnadní samostatnou vědeckou práci v libovolném oboru, kde se používají rozsáhlá textová data i případné studium počítačové lingvistiky.
Poslední úprava: Mírovský Jiří, RNDr., Ph.D. (16.05.2022)
Podmínky zakončení předmětu -

Podmínkou získání zápočtu je aktivní účast na výuce, odevzdání všech domácích úkolů a získání >70% bodů z těchto úkolů.

Poslední úprava: Mírovský Jiří, RNDr., Ph.D. (16.05.2022)
Literatura -

Prezentace z výuky: http://ufal.mff.cuni.cz/courses/NPFL131

Perl pro zelenáče – 3. vydání z https://knihy.nic.cz

Learning Perl, 8th Edition (nejméně 5th Edition)

Pro Git z https://knihy.nic.cz

Learning the bash Shell

Linux Pocket Guide

Poslední úprava: Mírovský Jiří, RNDr., Ph.D. (16.05.2022)
Sylabus -

Na ukázkových textech většího rozsahu si ukážeme základní metody zpracování textu potřebné pro získání netriviálních informací. Pro češtinu použijeme texty děl Karla Čapka, pro klasickou čínštinu vybrané texty z https://github.com/kanripo, pro další jazyky další díla dle zaměření frekventantů.

Význam a vlastnosti velkých dat

unixový shell; nejzákladnější příkazy

další unixové příkazy a základy Perlu pro manipulaci s texty

textové editory

kvantitativní analýza textu

porovnání textů a vizualizace rozdílů

vyhledávání pomocí regulárních výrazů

využití regulárních výrazů pro hromadné úpravy textu

odstranění diakritiky, segmentace na věty, tokenizace

získávání informací o čínských znacích z databáze Unihan

pravidlové automatické určení slovních druhů

vytvoření vlastního korpusu

"NLP workflow engines" - GATE, OpenNLP, Treex

volání REST API

UDPipe a výběr vhodného modelu, je-li jich pro jazyk více

vizualizace analýzy a výsledků

Poslední úprava: Mírovský Jiří, RNDr., Ph.D. (16.05.2022)
 
Univerzita Karlova | Informační systém UK