Cílem předmětu je seznámit studenty s postupy potřebnými při zpracování přirozeného jazyka (zpracování velkých
dat v distribuovaném prostředí a strojové učení) a předvést, jak je efektivně provádět v prostředí linuxového
výpočetního clusteru Ústavu formální a aplikované lingvistiky (ÚFAL). Kurz bude věnován síťové architektuře a
architektuře clusteru, SGE (Sun/Oracle/Son of Grid Engine), souvisejícím linuxových nástrojům a zavedeným
postupům.
Celý předmět bude odučen v několika prvních týdnech semestru.
Poslední úprava: T_UFAL (04.05.2017)
The aim of the course is to introduce methods required in natural language processing (processing huge data sets
in distributed environment and performing machine learning) and show how to effectively execute them on ÚFAL
computational Linux cluster. The course will cover ÚFAL network and cluster architecture, SGE (Sun/Oracle/Son of
Grid Engine), related Linux tools and best practices.
The whole course will be taught in several first weeks of the semester.
Podmínky zakončení předmětu -
Poslední úprava: Mgr. Rudolf Rosa, Ph.D. (26.09.2022)
Vypracování zadaných úkolů a aktivní účast na semináři.
Pro smysluplnou účast na kurzu a možnost splnění úkolů je nutné mít přístup na výpočetní cluster ÚFAL, kurz je proto velmi vhodný pro doktorské studenty ÚFAL, pro jiné studenty je naopak, až na výjimečné případy, nevhodný.
Poslední úprava: Mgr. Rudolf Rosa, Ph.D. (26.09.2022)
Solving the given assignments and active participation during the course.
To be able to meaningfully participate in the course and to complete the assignments, it is necessary to have access to the ÚFAL computational cluster. The course is therefore highly suitable for ÚFAL PhD students, but unsuitable for other students, apart from exceptional cases.
Literatura -
Poslední úprava: Mgr. Martin Popel, Ph.D. (01.10.2022)
Data-Intensive Text Processing with MapReduce; Jimmy Lin and Chris Dyer.; Morgan & Claypool Publishers, 2010
Slurm - https://slurm.schedmd.com/
Apache Spark - https://spark.apache.org/
TensorFlow - https://www.tensorflow.org/
Poslední úprava: Mgr. Martin Popel, Ph.D. (01.10.2022)
Data-Intensive Text Processing with MapReduce; Jimmy Lin and Chris Dyer.; Morgan & Claypool Publishers, 2010
Slurm - https://slurm.schedmd.com/
Apache Spark - https://spark.apache.org/
TensorFlow - https://www.tensorflow.org/
Sylabus -
Poslední úprava: Mgr. Martin Popel, Ph.D. (01.10.2022)
Technologické problémy při zpracování velkého objemu dat
Síťová architektura a architektura clusteru Ústavu formální a aplikované lingvistiky (ÚFAL)
Slurm - architektura, příkazy
Poslední úprava: Mgr. Martin Popel, Ph.D. (01.10.2022)
Technological difficulties with processing big data