Poslední úprava: doc. RNDr. Vladislav Kuboň, Ph.D. (05.06.2018)
V humanitních oborech se nezvratně prosazuje paradigma tzv. Digital Humanities založené na automatické a
typicky kvantitativní analýze (velkých) dat.
Naučíme vás:
- čistit a strukturovat data do přehledných tabulek
- odhalovat trendy, pravidelnosti, i extrémní případy
- základy moderní vizualizace
Používáme veřejně přístupný programovací jazyk R, jeho vyspělé grafické vývojové rozhraní RStudio a moderní
analytické knihovny rodiny tidyverse.
Poslední úprava: doc. RNDr. Vladislav Kuboň, Ph.D. (05.06.2018)
The humanities have seen an irreversible paradigm shift towards Digital Humanities, based on automatic
quantitative analysis of (big) data.
We will teach you:
- to clean and structure data into neat tables;
- to discover trends, recurring patterns, and outliers
- basics of modern data visualization
We use the open-source programming language R along with its advanced RStudio IDE and tidyverse, the
globally popular collection of professional data-scientific tools.
Podmínky zakončení předmětu -
Poslední úprava: RNDr. Jiří Mírovský, Ph.D. (14.05.2024)
aktivní účast na hodinách (přípustné jsou 3 nepřítomnosti)
všechny domácí úkoly odevzdané v termínu
pokud v daném semestru používáme online kurz DataCamp (pro studenty zdarma), je povinných 30 000 XP během trvání našeho kurzu, a to ze zadávaných kapitol.
Pokud student tyto online kurzy již absolvoval, musí nasbírat 20 000 XP z dalších kurzů R.
Výjimky jsou výhradně na zvážení vyučujících.
Poslední úprava: RNDr. Jiří Mírovský, Ph.D. (14.05.2024)
active participation in the lessons (max 3 absences)
all homeworks submitted within deadlines
if DataCamp is used (free for students) the student is obliged to collect 30 000 XP during our course. These points must come from the assigned R courses.
In case the student has already completed these courses before, they must collect 20 000 XP from other R courses.
Any individual exceptions are up to the teachers.
Literatura -
Poslední úprava: doc. RNDr. Vladislav Kuboň, Ph.D. (05.06.2018)
Hlavní prameny:
Hadley Wickham and Garrett Grolemund. 2017. R for Data Science. O'Reilly. Momentálně zdarma online: http://r4ds.had.co.nz/
Garrett Grolemund. 2014. Hands-On Programming with R. O'Reilly.
Nina Zumel and John Mount. 2014 Practical Data Science with R. Manning.
Vedlejší prameny:
Julia Silge and David Robinson: Text Mining with R. A tidy approach. 2017. O'Reilly.
Stefan Th. Gries. 2013. Statistics for Linguistics with R. A practical introduction. De Gruyter.
Stefan Th. Gries. 2009. Quantitative Corpus Linguistics with R. De Gruyter. Routledge.
Matthew L. Jockers. 2014. Text Analysis with R for Students of Literature. Springer.
Natalia Levshina. 2015. How to do Linguistics with R. Data exploration and statistical analysis. John Benjamins.
Simon Munzert, Christian Rubba, Peter Meissner, Dominic Nyhuis: Automated Data Collection with R. A Practical Guide to Web Scraping and Text Mining. 2015. Wiley.
Poslední úprava: doc. RNDr. Vladislav Kuboň, Ph.D. (05.06.2018)
Hadley Wickham and Garrett Grolemund. 2017. R for Data Science. O'Reilly. Momentálně zdarma online: http://r4ds.had.co.nz/
Garrett Grolemund. 2014. Hands-On Programming with R. O'Reilly.
Nina Zumel and John Mount. 2014 Practical Data Science with R. Manning.
Julia Silge and David Robinson: Text Mining with R. A tidy approach. 2017. O'Reilly.
Stefan Th. Gries. 2013. Statistics for Linguistics with R. A practical introduction. De Gruyter.
Stefan Th. Gries. 2009. Quantitative Corpus Linguistics with R. De Gruyter. Routledge.
Matthew L. Jockers. 2014. Text Analysis with R for Students of Literature. Springer.
Natalia Levshina. 2015. How to do Linguistics with R. Data exploration and statistical analysis. John Benjamins.
Simon Munzert, Christian Rubba, Peter Meissner, Dominic Nyhuis: Automated Data Collection with R. A Practical Guide to Web Scraping and Text Mining. 2015. Wiley.
Požadavky ke zkoušce
Poslední úprava: RNDr. Jiří Mírovský, Ph.D. (14.05.2024)
aktivní účast na všech hodinách (výjimky na zvážení učitele), včasné odevzdávání domácích úkolů, důkladné studium a příprava k diskusi u zadávané četby
Sylabus -
Poslední úprava: Mgr. Silvie Cinková, Ph.D. (22.05.2023)
1. Základní pojmy R, výhody R v datové analýze jako subdisciplíně programování
2. Tabulky, vektory, načtení tabulkového souboru, vektor jako sloupec tabulky, typy veličin jako třídy vektorů, výběr (subsetting) elementů, řádků a sloupců v základním R
3. Grafická knihovna ggplot2, mapování veličin na estetické škály, typy grafů a škál (funkce geom_, scale_)
4. Čištění dat - knihovna dplyr: výběr a manipulace řádků (filter, slice, arrange) a sloupců (select, rename, mutate, if_else, case_when)
5. Čištění dat - skupiny (group_by, across, rowwise), agregace (count, summarize)
6. Sdružování tabulek (joins)
7. Koncept "tidy data", konverze mezi "širším" a "delším" formátem tabulky pro použití s dplyr a ggplot2, tidyr (pivot_longer, pivot_wider, unite and separate)
8. Operace na řetězcích, regulární výrazy vč. "look-around"
9. Koncept iterace v R: vektorizace, cyklus, funkce rodiny apply a funkce rodiny map z knihovny purrr v běžných uživatelských situacích
10. Dolování informací z textu s pomocí automatické syntaktické anotace, interakce s API syntaktického parseru UDPipe
Poslední úprava: Mgr. Silvie Cinková, Ph.D. (22.05.2023)
1. Basic concepts of R, advantages of R in data analysis as a subdiscipline of programming
2. Tables, vectors, loading a table file, vector as a table column, variable types as vector classes, selection (subsetting) of elements, rows and columns in base R
3. ggplot2 graphics library, mapping variables to aesthetic scales, types of graphs and scales (geom_, scale_ functions)
4. Data wrangling - dplyr library: selection and manipulation of rows (filter, slice, arrange) and columns (select, rename, mutate, if_else, case_when)
5. Data wrangling - groups (group_by, across, rowwise), aggregation (count, summarize)
6. Table joins (SQL-like)
7. "tidy data" concept, conversion between "wider" and "longer" table format for use with dplyr and ggplot2, tidyr (pivot_longer, pivot_wider, unite and separate)
8. Operations on strings, regular expressions incl. "look-around"
9. The concept of iteration in R: vectorization, loop, apply family functions and map family functions from the purrr library in common user situations
10. Text mining with the help of automatic syntactic annotation, interaction with the API of the UDPipe syntactic parser
Poslední úprava: doc. RNDr. Vladislav Kuboň, Ph.D. (05.06.2018)
angličtina, základy práce s počítačem, frustrační tolerance a disciplína k pravidelné domácí přípravě. Programovat umět nemusíte.
Poslední úprava: doc. RNDr. Vladislav Kuboň, Ph.D. (05.06.2018)
English, basic computer literacy, frustration tolerance and discipline for regular homeworks. No programming skills required.
Grade requirements: active participation in all lessons (exceptions are up to teachers), timely submission of homeworks, comprehensive discussion preparation on selected reading (3 - 4 papers/term)