|
|
|
||
V humanitních oborech se nezvratně prosazuje paradigma tzv. Digital Humanities založené na automatické a
typicky kvantitativní analýze (velkých) dat.
Naučíme vás:
- čistit a strukturovat data do přehledných tabulek
- odhalovat trendy, pravidelnosti, i extrémní případy
- základy moderní vizualizace
Používáme veřejně přístupný programovací jazyk R, jeho vyspělé grafické vývojové rozhraní RStudio a moderní
analytické knihovny rodiny tidyverse.
Poslední úprava: Kuboň Vladislav, doc. RNDr., Ph.D. (05.06.2018)
|
|
||
Pokud student tyto online kurzy již absolvoval, musí nasbírat 20 000 XP z dalších kurzů R. Výjimky jsou výhradně na zvážení vyučujících.
Termín splnění studijních povinností zadaných na platformě DataCamp je omezen platností licence (přesně 6 měsíců od první rozvržené hodiny v semestru). Náhradní plnění mimo DataCamp není možné.
Poslední úprava: Mírovský Jiří, RNDr., Ph.D. (14.05.2024)
|
|
||
Hlavní prameny: Hadley Wickham and Garrett Grolemund. 2017. R for Data Science. O'Reilly. Momentálně zdarma online: http://r4ds.had.co.nz/ Garrett Grolemund. 2014. Hands-On Programming with R. O'Reilly. Nina Zumel and John Mount. 2014 Practical Data Science with R. Manning.
Vedlejší prameny: Julia Silge and David Robinson: Text Mining with R. A tidy approach. 2017. O'Reilly. Stefan Th. Gries. 2013. Statistics for Linguistics with R. A practical introduction. De Gruyter. Stefan Th. Gries. 2009. Quantitative Corpus Linguistics with R. De Gruyter. Routledge. Matthew L. Jockers. 2014. Text Analysis with R for Students of Literature. Springer. Natalia Levshina. 2015. How to do Linguistics with R. Data exploration and statistical analysis. John Benjamins. Simon Munzert, Christian Rubba, Peter Meissner, Dominic Nyhuis: Automated Data Collection with R. A Practical Guide to Web Scraping and Text Mining. 2015. Wiley. Poslední úprava: Kuboň Vladislav, doc. RNDr., Ph.D. (05.06.2018)
|
|
||
Aktivní účast na všech hodinách (výjimky na zvážení učitele), včasné odevzdávání domácích úkolů, důkladné studium a příprava k diskusi u zadávané četby. Poslední úprava: Mírovský Jiří, RNDr., Ph.D. (14.05.2024)
|
|
||
1. Základní pojmy R, výhody R v datové analýze jako subdisciplíně programování 2. Tabulky, vektory, načtení tabulkového souboru, vektor jako sloupec tabulky, typy veličin jako třídy vektorů, výběr (subsetting) elementů, řádků a sloupců v základním R 3. Grafická knihovna ggplot2, mapování veličin na estetické škály, typy grafů a škál (funkce geom_, scale_) 4. Čištění dat - knihovna dplyr: výběr a manipulace řádků (filter, slice, arrange) a sloupců (select, rename, mutate, if_else, case_when) 5. Čištění dat - skupiny (group_by, across, rowwise), agregace (count, summarize) 6. Sdružování tabulek (joins) 7. Koncept "tidy data", konverze mezi "širším" a "delším" formátem tabulky pro použití s dplyr a ggplot2, tidyr (pivot_longer, pivot_wider, unite and separate) 8. Operace na řetězcích, regulární výrazy vč. "look-around" 9. Koncept iterace v R: vektorizace, cyklus, funkce rodiny apply a funkce rodiny map z knihovny purrr v běžných uživatelských situacích 10. Dolování informací z textu s pomocí automatické syntaktické anotace, interakce s API syntaktického parseru UDPipe
Oblíbené datasety: gapminder (https://www.gapminder.org/data/), built-in datasety iris, diamonds, corpora
Poslední úprava: Cinková Silvie, Mgr., Ph.D. (22.05.2023)
|
|
||
angličtina, základy práce s počítačem, frustrační tolerance a disciplína k pravidelné domácí přípravě. Programovat umět nemusíte. Poslední úprava: Kuboň Vladislav, doc. RNDr., Ph.D. (05.06.2018)
|