Kurz je úvodem do programovacího jazyka R vyvinutého pro statistickou analýzu dat. V kurzu není předpokládána předchozí znalost jazyka R, ale podmínkou je základní znalost popisné statistiky a výhodou jsou předchozí zkušenosti s analýzou dat. Minimálním vstupním předpokladem pro zapsání pro studenty na Katedře sociologie FF UK je absolvování kurzů prvního ročníku Statistika 1 (ASG100117) a Seminář ke statistice 1 (ASG100118) a doporučujeme si ho tedy nechat nejdříve do 2. ročníku bakalářského studia.
V kurzu vycházíme z moderního přístupu k analýze dat v R pomocí vývojového prostředí R Studio a “gramatiky” Tidyverse. Tento přístup dnes mezi uživatelskou komunitou pravděpodobně převažuje a soustředí obrovské množství dalšího vývoje.<br>
Učit se R je běh na dlouhou trať. Je to cesta, která znamená mnohem větší časovou investici než zvládnutí softwaru s GUI, jako je například SPSS. Odměnou je mnohem větší flexibilita a v ruce univerzální nástroj pro zpracování dat, analýzu, vizualizaci, ale i programování a automatizaci. Přestože v kurzu se tak daleko nedostaneme, v R je dnes díky dostupným knihovnám a nástrojům možné vytvářet také interaktivní grafické aplikace, webové stránky, prezentace a kromě standardní statistické analýzy jsou dostupné také nástroje tzv. strojového učení. Tento kurz má smysl především pro ty studenty, kteří se chtějí ve své sociologické (či jiné vědecké) dráze zaměřovat kvantitativně a kteří jsou připraveni k samostudiu a dalšímu rozvoji skromných základů, které jim kurz nabídne.
Účast na výuce předpokládá vlastní notebook s připojením k internetu. Výuka kurzu probíhá v češtině.
Poslední úprava: Mgr. Aleš Vomáčka (19.09.2023)
This course is taught in Czech.
The course is an introduction to the R programming language developed for statistical data analysis. Previous knowledge of the R language is not assumed in the course, but basic knowledge of descriptive statistics and prior experience of data analysis is a prerequisite. The minimum input for particularly motivated students at the Department of Sociology FF UK is to take first year Statistics 1 (ASG100117), Statistics 1 Seminar (ASG100118) and Sociological Data Processing (ASG100118).
We base our course on a modern approach to data analysis in R using the R Studio development environment and Tidyverse "grammar." This approach is likely to prevail among the user community today.<br>
<br>
Learning R is a long shot. It's a journey that means a much bigger time investment than mastering GUI software, such as SPSS. The reward is much more flexibility, and in hand a universal tool for data processing, analysis, visualization, as well as programming and automation. Although we can't get that far in the course, in R today, thanks to available libraries and tools, it is also possible to create interactive graphic applications, web pages, presentations and, in addition to standard statistical analysis, machine learning tools are also available. This course makes sense especially for those students who want to focus quantitatively in their sociological path and who are ready to self-study and further develop the modest foundations that the course will offer.<br>
<br>
Participation in teaching presupposes a custom laptop with an Internet connection (Eduroam or other).<br>
Cíl předmětu -
Poslední úprava: Mgr. Aleš Vomáčka (19.09.2023)
Cílem předmětu je uvést studenty do programovacího prostředí pro statistickou analýzu dat R se zaměřením na moderní pojetí práce v R pomocí balíků Tidyverse. Studenti se především naučí efektivně manipulovat s daty (balík dplyr) a flexibilně a efektivně data vizualizovat (balík ggplot2). Kromě toho je pozornost věnována balíkům forcats (práce s kategoriálními proměnnými neboli faktory) a balíku stringr (práce s textovými proměnnými).
Poslední úprava: Mgr. Aleš Vomáčka (19.09.2023)
The aim of the course is to introduce students into the programming environment R for statistical analysis with a focus on the modern concept of working in R using the Tidyverse packages. In particular, students will learn to manipulate data efficiently (dplyr package) and to visualize data flexibly and efficiently (ggplot2 package). In addition, attention is paid to the forcats packages (working with categorical variables or factors) and the stringr package (working with text variables).
Podmínky zakončení předmětu -
Poslední úprava: Mgr. Jaromír Mazák, Ph.D. (27.03.2022)
Pro úspěšné splnění předmětu je nutné splnit následující úkol:
Odevzdat do konce akademického roku, ve kterém byl předmět zapsán, semestrální úkol, který spočívá v replikaci zadané datové analýzy. Přesné zadání pro daný akademický rok bude studentům zpřístupněno na začátku kurzu. V každém případě je vždy potřeba odevzdat skript, který musí být plně funkční, tedy musí proběhnout bez chyby od začátku do konce bez vnějších zásahů, data, která skript potřebuje, aby proběhl, a výstup, který je skriptem generován.
Poslední úprava: Mgr. Jaromír Mazák, Ph.D. (27.03.2022)
To successfully complete the course, the following task must be completed:
To submit a semester task by the end of the academic year in which the course was enrolled, which consists in replicating the data analysis entered. The exact assignment for the given academic year will be made available to students at the beginning of the course. In any case, it is always necessary to submit a script, which must be fully functional, i.e. it must run without error from start to finish without external interference, the data that the script needs to run and the output that is generated by the script.
Literatura -
Poslední úprava: Mgr. Aleš Vomáčka (19.09.2023)
Povinná literatura:
* Wickham, H., & Grolemund, G. (2017). R for Data Science: Import, Tidy, Transform, Visualize, and Model Data (1st edition). O’Reilly Media. Dostupné online: https://r4ds.had.co.nz/
* Wickham, H., & Grolemund, G. (2017). R for Data Science: Import, Tidy, Transform, Visualize, and Model Data (1st edition). O’Reilly Media. Dostupné online: https://r4ds.had.co.nz/
Poslední úprava: Mgr. Jaromír Mazák, Ph.D. (27.03.2022)
Seminář.
Poslední úprava: Mgr. Jaromír Mazák, Ph.D. (27.03.2022)
Seminar.
Sylabus -
Poslední úprava: Mgr. Petra Poncarová (20.09.2022)
Témata:
0. Ještě před začátkem - samostatně si doma nainstalovat R, Rstudio, Tidyverse podle návodu
1. Co se v kurzu naučíte (motivace), co musíte splnit, R jako software, R Studio jako uživatelské rozhraní, materiály a kde najít pomoc, R-base vs. Tidyverse, ukázky práce s R-base, datové struktury v R, vestavěné funkce v R.
7. Explorace dat pomocí vizualizace (balík ggplot 2) - 1.hodina
8. Explorace dat pomocí vizualizace (balík ggplot 2) – 2. hodina
9. Estetická a funkční editace grafů (balík ggplot2, balík scales)
10. Práce se textovými proměnnými (balíček stringr)
11. Úvod do RMarkdown a generování analytických výstupů v různých formátech
12. Opakovací hodina
Poslední úprava: Mgr. Petra Poncarová (20.09.2022)
Topics:
0. Before starting - install R, Rstudio, Tidyverse individually at home according to our instructions
1. What you learn in the course (motivation), what you have to accomplish, R as software, R Studio as user interface, materials and where to find help, R-base vs. Tidyverse, examples of working with R-base, data structures in R, built-in functions in R.
2. Data import, data file transformations (dplyr package; select, filter, arrange, mutate, summarize function)
3. Working in multiple variables at once (across function)
4. Data file manipulation (pivot_longer, pivot_wider, *_join, bind_rows, bind_collumns function)
5. Revision of functions from the dplyr and tidyr packages
6. Working with factors (forcats package)
7. Exploring data using visualization (ggplot package 2) - 1st class
8. Exploring data using visualization (ggplot package 2) - 2nd class
9. Aesthetic and functional editing of graphs (ggplot2 package, scales package)
10. Working with text variables (stringr package)
11. Introduction to RMarkdown and generating analytical outputs in various formats