Kurz je primárně mířen na magisterské a doktorské studenty demografie, kteří chtějí získat dovednosti nezbytné při aplikování moderních demografických metod a při analýze dat s komplexní strukturou, či velkým rozsahem.
Předpokládají se znalosti předmětů Demografická analýza I, Demografická analýza II, Populační prognózy, Demografické aplikace v SAS 1 a Demografická analýza III, přičemž poslední dva uvedené předměty lze plně studovat paralelně s Populační data science. Vítáme samozřejmě i studenty, kteří Demografickou analýzu III neabsolvovali ani absolvovat neplánují, nelze však očekávat, že pro ně bude předmět stejně přínosný jako pro absolventy Demografické analýzy III. Dotazy ohledně předpokládaných znalostí budou ochotně zodpovězeny na ukolovae@natur.cuni.cz.
VÝUKA BUDE PROBÍHAT V ČESKÉM JAZYCE
Poslední úprava: Janáková Kuprová Barbora, RNDr., Ph.D. (05.09.2025)
This course is primarily aimed at Master's and Doctoral students in demography who want to acquire the skills necessary for applying modern demographic methods and analyzing
data with complex structures or large volumes. Prerequisites include knowledge from the courses Demographic Analysis I, Demographic Analysis II, Population Projections, Demographic Applications in SAS 1, and Demographic Analysis III. The latter two courses can be studied on parallel with Population Data Science. We also welcome students who have not taken or do not plan to take Demographic Analysis III, although it is unlikely that the course will be as beneficial for them as it would be for thos who passed Demographic Analysis III. I will be happy to answer all questions regarding the skills needed to pass the course on: ukolovae@natur.cuni.cz.
TEACHING WILL BE TAKEN IN CZECH LANGUAGE
Poslední úprava: Janáková Kuprová Barbora, RNDr., Ph.D. (05.09.2025)
Literatura -
Schmuller, J. (2025). Statisticalanalysiswith R fordummies. John Wiley & Sons.
Riffe, T. et al. (2025). Package ‘HMDHFDplus’. Reference manual. Availableat: https://cran.r-project.org/web/packages/HMDHFDplus/HMDHFDplus.pdf
Riffe, T. (2015). Readinghuman fertility database and humanmortality database data into R. Rostock: Max Planck Institute forDemographicResearch (MPIDR Technical Report TR-2015-004).
Riffe, T. et al. (2024). Package ‘Package ‘DemoDecomp’’. Reference manual. Availableat: https://cran.r-project.org/web/packages/DemoDecomp/index.html
Pascariu, M. D. (2024). Package ‘Package ‘MortalityLaws’’. Reference manual. Availableat: https://cran.r-project.org/web/packages/MortalityLaws/index.html
Pascariu, M. D. (2018). Introduction to MortalityLaws.
Tsagris, M. (2024). Package ‘Package ‘‘fertilmodel’’. Reference manual. Availableat: https://cran.r-project.org/web/packages/fertilmodel/index.html
Salguero-Gómez, R., & Gamelon, M. (Eds.). (2021). Demographicmethodsacrossthetreeoflife. Oxford universitypress.
Caswell, H. (2001). Matrix populationmodels.
Hyndman, R. et al. (2023). Package ‘Package ‘‘demography’’. Reference manual. Availableat: https://cran.r-project.org/web/packages/demography/index.html
SAS Help Center. (2025). Overview: PROQ SLQ. Availableat: https://documentation.sas.com/doc/en/pgmsascdc/9.4_3.5/sqlproc/n0w2pkrm208upln11i9r4ogwyvow.htm
Poslední úprava: Janáková Kuprová Barbora, RNDr., Ph.D. (03.09.2025)
Schmuller, J. (2025). Statisticalanalysiswith R fordummies. John Wiley & Sons.
Riffe, T. et al. (2025). Package ‘HMDHFDplus’. Reference manual. Availableat: https://cran.r-project.org/web/packages/HMDHFDplus/HMDHFDplus.pdf
Riffe, T. (2015). Readinghuman fertility database and humanmortality database data into R. Rostock: Max Planck Institute forDemographicResearch (MPIDR Technical Report TR-2015-004).
Riffe, T. et al. (2024). Package ‘Package ‘DemoDecomp’’. Reference manual. Availableat: https://cran.r-project.org/web/packages/DemoDecomp/index.html
Pascariu, M. D. (2024). Package ‘Package ‘MortalityLaws’’. Reference manual. Availableat: https://cran.r-project.org/web/packages/MortalityLaws/index.html
Pascariu, M. D. (2018). Introduction to MortalityLaws.
Tsagris, M. (2024). Package ‘Package ‘‘fertilmodel’’. Reference manual. Availableat: https://cran.r-project.org/web/packages/fertilmodel/index.html
Salguero-Gómez, R., & Gamelon, M. (Eds.). (2021). Demographicmethodsacrossthetreeoflife. Oxford universitypress.
Caswell, H. (2001). Matrix populationmodels.
Hyndman, R. et al. (2023). Package ‘Package ‘‘demography’’. Reference manual. Availableat: https://cran.r-project.org/web/packages/demography/index.html
SAS Help Center. (2025). Overview: PROQ SLQ. Availableat: https://documentation.sas.com/doc/en/pgmsascdc/9.4_3.5/sqlproc/n0w2pkrm208upln11i9r4ogwyvow.htm
Poslední úprava: Janáková Kuprová Barbora, RNDr., Ph.D. (05.09.2025)
Požadavky ke zkoušce -
Vypracování a odprezentování semestrálního projektu. Tím se rozumí splnění těchto pěti úkolů:
1. Formulace vhodné výzkumné otázky, která bude v rámci projektu řešena;2. Volba vhodné metody pro její zodpovězení;3. Napsání funkčního kódu v R/SAS;4. Příprava výstupu na max 4 sdily o velikosti snímku A4 (bude dále specifikováno při výuce);5. Prezentace otázky/problému a jeho řešení.
Dále je povinná účast ve výuce (~aktivita), vypracování a odevzdání krátkých průběžných úkolů a první představení nápadu na výzkumný projekt ve 13. výukovém týdnu.
Poslední úprava: Janáková Kuprová Barbora, RNDr., Ph.D. (03.09.2025)
Completion and presentation of a semester project, which entails fulfilling these five tasks: 1. Formulating a suitable research question to be addressed within the project; 2. Selecting an appropriate method to answer the question; 3. Writing functional code in R/SAS; 4. Preparing a presentation of maximum 4 slides, A4 size (further specifications will be provided during instruction); 5. Presenting the question/problem and its solution. Furthermore, mandatory attendance (~activity) in class, completion and submission of short, assignments during the semester, and an initial presentation of the research project idea in the 13th week are required.
Poslední úprava: Janáková Kuprová Barbora, RNDr., Ph.D. (05.09.2025)
Sylabus -
Úvod do R (prostředí, základní operace, objekty, balíčky a knihovny)
LibraryHMDHFDplus: plodnost (automatizované stahování dat z HFD, manipulace s daty, základní analýza plodnosti v R za populací pomocí cyklů, základní vizualizace)• Budeme pomocí existujících funkcí stahovat zvolená data z HFD nebo HFC, následně za vybranou zemi provedeme analýzu plodnosti podle vybraných věkových skupin a pořadí za všechny země, které jsou v databázi dostupné• Domácí úloha: Graficky vizualizovat míry plodnosti za vybranou populaci podle věku a roku v heatmapě(Lexisově diagramu)
LibraryHMDHFDplus: úmrtnost (automatizované stahování dat z HMD, základní analýza úmrtnosti v R za mnoho populací pomocí cyklů, základní vizualizace)• Budeme pomocí existujících funkcí stahovat zvolená data z HMD, následně za vybranou zemi provedemeanalýzu různých ukazatelů délek života za všechny dostupné roky, přičemž cílem je výpočet ukazatelů i přípravu dat provést efektivně pomocí cyklů• Domácí úloha: Graficky vizualizovat dlouhodobou časovou řadu střední, normální a pravděpodobné délky života
LibraryDemoDecomp: obecné řešení dekompozičních úloh pomocí stepwisereplacement algoritmu• Nejdřív si budeme vysvětlovat princip algoritmu, posléze jej aplikujeme na dekomponování rozdílů v nadějích dožití mezi 10 zeměmi s nejnižší nadějí dožití, které se nacházejí na HMD, přičemž výpočet bude opět proveden pomocí cyklů• Posléze si vysvětlíme/zopakujeme „prevalence basedhealthylifeexpectancy“ (naději dožití ve zdraví počítanou Sullivanovou metodou) a provedeme dekompozici tohoto ukazatele mezi dvěma zeměmi, a to efekt morbidity a efekt mortality• Domácí úloha: Vymyslet a rukou nakreslit/naprogramovat v R/naklikat v Excelu, jak smysluplně graficky zobrazit výsledky mnoha dekompozic a interpretovat je
LibraryMortalityLaws: nejvíce populární parametrické modely úmrtnosti vR• Zopakujeme situace, kdy je smysluplné po modelování sáhnout, vysvětlíme princip „úmrtnostních zákonů“ a představíme funkce, které MortLaws nabízí a jak fungují, potom budeme aplikovat na modelování úmrtnosti subpopulací vymezených diferenčními znaky (vzdělání, profese, počet dětí, etnicita…)• Dále se budeme věnovat vyhodnocování modelů (MSE, MAE, MPE, kritéria AIC, BIC atd.)• Domácí úloha: Na připravených datech se pokusit o aplikaci modelu za jednotlivé roky v dlouhém časovém rozmezí, uložit parametry těchto modelů a pokusit se zobrazit jejich vývoj v čase (v rámci hodiny bude potom diskutován význam trendů parametrů úmrtnostních modelů)
Libraryfertilmodel: moderní parametrické modely plodnosti v R• Struktura hodiny kopíruje předešlou, avšak důraz není kladen na vyhodnocení kvality modelu, jako spíše na princip maximálně věrohodných odhadů, jakožto nejpoužívanějšího způsobu hledání parametrů modelů• Zaměřili bychom se na Gama, Beta, Hadwiger a obé verze Peristera-Kostaki modelů, zkusili je aplikovat na data z výběrových šetření rozvíjejících se zemí (bez vitalregistration)• Domácí úloha: Naprogramovat maximum likelihood pro lineární model
Maticové populační modely v R (spíše zaměření na obecné manipulace a výpočty nad maticemi, včetně např. vlastních čísel a vektorů a jejich vazby na stabilní populace)• Budeme zkoumat projekční matici vybrané populace (vektoru), kdy zkoumat znamená dopočítávat: míry reprodukce, projekci v horizontu n-let, změny ve velikostech projektovaných populací za různých předpokladů úrovní plodnosti, poměry kohort narozených, stabilní ekvivalenty, stabilizační proces, populační moment atd.• Smyslem hodiny je rozšířitpohled na projekční matici z „je to něco, co má nějak složené projekční koeficienty“ o implikace, které tyto projekční koeficienty a věková struktura mohou mít pro populační vývoj v různých časových horizontech• Domácí úloha: Zopakovat výpočet prováděný v hodině, avšak nad projekční maticí s odlišnými rozměry (cílem úlohy je proniknutí do kódu)
Librarydemography: Lee-Carter model pro výpočet populační projekce• Nejdříve si naprogramujeme Lee-Carter model vlastnoručně, během čehož bude pozornost věnována singularvaluedecomposition proceduře, která se hojně vyskytuje i v jiných výpočtech v demografii• Dále si ukážeme funkce, které knihovna demography pro výpočet Lee-Carter modelu nabízí• Následně se budeme věnovat neurčitosti v populačních projekcích, budeme diskutovat, z čeho všeho může pramenit (vstupních parametrů, projektovaných nadějí dožití atd.) a provedeme výpočet intervalů spolehlivosti pro projektovanou naději dožití pomocí Innovation variance (klasický přístup) a bootstrappingu• Domácí úloha: Nastudovat princip bootstrappingu, který se studenti budou snažit v následující hodině vyučující vysvětlit
Librarymvna/etm/msSurv: neparametrické multistavovémodely v R• Nejdříve si zopakujeme princip vícestavových modelů s příklady, včetně cenzorování, potom pomocí funkcí budeme odhadovat matice pravděpodobností přechodů mezi stavy a střední doby setrvání vnich, přičemž aplikace bude provedena na data týkající se partnerství a rození dětí z GGS• Představíme využití kovariační matice při interpretaci modelů• Domácí úloha: nastudovat si strukturu SHARE dat na další hodinu (studentům bude individuálně přidělena informace, kterou se doma pokusí dohledat)
Databáze sql v prostředí SAS poprvé• Různé typy spojování tabulek a výběrů pozorování z nich na základě kritérií, dopočty deskriptivních statistik, identifikace studované populace napříč datovými soubory podle zadaných parametrů a provádění základních analýz nad vybranou subpopulací• Domácí úloha: Studenti obdrží konkrétní zadání týkající se práce s daty longitudinální povahy
Databáze sql v prostřední SAS podruhé• Náplň hodiny bude analogická jako přechozí hodina, ale tentokrát budeme analyzovat data za rodiny/partnerství/domácnosti• Domácí úloha: Ohlédnout se za probranými tématy a rozmyslet výzkumný problém, který studenti budou řešit v rámci semestrálního projektu
Rezervní hodina• Je možné, že během semestru nabereme zpoždění při probírání látky. Tato hodina bude určena pro dodělání nestihnutého
První představení nápadu na výzkumný projekt• Studenti postupně odprezentují svoje výzkumné záměry a dostanou zpětnou vazbu a návrhy na vylepšení jejich stávajících výzkumných plánů od předem určených „oponentů“• Cílem je usnadnit následující vypracování projektu
Poslední úprava: Janáková Kuprová Barbora, RNDr., Ph.D. (03.09.2025)
Introduction to R (environment, basic operations, objects, packages, and libraries)
Library HMDHFDplus: fertility (automated data download from HFD, data manipulation, basic fertility analysis in R for multiple populations using loops, basic visualization)
Using existing functions, we will download selected data from HFD or HFC, and then perform an analysis of fertility by selected age groups and birth order for all countries available in the database for a selected country.
Homework: Graphically visualize fertility rates for a selected population by age and year in a heatmap (Lexis diagram).
Library HMDHFDplus: mortality (automated data download from HMD, basic mortality analysis in R for multiple populations using loops, basic visualization)
Using existing functions, we will download selected data from HMD, and then perform an analysis of various lifespan indicators for all available years for a selected country, with the goal of performing indicator calculation and data preparation efficiently using loops.
Homework: Graphically visualize a long-term time series of life expectancy, modal age at death and probable length of life.
Library DemoDecomp: general solution of decomposition problems using the stepwise replacement algorithm
First, we will explain the principle of the algorithm, and then apply it to decompose differences in life expectancy between the 10 countries with the lowest life expectancy found in the HMD, with the calculation again performed using loops.
Subsequently, we will explain/review "prevalence-based healthy life expectancy" (healthy life expectancy calculated using Sullivan's method) and perform a decomposition of this indicator to the (i) morbidity effect and the (ii) mortality effect.
Homework: Devise and hand-draw/program in R/click in Excel how to meaningfully graphically display the results of multiple decompositions and interpret them.
Library MortalityLaws: most popular parametric mortality models in R
We will review situations where it is meaningful to use modeling, explain the principle of "mortality laws," and present the functions that MortLaws offers and how they work. Then, we will apply them to modeling the mortality of subpopulations defined by differential characteristics (education, profession, number of children, ethnicity, etc.).
We will also focus on model evaluation (MSE, MAE, MPE, AIC, BIC criteria, etc.).
Homework: Using prepared data, attempt to apply the model for individual years over a long time period, save the parameters of these models, and attempt to display their evolution over time (the meaning of trends in model parameters will then be discussed during the session).
Library fertilmodel: modern parametric fertility models in R
The structure of the session mirrors the previous one, but the emphasis is not on evaluating the quality of the model, but rather on the principle of maximum likelihood estimation, which is the most commonly used method of finding model parameters.
We would focus on the Gamma, Beta, Hadwiger, and both versions of the Peristera-Kostaki models, and try to apply them to data from sample surveys of developing countries (without vital registration).
Homework: Program maximum likelihood for a linear model.
Matrix population models in R (primarily focused on general matrix manipulations and calculations, including, for example, eigenvalues and vectors and their relationship to stable populations)
We will examine the projection matrix of a selected population (vector), where examining means calculating: reproduction rates, projection over a horizon of n-years, changes in the sizes of projected populations under various assumptions of fertility levels, ratios of cohorts born, stable equivalents, stabilization process, population momentum, etc.
The aim of the session is to broaden the view of the projection matrix from "it is something that contains projection parameters" to the implications that these projection coefficients and age structure can have for population development in different time horizons.
Homework: Repeat the calculation performed in the session, but on a projection matrix with different dimensions (the goal of the task is to adjust the code).
Library demography: Lee-Carter model for population projection
First, we will program the Lee-Carter model ourselves, during which attention will be paid to the singular value decomposition technique, which is also frequently found in other analysis of extensive datasets.
Next, we will show the functions that the demography library offers for calculating the Lee-Carter model.
Subsequently, we will focus on uncertainty in population projections, discuss what it can stem from (input parameters, projected life expectancies, etc.), and calculate confidence intervals for the projected life expectancy using Innovation variance (classical approach) and bootstrapping.
Homework: Study the principle of bootstrapping, which students will try to explain to the teacher in the following session.
Library mvna/etm/msSurv: non-parametric multistate models in R
First, we will review the principle of multi-state models with examples, including censoring, then, using inbuild functions, we will estimate the matrices of probabilities of transitions between states and the average time they are occupied, with the application being performed on data relating to partnership and childbearing from the GGS.
We will present the use of the covariance matrix in the interpretation of models.
Homework: Study the structure of SHARE data for the next session (students will be individually assigned information that they will try to find at home).
SQL databases in the SAS environment 1
Different types of joining tables and selecting observations from them based on criteria, calculating descriptive statistics, identifying the study population across data files according to specified parameters, and performing basic analyses on the selected subpopulation.
Homework: Students will receive a specific assignment regarding working with longitudinal data.
SQL databases in the SAS environment 2
The content of the session will be analogous to the previous session, but this time we will analyze data for families/partnerships/households.
Homework: Look back at the topics covered and think about a research problem that you will solve as part of the semester project.
Reserve Session
It is possible that we will fall behind in covering the material during the semester. This session will be used to complete what was not managed.
Initial presentation of the research project idea
Students will present their research intentions and receive feedback and suggestions for improving their existing research plans from pre-selected "opponents."
The aim is to facilitate the following project elaboration.
Poslední úprava: Janáková Kuprová Barbora, RNDr., Ph.D. (05.09.2025)