PředmětyPředměty(verze: 978)
Předmět, akademický rok 2025/2026
   Přihlásit přes CAS
Populační data science - MD360P67
Anglický název: Population data science
Český název: Populační data science
Zajišťuje: Katedra demografie a geodemografie (31-360)
Fakulta: Přírodovědecká fakulta
Platnost: od 2025
Semestr: zimní
E-Kredity: 5
Způsob provedení zkoušky: zimní s.:
Rozsah, examinace: zimní s.:1/1, Z+Zk [HT]
Počet míst: neomezen
Minimální obsazenost: 5
4EU+: ne
Virtuální mobilita / počet míst pro virtuální mobilitu: ne
Stav předmětu: vyučován
Jazyk výuky: čeština
Poznámka: povolen pro zápis po webu
Garant: RNDr. Jitka Slabá, Ph.D.
Vyučující: Mgr. Elizaveta Ukolova
Anotace -
Kurz je primárně mířen na magisterské a doktorské studenty demografie, kteří chtějí získat dovednosti nezbytné při aplikování moderních demografických metod a při analýze dat s komplexní strukturou, či velkým rozsahem.
Předpokládají se znalosti předmětů Demografická analýza I, Demografická analýza II, Populační prognózy, Demografické aplikace v SAS 1 a Demografická analýza III, přičemž poslední dva uvedené předměty lze plně studovat paralelně s Populační data science. Vítáme samozřejmě i studenty, kteří Demografickou analýzu III neabsolvovali ani absolvovat neplánují, nelze však očekávat, že pro ně bude předmět stejně přínosný jako pro absolventy Demografické analýzy III. Dotazy ohledně předpokládaných znalostí budou ochotně zodpovězeny na ukolovae@natur.cuni.cz.
VÝUKA BUDE PROBÍHAT V ČESKÉM JAZYCE
Poslední úprava: Janáková Kuprová Barbora, RNDr., Ph.D. (05.09.2025)
Literatura -

Schmuller, J. (2025). Statistical analysis with R for dummies. John Wiley & Sons.

Riffe, T. et al. (2025).  PackageHMDHFDplus’. Reference manual. Available at: https://cran.r-project.org/web/packages/HMDHFDplus/HMDHFDplus.pdf  

Riffe, T. (2015). Reading human fertility database and humanmortality database data into R. Rostock: Max Planck Institute forDemographic Research (MPIDR Technical Report TR-2015-004).

Riffe, T. et al. (2024).  PackagePackageDemoDecomp’’. Reference manual. Available at: https://cran.r-project.org/web/packages/DemoDecomp/index.html

Pascariu, M. D. (2024).  PackagePackageMortalityLaws’’. Reference manual. Available at: https://cran.r-project.org/web/packages/MortalityLaws/index.html

Pascariu, M. D. (2018). Introduction to MortalityLaws.

Tsagris, M. (2024).  PackagePackagefertilmodel’’. Reference manual. Available at: https://cran.r-project.org/web/packages/fertilmodel/index.html

Salguero-Gómez, R., & Gamelon, M. (Eds.). (2021). Demographic methods across the tree of life. Oxford universitypress.

Caswell, H. (2001). Matrix population models.

Hyndman, R. et al. (2023).  PackagePackagedemography’’. Reference manual. Available at: https://cran.r-project.org/web/packages/demography/index.html

Girosi, F., & King, G. (2007). Understanding the Lee-Carter mortality forecasting method. Gking. Harvard. Edu.

Allignol, A. (2017).  PackagePackagemvna’’. Reference manual. Available at: https://cran.r-project.org/web/packages/mvna/index.html

Allignol, A. (2025).  PackagePackageetm’’. Reference manual. Available at: https://cran.r-project.org/web/packages/etm/index.html

Willekens, F. (2014). Multistate analysis of life histories with R (pp. 7-29). New York: Springer.

Willekens, F., & Putter, H. (2014). Software for multistateanalysis. Demographic Research, 31, 381-420.

SAS Help Center. (2025). Overview: PROQ SLQ. Available at: https://documentation.sas.com/doc/en/pgmsascdc/9.4_3.5/sqlproc/n0w2pkrm208upln11i9r4ogwyvow.htm

Poslední úprava: Janáková Kuprová Barbora, RNDr., Ph.D. (03.09.2025)
Požadavky ke zkoušce -

Vypracování a odprezentování semestrálního projektu. Tím se rozumí splnění těchto pěti úkolů:

1. Formulace vhodné výzkumné otázky, která bude v rámci projektu řešena;2. Volba vhodné metody pro její zodpovězení;3. Napsání funkčního kódu v R/SAS;4. Příprava výstupu na max 4 sdily o velikosti snímku A4 (bude dále specifikováno při výuce);5. Prezentace otázky/problému a jeho řešení.

Dále je povinná účast ve výuce (~aktivita), vypracování a odevzdání krátkých průběžných úkolů a první představení nápadu na výzkumný projekt ve 13. výukovém týdnu.

Poslední úprava: Janáková Kuprová Barbora, RNDr., Ph.D. (03.09.2025)
Sylabus -
  1. Úvod do R (prostředí, základní operace, objekty, balíčky a knihovny)
  2. Library HMDHFDplus: plodnost (automatizované stahování dat z HFD, manipulace s daty, základní analýza plodnosti v R za populací pomocí cyklů, základní vizualizace)Budeme pomocí existujících funkcí stahovat zvolená data z HFD nebo HFC, následně za vybranou zemi provedeme analýzu plodnosti podle vybraných věkových skupin a pořadí za všechny země, které jsou v databázi dostupnéDomácí úloha: Graficky vizualizovat míry plodnosti za vybranou populaci podle věku a roku v heatmapě(Lexisově diagramu)
  3. Library HMDHFDplus: úmrtnost (automatizované stahování dat z HMD, základní analýza úmrtnosti v R za mnoho populací pomocí cyklů, základní vizualizace)Budeme pomocí existujících funkcí stahovat zvolená data z HMD, následně za vybranou zemi provedemeanalýzu různých ukazatelů délek života za všechny dostupné roky, přičemž cílem je výpočet ukazatelů i přípravu dat provést efektivně pomocí cyklůDomácí úloha: Graficky vizualizovat dlouhodobou časovou řadu střední, normální a pravděpodobné délky života
  4. Library DemoDecomp: obecné řešení dekompozičních úloh pomocí stepwise replacement algoritmuNejdřív si budeme vysvětlovat princip algoritmu, posléze jej aplikujeme na dekomponování rozdílů v nadějích dožití mezi 10 zeměmi s nejnižší nadějí dožití, které se nacházejí na HMD, přičemž výpočet bude opět proveden pomocí cyklůPosléze si vysvětlíme/zopakujeme „prevalence basedhealthy life expectancy“ (naději dožití ve zdraví počítanou Sullivanovou metodou) a provedeme dekompozici tohoto ukazatele mezi dvěma zeměmi, a to efekt morbidity a efekt mortalityDomácí úloha: Vymyslet a rukou nakreslit/naprogramovat v R/naklikat v Excelu, jak smysluplně graficky zobrazit výsledky mnoha dekompozic a interpretovat je
  5. Library MortalityLaws: nejvíce populární parametrické modely úmrtnosti v RZopakujeme situace, kdy je smysluplné po modelování sáhnout, vysvětlíme princip „úmrtnostních zákonů“ a představíme funkce, které MortLaws nabízí a jak fungují, potom budeme aplikovat na modelování úmrtnosti subpopulací vymezených diferenčními znaky (vzdělání, profese, počet dětí, etnicita…)Dále se budeme věnovat vyhodnocování modelů (MSE, MAE, MPE, kritéria AIC, BIC atd.)Domácí úloha: Na připravených datech se pokusit o aplikaci modelu za jednotlivé roky v dlouhém časovém rozmezí, uložit parametry těchto modelů a pokusit se zobrazit jejich vývoj v čase (v rámci hodiny bude potom diskutován význam trendů parametrů úmrtnostních modelů)
  6. Library fertilmodel: moderní parametrické modely plodnosti v RStruktura hodiny kopíruje předešlou, avšak důraz není kladen na vyhodnocení kvality modelu, jako spíše na princip maximálně věrohodných odhadů, jakožto nejpoužívanějšího způsobu hledání parametrů modelůZaměřili bychom se na Gama, Beta, Hadwiger a obé verze Peristera-Kostaki modelů, zkusili je aplikovat na data z výběrových šetření rozvíjejících se zemí (bez vital registration)Domácí úloha: Naprogramovat maximum likelihood pro lineární model
  7. Maticové populační modely v R (spíše zaměření na obecné manipulace a výpočty nad maticemi, včetně např. vlastních čísel a vektorů a jejich vazby na stabilní populace)Budeme zkoumat projekční matici vybrané populace (vektoru), kdy zkoumat znamená dopočítávat: míry reprodukce, projekci v horizontu n-let, změny ve velikostech projektovaných populací za různých předpokladů úrovní plodnosti, poměry kohort narozených, stabilní ekvivalenty, stabilizační proces, populační moment atd.Smyslem hodiny je rozšířit pohled na projekční matici z „je to něco, co má nějak složené projekční koeficienty“ o implikace, které tyto projekční koeficienty a věková struktura mohou mít pro populační vývoj v různých časových horizontechDomácí úloha: Zopakovat výpočet prováděný v hodině, avšak nad projekční maticí s odlišnými rozměry (cílem úlohy je proniknutí do kódu)
  8. Library demography: Lee-Carter model pro výpočet populační projekceNejdříve si naprogramujeme Lee-Carter model vlastnoručně, během čehož bude pozornost věnována singular value decomposition proceduře, která se hojně vyskytuje i v jiných výpočtech v demografiiDále si ukážeme funkce, které knihovna demography pro výpočet Lee-Carter modelu nabízíNásledně se budeme věnovat neurčitosti v populačních projekcích, budeme diskutovat, z čeho všeho může pramenit (vstupních parametrů, projektovaných nadějí dožití atd.) a provedeme výpočet intervalů spolehlivosti pro projektovanou naději dožití pomocí Innovation variance (klasický přístup) a bootstrappinguDomácí úloha: Nastudovat princip bootstrappingu, který se studenti budou snažit v následující hodině vyučující vysvětlit
  9. Library mvna/etm/msSurv: neparametrické multistavovémodely v RNejdříve si zopakujeme princip vícestavových modelů s příklady, včetně cenzorování, potom pomocí funkcí budeme odhadovat matice pravděpodobností přechodů mezi stavy a střední doby setrvání v nich, přičemž aplikace bude provedena na data týkající se partnerství a rození dětí z GGSPředstavíme využití kovariační matice při interpretaci modelůDomácí úloha: nastudovat si strukturu SHARE dat na další hodinu (studentům bude individuálně přidělena informace, kterou se doma pokusí dohledat)
  10. Databáze sql v prostředí SAS poprvéRůzné typy spojování tabulek a výběrů pozorování z nich na základě kritérií, dopočty deskriptivních statistik, identifikace studované populace napříč datovými soubory podle zadaných parametrů a provádění základních analýz nad vybranou subpopulacíDomácí úloha: Studenti obdrží konkrétní zadání týkající se práce s daty longitudinální povahy
  11. Databáze sql v prostřední SAS podruhéNáplň hodiny bude analogická jako přechozí hodina, ale tentokrát budeme analyzovat data za rodiny/partnerství/domácnostiDomácí úloha: Ohlédnout se za probranými tématy a rozmyslet výzkumný problém, který studenti budou řešit v rámci semestrálního projektu
  12. Rezervní hodinaJe možné, že během semestru nabereme zpoždění při probírání látky. Tato hodina bude určena pro dodělání nestihnutého
  13. První představení nápadu na výzkumný projekt• Studenti postupně odprezentují svoje výzkumné záměry a dostanou zpětnou vazbu a návrhy na vylepšení jejich stávajících výzkumných plánů od předem určených „oponentů“• Cílem je usnadnit následující vypracování projektu
Poslední úprava: Janáková Kuprová Barbora, RNDr., Ph.D. (03.09.2025)
 
Univerzita Karlova | Informační systém UK