Thesis (Selection of subject)Thesis (Selection of subject)(version: 390)
Thesis details
   Login via CAS
Klasifikace na základě longitudinálních pozorování
Thesis title in Czech: Klasifikace na základě longitudinálních pozorování
Thesis title in English: Classification based on longitudinal observations
Key words: lineární smíšený model, longitudinální data, diskriminační analýza, Bayesova věta
English key words: linear mixed-effects model, longitudinal data, discriminant analysis, Bayes' theorem
Academic year of topic announcement: 2010/2011
Thesis type: diploma thesis
Thesis language: čeština
Department: Department of Probability and Mathematical Statistics (32-KPMS)
Supervisor: prof. RNDr. Arnošt Komárek, Ph.D.
Author: hidden - assigned and confirmed by the Study Dept.
Date of registration: 11.10.2010
Date of assignment: 11.10.2010
Date and time of defence: 14.05.2012 00:00
Date of electronic submission:11.04.2012
Date of submission of printed version:11.04.2012
Date of proceeded defence: 14.05.2012
Opponents: doc. Mgr. Michal Kulich, Ph.D.
 
 
 
Guidelines
Posluchač během prvního roku studia, v návaznosti na absolvování předmětu Regrese (NSTP194+195), samostatně nastuduje problematiku lineárních smíšených modelů, jež jsou základem pro modelování longitudinálních pozorování. Následně budou v literatuře nastudovány dostupné přístupy pro klasifikaci longitudinálních pozorování založené na lineárním smíšeném modelu. V závislosti na zájmu posluchače je možné se více zaměřit buď na diskriminační analýzu (k dispozici tréninková data) nebo na shlukovou analýzu (nejsou k dispozici tréninková data). Jednotlivé přístupy budou v práci precizně matematicky popsány při jednotném značení, vybrané vlastnosti budou detailně odvozeny a zdůvodněny. Práce bude též obsahovat aplikaci na reálná data či simulační studii porovnávající jednotlivé přístupy.

V průběhu 1. ročníku navazujícího magisterského studia nutno absolvovat následující předměty

* Regrese včetně cvičení (NSTP194+195)
* Mnohorozměrná statistická analýza (NSTP018)

Odborná literatura bude vesměs v angličtině, diplomová práce bude psána česky nebo slovensky.
References
Brant, L. J., Sheng, S. L., Morrell, C. H., Verbeke, G. N., Lesaffre, E., and Carter, H. B. (2003). Screening for prostate cancer by using random-effects models. Journal of the Royal Statistical Society, Series A, 166, 51-62.

De la Cruz-Mesía, R., Quintana, F. A., and Marshall, G. (2008). Model-based clustering for longitudinal data. Computational Statistics and Data Analysis, 52, 1441-1457.

James, G. M. and Sugar, C. A. (2003). Clustering for sparsely sampled functional data. Journal of the American Statistical Association, 98, 397-408.

Marshall, G. and Barón, A. E. (2000). Linear discriminant models for unbalanced longitudinal data. Statistics in Medicine, 19, 1969-1981.

Marshall, G., De la Cruz-Mesa, R., Quintana, F. A., and Baron, A. E. (2009). Discriminant analysis for longitudinal data with multiple continuous responses and possibly missing data. Biometrics, 65, 69-80.

Morrell, C. H., Brant, L. J., and Sheng, S. (2007). Comparing approaches for predicting prostate cancer from longitudinal data. In 2007 Proceedings of the American Statistical Association, Biometrics Section, pages 127-133, Alexandria, 2007. American Statistical Association.

Tomasko, L., Helms, R. W., and Snapinn, S. M. (1999). A discriminant analysis extension to mixed models. Statistics in Medicine, 18, 1249-1260.

Villarroel, L., Marshall, G., and Barón, A. E. (2009). Cluster analysis using multivariate mixed effects models. Statistics in Medicine, 28, 2552-2565.

Verbeke, G. and Lesaffre, E. (1996). A linear mixed-effects model with heterogeneity in the random-effects population. Journal of the American Statistical Association, 91, 217-221.

Verbeke, G. and Molenberghs, G. (2000). Linear Mixed Models for Longitudinal Data. New York: Springer. ISBN 0-387-95027-3.

Wernecke, K.-D., Kalb, G., Schink, T., and Wegner, B. (2004). A mixed model approach to discriminant analysis with longitudinal data. Biometrical Journal, 46, 246-254.
Preliminary scope of work
S longitudinálními pozorováními se setkáváme všude tam, kde u jednotek zahrnutých do studie opakovaně (nejčastěji v čase) zjišťujeme údaje, které nás zajímají. Napozorované hodnoty lze následně použít pro klasifikaci jednotek do skupin obdodobně jako v rámci klasické diskriminační či shlukové analýzy. Tyto metody v jejich klasické formě založené na náhodném výběru z vícerozměrného normálního rozdělení však obvykle nelze použít a to z toho důvodu, že typická longitudinální data se vyznačují dvěma hlavními rysy:

1. počet pozorování u jednotlivých jednotek (subjektů) není konstantní,
2. jednotlivá pozorování nejsou prováděna ve stejných časech pro všechny jednotky.

Nelze tudíž předpokládat, že náhodné vektory reprezentující napozorovaná data u jednotlivých jednotek tvoří náhodný výběr z vícerozměrného rozdělení. V průběhu posledních 15 let však bylo v literatuře popsáno nespočet přístupů pro klasifikaci na základě longitudinálních dat vesměs kombinujících v nějaké formě lineární smíšený model s klasickými přístupy ke klasifikaci. Aplikace lze nalézt jak v medicíně (určení diagnózy či prognózy na základě opakovaných měření jistého ukazatele) tak ve financích (určení schopnosti splácet úvěr na základě historických údajů souvisejících s bonitou klienta), ale i jinde.
 
Charles University | Information system of Charles University | http://www.cuni.cz/UKEN-329.html