Klasifikace na základě longitudinálních pozorování
Thesis title in Czech: | Klasifikace na základě longitudinálních pozorování |
---|---|
Thesis title in English: | Classification based on longitudinal observations |
Key words: | lineární smíšený model, longitudinální data, diskriminační analýza, Bayesova věta |
English key words: | linear mixed-effects model, longitudinal data, discriminant analysis, Bayes' theorem |
Academic year of topic announcement: | 2010/2011 |
Thesis type: | diploma thesis |
Thesis language: | čeština |
Department: | Department of Probability and Mathematical Statistics (32-KPMS) |
Supervisor: | prof. RNDr. Arnošt Komárek, Ph.D. |
Author: | hidden![]() |
Date of registration: | 11.10.2010 |
Date of assignment: | 11.10.2010 |
Date and time of defence: | 14.05.2012 00:00 |
Date of electronic submission: | 11.04.2012 |
Date of submission of printed version: | 11.04.2012 |
Date of proceeded defence: | 14.05.2012 |
Opponents: | doc. Mgr. Michal Kulich, Ph.D. |
Guidelines |
Posluchač během prvního roku studia, v návaznosti na absolvování předmětu Regrese (NSTP194+195), samostatně nastuduje problematiku lineárních smíšených modelů, jež jsou základem pro modelování longitudinálních pozorování. Následně budou v literatuře nastudovány dostupné přístupy pro klasifikaci longitudinálních pozorování založené na lineárním smíšeném modelu. V závislosti na zájmu posluchače je možné se více zaměřit buď na diskriminační analýzu (k dispozici tréninková data) nebo na shlukovou analýzu (nejsou k dispozici tréninková data). Jednotlivé přístupy budou v práci precizně matematicky popsány při jednotném značení, vybrané vlastnosti budou detailně odvozeny a zdůvodněny. Práce bude též obsahovat aplikaci na reálná data či simulační studii porovnávající jednotlivé přístupy.
V průběhu 1. ročníku navazujícího magisterského studia nutno absolvovat následující předměty * Regrese včetně cvičení (NSTP194+195) * Mnohorozměrná statistická analýza (NSTP018) Odborná literatura bude vesměs v angličtině, diplomová práce bude psána česky nebo slovensky. |
References |
Brant, L. J., Sheng, S. L., Morrell, C. H., Verbeke, G. N., Lesaffre, E., and Carter, H. B. (2003). Screening for prostate cancer by using random-effects models. Journal of the Royal Statistical Society, Series A, 166, 51-62.
De la Cruz-Mesía, R., Quintana, F. A., and Marshall, G. (2008). Model-based clustering for longitudinal data. Computational Statistics and Data Analysis, 52, 1441-1457. James, G. M. and Sugar, C. A. (2003). Clustering for sparsely sampled functional data. Journal of the American Statistical Association, 98, 397-408. Marshall, G. and Barón, A. E. (2000). Linear discriminant models for unbalanced longitudinal data. Statistics in Medicine, 19, 1969-1981. Marshall, G., De la Cruz-Mesa, R., Quintana, F. A., and Baron, A. E. (2009). Discriminant analysis for longitudinal data with multiple continuous responses and possibly missing data. Biometrics, 65, 69-80. Morrell, C. H., Brant, L. J., and Sheng, S. (2007). Comparing approaches for predicting prostate cancer from longitudinal data. In 2007 Proceedings of the American Statistical Association, Biometrics Section, pages 127-133, Alexandria, 2007. American Statistical Association. Tomasko, L., Helms, R. W., and Snapinn, S. M. (1999). A discriminant analysis extension to mixed models. Statistics in Medicine, 18, 1249-1260. Villarroel, L., Marshall, G., and Barón, A. E. (2009). Cluster analysis using multivariate mixed effects models. Statistics in Medicine, 28, 2552-2565. Verbeke, G. and Lesaffre, E. (1996). A linear mixed-effects model with heterogeneity in the random-effects population. Journal of the American Statistical Association, 91, 217-221. Verbeke, G. and Molenberghs, G. (2000). Linear Mixed Models for Longitudinal Data. New York: Springer. ISBN 0-387-95027-3. Wernecke, K.-D., Kalb, G., Schink, T., and Wegner, B. (2004). A mixed model approach to discriminant analysis with longitudinal data. Biometrical Journal, 46, 246-254. |
Preliminary scope of work |
S longitudinálními pozorováními se setkáváme všude tam, kde u jednotek zahrnutých do studie opakovaně (nejčastěji v čase) zjišťujeme údaje, které nás zajímají. Napozorované hodnoty lze následně použít pro klasifikaci jednotek do skupin obdodobně jako v rámci klasické diskriminační či shlukové analýzy. Tyto metody v jejich klasické formě založené na náhodném výběru z vícerozměrného normálního rozdělení však obvykle nelze použít a to z toho důvodu, že typická longitudinální data se vyznačují dvěma hlavními rysy:
1. počet pozorování u jednotlivých jednotek (subjektů) není konstantní, 2. jednotlivá pozorování nejsou prováděna ve stejných časech pro všechny jednotky. Nelze tudíž předpokládat, že náhodné vektory reprezentující napozorovaná data u jednotlivých jednotek tvoří náhodný výběr z vícerozměrného rozdělení. V průběhu posledních 15 let však bylo v literatuře popsáno nespočet přístupů pro klasifikaci na základě longitudinálních dat vesměs kombinujících v nějaké formě lineární smíšený model s klasickými přístupy ke klasifikaci. Aplikace lze nalézt jak v medicíně (určení diagnózy či prognózy na základě opakovaných měření jistého ukazatele) tak ve financích (určení schopnosti splácet úvěr na základě historických údajů souvisejících s bonitou klienta), ale i jinde. |