Odhadování modelů s náhodnými efekty hybridními bayesovskými metodami
Thesis title in Czech: | Odhadování modelů s náhodnými efekty hybridními bayesovskými metodami |
---|---|
Thesis title in English: | Estimating Random Effects Models with Hybrid Bayesian Methods |
Key words: | náhodné efekty|aposteriorní rozdělení|MCMC|variační inference|hybridní metody |
English key words: | random effects|posterior|MCMC|variational inference|hybrid methods |
Academic year of topic announcement: | 2025/2026 |
Thesis type: | diploma thesis |
Thesis language: | |
Department: | Department of Probability and Mathematical Statistics (32-KPMS) |
Supervisor: | RNDr. Jan Vávra, Ph.D. |
Author: |
Guidelines |
Je známo, že aposteriorní rozdělení neznámých parametrů v klasickém normálním lineárním modelu s náhodnými efekty lze při vhodné volbě apriorních rozdělení určit explicitně. To nabízí bezpečnou půdu, na které lze zkoumat moderní hybridní metody původně navržené pro odhad složitých hierarchických modelů.
Od studenta se očekává nastudování a porovnání zejména následujících metod: i) MCMC (Gibbsův výběrový plán, Metropolisův-Hastingsův algoritmus, ...) - nákladná vzorkovací metoda, pro přesnou aproximaci aposteriorního rozdělení často považovaná za zlatý standard, ii) variační inference - optimalizační metoda - méně přesná metoda pro nalezení nejbližšího člena variační rodiny rozdělení k aposteriornímu rozdělení, jejíž výpočetní náklady jsou snesitelné i pro vysokorozměrné problémy, iii) hybridní metody - vhodné kombinace obou výše uvedených metod, které zachovávají přesnou inferenci o klíčových parametrech modelu, přičemž výpočetní náklady jsou ve vysokorozměrném prostředí stále únosné. Modely náhodných efektů mají několik klíčových parametrů (regresní koeficienty, parametry rozptylu), pro které je žádoucí přesná inference, a mnoho rušivých parametrů (náhodné efekty), jejichž počet roste s počtem jedinců. Nabízí se tak odhadovat klíčové parametry pomocí MCMC a náhodné efekty pomocí variační inference. Výzva pro studenta spočívá ve správné formalizaci takovéto kombinace metody generování a optimalizace. Lze takovou metodu zobecnit i mimo modely s náhodnými efekty? Od studenta se nadále očekává, že provede simulační studii, kde se zaměří nejen na kvalitu aproximace aposteriorního rozdělení, ale také na výpočetní náklady (čas a paměť) za zvyšování počtu jedinců, aby demonstroval užitečnost variačního a hybridního přístupu. |
References |
[1] Brooks, S., Gelman, A., Jones, G., & Meng, X.-L. (Eds.). (2011). Handbook of Markov Chain Monte Carlo (1st ed.). Chapman and Hall/CRC. https://doi.org/10.1201/b10905
[2] Blei, D. M., Kucukelbir, A., & McAuliffe, J. D. (2017). Variational Inference: A Review for Statisticians. Journal of the American Statistical Association, 112(518), 859–877. https://doi.org/10.1080/01621459.2017.1285773 [3] Domke, J. (2017). Divergence Bounds for Hybridizing Variational Inference and MCMC. https://arxiv.org/abs/1706.06529 [4] Freitas, N., Hojen-Sorensen, P., Jordan, M., Russell, S. (2001). Variational MCMC. https://arxiv.org/abs/1301.2266 [5] Salimans, T., Kingma, D., Welling, M. (2015): Markov Chain Monte Carlo and Variational Inference: Bridging the Gap. https://arxiv.org/abs/1410.6460 [6] Lee, S.Y. (2021). Gibbs sampler and coordinate ascent variational inference: A set-theoretical review. Communications in Statistics - Theory and Methods. 51. 1-21. 10.1080/03610926.2021.1921214. |
Preliminary scope of work in English |
It is known that posterior distribution of unknown parameters in classical normal linear model with random effects can be under conjugate priors determined explicitly. This offers a safe ground on which modern hybrid methods for estimation of complex hierarchical models can be investigated. In particular, student is expected to compare the following methods:
i) MCMC (Gibbs, Metropolis-Hastings, ...) - an expensive sampling method, for its accurate approximation of the posterior often considered a golden standard, ii) variational inference - an optimization method - less precise method for finding the closest member of variational family of distributions to the posterior, which is scalable for high-dimensional problems, iii) hybrid methods - suitable combinations of the two methods above that preserve accurate inference about key model parameters while the computational costs are bearable in high-dimensional setting. Random effects models have several key parameters (regression coefficients, variance parameters), for which accurate inference is desired, and many nuisance parameters (random effects), number of which increases with number of individuals. The idea is to estimate key parameters via MCMC and random effects with variational inference. The challenge for the student lies in the proper formalization of such combination of sampling and optimization method. Can such method be generalized beyond random effects models? Student is also expected to conduct a simulation study where the focus is not only on the quality of posterior approximation but on computational costs (time, memory) as the number of distinct individuals increases to demonstrate the benefits of variational and hybrid approach. |