Student se bude zabývat metodou distribuční regrese, jejímž cílem je modelovat celé podmíněné rozdělení výsledné proměnné. Moderním přístupem v této oblasti je metoda engrese (Xinwei a Meinshausen, 2025), kterou autoři formulují pro obecnou třídu funkcí, přičemž neuronové sítě slouží pouze jako příklad jedné z možných funkcí a energy score (Gneiting a Raftery, 2007) je využita jako ztrátová funkce. Úkolem studenta je prostudovat obecnou definici engrese se zaměřením na rozlišení pre-additive modelu (kdy je do modelu přidáván šum před nelineární transformací) a post-additive modelu, a analyzovat, jak volba třídy funkcí a ztrátové funkce vede k redukci na známé regresní metody. Důraz je kladen na pochopení významu těchto rozdílů pro vlastnosti modelu. V rámci simulační studie či analýzy reálných dat student prověří, zda engrese a její alternativní varianty skutečně vykazují lepší schopnost extrapolace mimo rozsah tréninkových dat, což je jedna z hlavních aplikací této metody.
References
Xinwei Shen, Nicolai Meinshausen, Engression: extrapolation through the lens of distributional regression, Journal of the Royal Statistical Society Series B: Statistical Methodology, Volume 87, Issue 3, July 2025, Pages 653–677, https://doi.org/10.1093/jrsssb/qkae108
Gneiting, T., & Raftery, A. E. (2007). Strictly Proper Scoring Rules, Prediction, and Estimation. Journal of the American Statistical Association, 102(477), 359–378. https://doi.org/10.1198/016214506000001437
Preliminary scope of work in English
The student will focus on the method of distributional regression, the goal of which is to correctly model the entire conditional distribution of the outcome variable. A modern approach in this area is the engression method (Xinwei and Meinshausen, 2025), which the authors formulate for a general class of functions, with neural networks serving only as one example of possible functions and the energy score (Gneiting and Raftery, 2007) used as the loss function. The student's task is to study the general definition of engression, with an emphasis on distinguishing between the pre-additive model (where noise is added before the nonlinear transformation) and the post-additive model, and to analyze how choices of function classes and loss functions lead to reductions to known regression methods. The emphasis is on understanding the significance of these differences for the properties of the model. As part of a simulation study or real data analysis, the student will verify whether engression and its alternative variants indeed demonstrate better extrapolation ability beyond the range of training data, which is one of the main applications of this method.