Předměty

Váš prohlížeč nepodporuje JavaScript nebo je jeho podpora vypnutá. Některé funkce nemusejí být dostupné.

Úvod do strojového učení v systému R - NPFL054

Anglický název:	Introduction to Machine Learning with R
Zajišťuje:	Ústav formální a aplikované lingvistiky (32-UFAL)
Fakulta:	Matematicko-fyzikální fakulta
Platnost:	od 2023 do 2023
Semestr:	letní
E-Kredity:	5
Rozsah, examinace:	letní s.:2/2, Z+Zk [HT]
Počet míst:	neomezen
Minimální obsazenost:	neomezen
4EU+:	ne
Virtuální mobilita / počet míst pro virtuální mobilitu:	ne
Stav předmětu:	nevyučován
Jazyk výuky:	čeština, angličtina
Způsob výuky:	prezenční
Způsob výuky:	prezenční
Další informace:	https://ufal.mff.cuni.cz/course/npfl054

Garant:	doc. Mgr. Barbora Vidová Hladká, Ph.D. RNDr. Martin Holub, Ph.D.
Třída:	DS, matematická lingvistika Informatika Bc. Informatika Mgr. - Matematická lingvistika
Kategorizace předmětu:	Informatika > Informatika, Aplikační software, Počítačová grafika a geometrie, Databázové systémy, Didaktika informatiky, Diskrétní matematika, Předměty širšího základu, Předměty obecného základu, Počítačová a formální lingvistika, Optimalizace, Programování, Softwarové inženýrství, Teoretická informatika, Počítačová a formální lingvistika
Neslučitelnost :	NPFL129
Záměnnost :	NPFL129
Je neslučitelnost pro:	NPFL129
Je záměnnost pro:	NPFL129

Výsledky anket Termíny zkoušek Rozvrh Nástěnka

Anotace -

Poslední úprava: doc. Mgr. Barbora Vidová Hladká, Ph.D. (15.05.2020)

Přednášky pokrývají jak teoretické základy, tak praktické algoritmy strojového učení (SU). Je kladen důraz na komplexní pochopení procesu SU, který zahrnuje analýzu dat, volbu metody SU, ladění parametrů učení a statistické vyhodnocení a porovnání výsledných modelů. Cvičení jsou zaměřena na využití standardních knihoven statistického systému R v úlohách SU. Všechny domácí úkoly jsou praktická cvičení s použitím R, přičemž poslední úkol je nejrozsáhlejší a zahrnuje komplexní zpracování typického, nepříliš náročného problému a zpracování zprávy o variantách řešení a jejich vyhodnocení.

Cíl předmětu -

Poslední úprava: doc. Mgr. Barbora Vidová Hladká, Ph.D. (15.05.2020)

Cílem kurzu je představit proces strojového učení z teoretického i praktického hlediska. Student se seznámí s teoretickými základy vybraných algoritmů a naučí se prakticky řešit úlohy strojového učení pomocí knihoven statistického systému R. Student musí zvládnout komplexní zpracování ukázkového problému strojového učení a dokumentaci o variantách řešení a jejich vyhodnocení.

Podmínky zakončení předmětu -

Poslední úprava: doc. Mgr. Barbora Vidová Hladká, Ph.D. (29.04.2021)

Studenti musí během semestru 1) prezentovat nebodovaný domácí úkol, 2) odevzdat dva bodované domácí úkoly tak, aby celkový počet bodů překročil stanovený bodový limit, a 3) napsat dva bodované testy tak, aby celkový počet bodů překročil stanovený bodový limit.

Získání zápočtu je podmínkou pro konání zkoušky.

Podrobnosti k domácím úkolům a testům jsou uvedeny na webové stránce předmětu.

Literatura -

Poslední úprava: doc. Mgr. Barbora Vidová Hladká, Ph.D. (12.05.2020)

James, Gareth, Daniela Witten, Trevor Hastie, and Robert Tibshirani: An Introduction to Statistical Learning. Springer, 2013.

Lantz, Brett: Machine Learning with R. Packt Publishing, 2013.

Požadavky ke zkoušce -

Poslední úprava: doc. Mgr. Barbora Vidová Hladká, Ph.D. (29.04.2021)

Zkouška se koná ústně, při hodnocení studenta se však berou do úvahy také výsledky písemných testů a domácích úkolů. Získání zápočtu je podmínkou pro konání zkoušky.

Požadavky ke zkoušce odpovídají sylabu předmětu. Podrobnosti jsou uvedené na webové stránce předmětu.

Sylabus -

Poslední úprava: doc. Mgr. Barbora Vidová Hladká, Ph.D. (15.05.2020)

Strojové učení - základní koncepty, ukázky praktických aplikací, teoretické základy. Učení s učitelem, učení bez učitele. Klasifikační a regresní úlohy. Klasifikace do dvou nebo více tříd. Trénovací a testovací příklady. Vektory příznaků. Cílový atribut a predikční funkce. Vývojový cyklus strojového učení. Prokletí dimenzionality. Metody shlukování.

Rozhodovací stromy. Algoritmus učení, kritéria větvení a prořezávání. Náhodné lesy.

Lineární a logistická regrese. Metoda nejmenších čtverců. Diskriminativní klasifikátor.

Učení založené na příkladech. Algoritmus k-NN.

Naivní Bayesův klasifikátor. Bayesovské sítě.

Metoda podpůrných vektorů. Klasifikátor pro lineárně separabilní a neseparabilní třídy. Kernelové funkce.

Metody pro kombinaci prediktorů. Nestabilní algoritmy učení. Bagging a boosting. Algoritmus AdaBoost.

Parametry ve strojového učení, ladění hyperparametrů. Prohledávání prostoru parametrů. Metoda největšího spádu. Metoda maximální věrohodnosti.

Vyhodnocování experimentů. Práce s testovacími daty. Výběrová chyba, generalizační chyba. Křížová validace, metoda leave-one-out. Metoda bootstrap. Míry úspěšnosti. Vyhodnocování binárních klasifikátorů. Křivka ROC.

Statistické testy. Statistické hypotézy, jednovýběrový a dvouvýběrový t-test, chí-kvadrát testy. Hladina významnosti, p-hodnota. Použití statistických testů pro vyhodnocování klasifikátorů. Intervaly spolehlivosti.

Přetrénování. Jak odhalit a zabránit. Regularizace. Dekompozice chyby modelu na vychýlení a rozptyl.

Obecné principy selekce příznaků. Výběr příznaků pomocí informačního zisku, hladové algoritmy. Redukce dimenze, analýza hlavních komponent.

Základy neuronových sítí. Jednoduchý perceptron. Neuronové sítě s jednou skrytou vrstvou. Vícevrstvé dopředné modely, algoritmus zpětné propagace. Poznámky k hlubokému učení.

Poslední úprava: doc. Mgr. Barbora Vidová Hladká, Ph.D. (15.05.2020)

Machine learning - basic concepts, examples of practical applications, theoretical foundations. Supervised and unsupervised learning. Classification and regression tasks. Classification into two, or more classes. Training and test examples. Feature vectors. Target variable and prediction function. Machine learning development process. Curse of dimensionality. Clustering.

Decision tree learning. Learning algorithm, splitting criteria and pruning. Random forests.

Linear and logistic regression. Least squares methods. Discriminative classifiers.

Instance-based learning. k-NN algoritmus.

Naive Bayes classifier. Bayesian belief networks.

Support Vector Machines. Large and soft margin classifier. Kernel functions.

Ensemble methods. Unstable learning algorithms. Bagging and boosting. AdaBoost algorithm.

Parameters in machine learning. Hyperparameters tuning. Searching parameter space. Gradient descent algorithm. Maximum likelihood estimation.

Experiment evaluation. Working with development and test data. Sample error, generalization error. Cross-validation, leave-one-out method. Bootstrap method. Performance measures. Evaluation of binary classifiers. ROC curve.

Statistical tests. Statistical hypotheses, one-sample and two-sample t-tests, chi-square tests. Significance level, p-value. Using statistical tests for classifier evaluation. Confidence intervals.

Overfitting. How to recognize and avoid. Regularization. Bias-variance decomposition.

General principles of feature selection. Feature selection using information gain, greedy algorithms.

Dimensionality reduction, Principal Component Analysis.

Foundations of Neural Networks. Single Perceptron, Single Layer Perceptron. The architecture of multi-layer feed-forward models and the idea of back-propagation training. Remarks on deep learning.