Předměty

Váš prohlížeč nepodporuje JavaScript nebo je jeho podpora vypnutá. Některé funkce nemusejí být dostupné.

Dobývání informací z webu - NSWI107

Anglický název:	Web Knowledge Mining
Zajišťuje:	Katedra softwarového inženýrství (32-KSI)
Fakulta:	Matematicko-fyzikální fakulta
Platnost:	od 2007
Semestr:	letní
E-Kredity:	6
Rozsah, examinace:	letní s.:2/2, Z+Zk [HT]
Počet míst:	neomezen
Minimální obsazenost:	neomezen
4EU+:	ne
Virtuální mobilita / počet míst pro virtuální mobilitu:	ne
Stav předmětu:	zrušen
Jazyk výuky:	čeština
Způsob výuky:	prezenční
Způsob výuky:	prezenční

Garant:	RNDr. Leo Galamboš, Ph.D.
Třída:	Informatika Mgr. - volitelný
Kategorizace předmětu:	Informatika > Informatika, Aplikační software, Počítačová grafika a geometrie, Databázové systémy, Didaktika informatiky, Diskrétní matematika, Předměty širšího základu, Předměty obecného základu, Počítačová a formální lingvistika, Optimalizace, Programování, Softwarové inženýrství, Teoretická informatika
Prerekvizity :	NDBI010, NPRG013

Výsledky anket Termíny zkoušek Rozvrh Nástěnka

Anotace -

Poslední úprava: T_KSI (24.05.2005)

Kurs je zaměřen na pochopení základních konceptů a pokročilých technik pro fulltextové webové vyhledávací systémy. Kurs pokrývá efektivní indexování, vyhledávání a procházení webu; Shlukování a dobývání informací. Účastník kursu bude implementovat projekt z oblasti webového vyhledávání.

Literatura

Poslední úprava: T_KSI (29.03.2005)

Soumen Chakrabarti: Mining the Web: Discovering Knowledge from Hypertext Data. Amsterdam: Morgan Kaufmann, 2003.

Ricardo Baeza-Yates, Berthier Ribeiro-Neto: Modern Information Retrieval. Addison Wesley, 1999.

Ian H. Witten, Alistair Moffat, and Timothy C. Bell: Managing

Gigabytes: Compressing and Indexing Documents and Images. Van Nostrand Reinhold, 1994.

Sylabus -

Poslední úprava: T_KSI (29.03.2005)

Jak implementovat vysokokapacitní robot.

Vektorový model, invertovaný index, kvalitativní měřítka vyhledávání.

Seznamy stop-slov, stemování, lematizace, soundex.

Realizace "Najdi podobné výsledky", eliminace duplicit.

Shlukování: metody shora a zdola; k-Means algoritmus, Self-Organizing

Maps, Multidimensional Scaling, Latent Semantic Indexing,

Collaborative Filtering;

Strojové učení.

PageRank, HITS.

Modelování Webu.

Odhalování zdrojů a komunit na webu.