PředmětyPředměty(verze: 945)
Předmět, akademický rok 2023/2024
   Přihlásit přes CAS
Dobývání informací z webu - NSWI107
Anglický název: Web Knowledge Mining
Zajišťuje: Katedra softwarového inženýrství (32-KSI)
Fakulta: Matematicko-fyzikální fakulta
Platnost: od 2007
Semestr: letní
E-Kredity: 6
Rozsah, examinace: letní s.:2/2, Z+Zk [HT]
Počet míst: neomezen
Minimální obsazenost: neomezen
4EU+: ne
Virtuální mobilita / počet míst pro virtuální mobilitu: ne
Stav předmětu: zrušen
Jazyk výuky: čeština
Způsob výuky: prezenční
Způsob výuky: prezenční
Garant: RNDr. Leo Galamboš, Ph.D.
Třída: Informatika Mgr. - volitelný
Kategorizace předmětu: Informatika > Informatika, Aplikační software, Počítačová grafika a geometrie, Databázové systémy, Didaktika informatiky, Diskrétní matematika, Předměty širšího základu, Předměty obecného základu, Počítačová a formální lingvistika, Optimalizace, Programování, Softwarové inženýrství, Teoretická informatika
Prerekvizity : NDBI010, NPRG013
Výsledky anket   Termíny zkoušek   Rozvrh   Nástěnka   
Anotace -
Poslední úprava: T_KSI (24.05.2005)
Kurs je zaměřen na pochopení základních konceptů a pokročilých technik pro fulltextové webové vyhledávací systémy. Kurs pokrývá efektivní indexování, vyhledávání a procházení webu; Shlukování a dobývání informací. Účastník kursu bude implementovat projekt z oblasti webového vyhledávání.
Literatura
Poslední úprava: T_KSI (29.03.2005)

Soumen Chakrabarti: Mining the Web: Discovering Knowledge from Hypertext Data. Amsterdam: Morgan Kaufmann, 2003.

Ricardo Baeza-Yates, Berthier Ribeiro-Neto: Modern Information Retrieval. Addison Wesley, 1999.

Ian H. Witten, Alistair Moffat, and Timothy C. Bell: Managing

Gigabytes: Compressing and Indexing Documents and Images. Van Nostrand Reinhold, 1994.

Sylabus -
Poslední úprava: T_KSI (29.03.2005)

Jak implementovat vysokokapacitní robot.

Vektorový model, invertovaný index, kvalitativní měřítka vyhledávání.

Seznamy stop-slov, stemování, lematizace, soundex.

Realizace "Najdi podobné výsledky", eliminace duplicit.

Shlukování: metody shora a zdola; k-Means algoritmus, Self-Organizing

Maps, Multidimensional Scaling, Latent Semantic Indexing,

Collaborative Filtering;

Strojové učení.

PageRank, HITS.

Modelování Webu.

Odhalování zdrojů a komunit na webu.

 
Univerzita Karlova | Informační systém UK