Thesis (Selection of subject)Thesis (Selection of subject)(version: 385)
Thesis details
   Login via CAS
Detekce spamů
Thesis title in Czech: Detekce spamů
Thesis title in English: Spam Detection
Academic year of topic announcement: 2005/2006
Thesis type: Bachelor's thesis
Thesis language: čeština
Department: Institute of Formal and Applied Linguistics (32-UFAL)
Supervisor: doc. RNDr. Daniel Zeman, Ph.D.
Author: hidden - assigned and confirmed by the Study Dept.
Date of registration: 20.02.2006
Date of assignment: 20.02.2006
Date and time of defence: 26.06.2007 00:00
Date of electronic submission:26.06.2007
Date of proceeded defence: 26.06.2007
Opponents: RNDr. Kiril Ribarov, Ph.D.
 
 
 
Guidelines
Cílem je vytvořit nástroj, resp. komponentu, která předpokládá, že vstupní text je e-mail, a pokusí se určit, zda jde o nevyžádané obchodní sdělení (spam), nebo o normální e-mail. K tomu využije jak informace lingvistické povahy (částečné "porozumění" textu, identifikace klíčových slov či frází zejména v souvislosti s obvyklou nabídkou zboží a služeb ve spamech, vyrovnání se s úmyslně vloženým šumem ("v!agra"), popř. identifikace nečekaného jazyka), tak i technické informace, které lze vyčíst např. z hlaviček mailu (povolení a zakázaní uživatelé a IP adresy, tělo mailu jako HTML odkaz atd.) Nástroj by měl být schopen se adaptovat (učit) na maily, které konkrétní uživatel často dostává a ví se o nich, že to jsou, nebo naopak nejsou spamy.

Výsledkem nemá být komplexní program pro správu e-mailů, ale komponenta, kterou bude možné do podobných systémů zasadit. Důraz je tedy kladen na snadnou komunikaci s jinými programy a přenositelnost.
References
Frank Smadja, Henry Tumblin: /Automatic Spam Detection as a Text Classification Task/. In: Proceedings of the Workshop on Operational Text Classification Systems (OTC 2002), Tampere, Finland, 2002

G. Sakkis, I. Androutsopoulos, G. Paliouras, V. Karkaletsis, C.D. Spyropoulos and P. Stamatopoulos/, "Stacking Classifiers for Anti-*Spam* Filtering of E-Mail". /In Proceedings of the 6th Conference on Empirical Methods in Natural Language Processing (EMNLP 2001), Carnegie Mellon University, Pittsburgh, PA, USA, pp. 44-50, 2001.
 
Charles University | Information system of Charles University | http://www.cuni.cz/UKEN-329.html