Detekce spamů
Thesis title in Czech: | Detekce spamů |
---|---|
Thesis title in English: | Spam Detection |
Academic year of topic announcement: | 2005/2006 |
Thesis type: | Bachelor's thesis |
Thesis language: | čeština |
Department: | Institute of Formal and Applied Linguistics (32-UFAL) |
Supervisor: | doc. RNDr. Daniel Zeman, Ph.D. |
Author: | hidden![]() |
Date of registration: | 20.02.2006 |
Date of assignment: | 20.02.2006 |
Date and time of defence: | 26.06.2007 00:00 |
Date of electronic submission: | 26.06.2007 |
Date of proceeded defence: | 26.06.2007 |
Opponents: | RNDr. Kiril Ribarov, Ph.D. |
Guidelines |
Cílem je vytvořit nástroj, resp. komponentu, která předpokládá, že vstupní text je e-mail, a pokusí se určit, zda jde o nevyžádané obchodní sdělení (spam), nebo o normální e-mail. K tomu využije jak informace lingvistické povahy (částečné "porozumění" textu, identifikace klíčových slov či frází zejména v souvislosti s obvyklou nabídkou zboží a služeb ve spamech, vyrovnání se s úmyslně vloženým šumem ("v!agra"), popř. identifikace nečekaného jazyka), tak i technické informace, které lze vyčíst např. z hlaviček mailu (povolení a zakázaní uživatelé a IP adresy, tělo mailu jako HTML odkaz atd.) Nástroj by měl být schopen se adaptovat (učit) na maily, které konkrétní uživatel často dostává a ví se o nich, že to jsou, nebo naopak nejsou spamy.
Výsledkem nemá být komplexní program pro správu e-mailů, ale komponenta, kterou bude možné do podobných systémů zasadit. Důraz je tedy kladen na snadnou komunikaci s jinými programy a přenositelnost. |
References |
Frank Smadja, Henry Tumblin: /Automatic Spam Detection as a Text Classification Task/. In: Proceedings of the Workshop on Operational Text Classification Systems (OTC 2002), Tampere, Finland, 2002
G. Sakkis, I. Androutsopoulos, G. Paliouras, V. Karkaletsis, C.D. Spyropoulos and P. Stamatopoulos/, "Stacking Classifiers for Anti-*Spam* Filtering of E-Mail". /In Proceedings of the 6th Conference on Empirical Methods in Natural Language Processing (EMNLP 2001), Carnegie Mellon University, Pittsburgh, PA, USA, pp. 44-50, 2001. |