Structured Data Extraction from Unstructured Text
Název práce v češtině: | Structured Data Extraction from Unstructured Text |
---|---|
Název v anglickém jazyce: | Structured Data Extraction from Unstructured Text |
Klíčová slova: | extrakcia štrukturovaných dát, extrakčné pravidlá, (semi)automatická indukcia wrapperov |
Klíčová slova anglicky: | structured data extraction, extraction rules, (semi)automatic wrapper induction |
Akademický rok vypsání: | 2011/2012 |
Typ práce: | diplomová práce |
Jazyk práce: | angličtina |
Ústav: | Katedra softwarového inženýrství (32-KSI) |
Vedoucí / školitel: | doc. Mgr. Martin Nečaský, Ph.D. |
Řešitel: | skrytý - zadáno a potvrzeno stud. odd. |
Datum přihlášení: | 04.11.2011 |
Datum zadání: | 07.11.2011 |
Datum potvrzení stud. oddělením: | 01.12.2011 |
Datum a čas obhajoby: | 27.05.2013 11:00 |
Datum odevzdání elektronické podoby: | 11.04.2013 |
Datum odevzdání tištěné podoby: | 12.04.2013 |
Datum proběhlé obhajoby: | 27.05.2013 |
Oponenti: | RNDr. Michal Kopecký, Ph.D. |
Zásady pro vypracování |
The author of this thesis will approach the problem of automatic structured data extraction from a semi-formatted plain text [1,2,3]. The input is a collection of text documents, an ontology describing the data domain for which the data should be extracted and a configuration file with extraction rules. Basic methods are currently being implemented in the scope of a student software project. In the thesis, the author will extend the basic methods with new methods to improve the performance. He will also compare the success of his method of data extraction with methods published in the current literature. |
Seznam odborné literatury |
[1] Dayne Freitag , Andrew McCallum, Information Extraction with HMM Structures Learned by Stochastic Optimization, Proceedings of the Seventeenth National Conference on Artificial Intelligence and Twelfth Conference on Innovative Applications of Artificial Intelligence, p.584-589, July 30-August 03, 2000
[2] AnHai Doan, Jeffrey F. Naughton, Raghu Ramakrishnan, Akanksha Baid, Xiaoyong Chai, Fei Chen, Ting Chen, Eric Chu, Pedro DeRose, Byron Gao, Chaitanya Gokhale, Jiansheng Huang, Warren Shen, and Ba-Quy Vuong. 2009. Information extraction challenges in managing unstructured data. SIGMOD Rec. 37, 4 (March 2009), 14-20 [3] Ronen Feldman, James Sanger. The text mining handbook: advanced approaches in analyzing unstructured data. 2006. ISBN 978-0521836579. |