Structured Data Extraction from Unstructured Text
Název práce v češtině: | Extrakcia štruktúrovaných dát z neštruktúrovaného textu |
---|---|
Název v anglickém jazyce: | Structured Data Extraction from Unstructured Text |
Klíčová slova: | extrakcia štrukturovaných dát, extrakčné pravidlá, (semi)automatická indukcia wrapperov |
Klíčová slova anglicky: | structured data extraction, extraction rules, (semi)automatic wrapper induction |
Akademický rok vypsání: | 2011/2012 |
Typ práce: | diplomová práce |
Jazyk práce: | angličtina |
Ústav: | Katedra softwarového inženýrství (32-KSI) |
Vedoucí / školitel: | doc. Mgr. Martin Nečaský, Ph.D. |
Řešitel: | skrytý - zadáno a potvrzeno stud. odd. |
Datum přihlášení: | 04.11.2011 |
Datum zadání: | 07.11.2011 |
Datum potvrzení stud. oddělením: | 03.07.2013 |
Datum a čas obhajoby: | 09.09.2013 00:00 |
Datum odevzdání elektronické podoby: | 01.08.2013 |
Datum odevzdání tištěné podoby: | 02.08.2013 |
Datum proběhlé obhajoby: | 09.09.2013 |
Oponenti: | RNDr. Michal Kopecký, Ph.D. |
Zásady pro vypracování |
The author of this thesis will approach the problem of automatic structured data extraction from a semi-formatted plain text [1,2,3]. The input is a collection of text documents, an ontology describing the data domain for which the data should be extracted and a configuration file with extraction rules. Basic methods are currently being implemented in the scope of a student software project. In the thesis, the author will compare the success of his method of data extraction with methods published in the current literature. |
Seznam odborné literatury |
[1] Dayne Freitag , Andrew McCallum, Information Extraction with HMM Structures Learned by Stochastic Optimization, Proceedings of the Seventeenth National Conference on Artificial Intelligence and Twelfth Conference on Innovative Applications of Artificial Intelligence, p.584-589, July 30-August 03, 2000
[2] AnHai Doan, Jeffrey F. Naughton, Raghu Ramakrishnan, Akanksha Baid, Xiaoyong Chai, Fei Chen, Ting Chen, Eric Chu, Pedro DeRose, Byron Gao, Chaitanya Gokhale, Jiansheng Huang, Warren Shen, and Ba-Quy Vuong. 2009. Information extraction challenges in managing unstructured data. SIGMOD Rec. 37, 4 (March 2009), 14-20 [3] Ronen Feldman, James Sanger. The text mining handbook: advanced approaches in analyzing unstructured data. 2006. ISBN 978-0521836579. |