Témata prací (Výběr práce)Témata prací (Výběr práce)(verze: 368)
Detail práce
   Přihlásit přes CAS
Structured Data Extraction from Unstructured Text
Název práce v češtině: Structured Data Extraction from Unstructured Text
Název v anglickém jazyce: Structured Data Extraction from Unstructured Text
Klíčová slova: extrakcia štrukturovaných dát, extrakčné pravidlá, (semi)automatická indukcia wrapperov
Klíčová slova anglicky: structured data extraction, extraction rules, (semi)automatic wrapper induction
Akademický rok vypsání: 2011/2012
Typ práce: diplomová práce
Jazyk práce: angličtina
Ústav: Katedra softwarového inženýrství (32-KSI)
Vedoucí / školitel: doc. Mgr. Martin Nečaský, Ph.D.
Řešitel: skrytý - zadáno a potvrzeno stud. odd.
Datum přihlášení: 04.11.2011
Datum zadání: 07.11.2011
Datum potvrzení stud. oddělením: 01.12.2011
Datum a čas obhajoby: 27.05.2013 11:00
Datum odevzdání elektronické podoby:11.04.2013
Datum odevzdání tištěné podoby:12.04.2013
Datum proběhlé obhajoby: 27.05.2013
Oponenti: RNDr. Michal Kopecký, Ph.D.
 
 
 
Zásady pro vypracování
The author of this thesis will approach the problem of automatic structured data extraction from a semi-formatted plain text [1,2,3]. The input is a collection of text documents, an ontology describing the data domain for which the data should be extracted and a configuration file with extraction rules. Basic methods are currently being implemented in the scope of a student software project. In the thesis, the author will extend the basic methods with new methods to improve the performance. He will also compare the success of his method of data extraction with methods published in the current literature.
Seznam odborné literatury
[1] Dayne Freitag , Andrew McCallum, Information Extraction with HMM Structures Learned by Stochastic Optimization, Proceedings of the Seventeenth National Conference on Artificial Intelligence and Twelfth Conference on Innovative Applications of Artificial Intelligence, p.584-589, July 30-August 03, 2000

[2] AnHai Doan, Jeffrey F. Naughton, Raghu Ramakrishnan, Akanksha Baid, Xiaoyong Chai, Fei Chen, Ting Chen, Eric Chu, Pedro DeRose, Byron Gao, Chaitanya Gokhale, Jiansheng Huang, Warren Shen, and Ba-Quy Vuong. 2009. Information extraction challenges in managing unstructured data. SIGMOD Rec. 37, 4 (March 2009), 14-20

[3] Ronen Feldman, James Sanger. The text mining handbook: advanced approaches in analyzing unstructured data. 2006. ISBN 978-0521836579.
 
Univerzita Karlova | Informační systém UK