Témata prací (Výběr práce)Témata prací (Výběr práce)(verze: 368)
Detail práce
   Přihlásit přes CAS
Structured Data Extraction from Unstructured Text
Název práce v češtině: Extrakcia štruktúrovaných dát z neštruktúrovaného textu
Název v anglickém jazyce: Structured Data Extraction from Unstructured Text
Klíčová slova: extrakcia štrukturovaných dát, extrakčné pravidlá, (semi)automatická indukcia wrapperov
Klíčová slova anglicky: structured data extraction, extraction rules, (semi)automatic wrapper induction
Akademický rok vypsání: 2011/2012
Typ práce: diplomová práce
Jazyk práce: angličtina
Ústav: Katedra softwarového inženýrství (32-KSI)
Vedoucí / školitel: doc. Mgr. Martin Nečaský, Ph.D.
Řešitel: skrytý - zadáno a potvrzeno stud. odd.
Datum přihlášení: 04.11.2011
Datum zadání: 07.11.2011
Datum potvrzení stud. oddělením: 03.07.2013
Datum a čas obhajoby: 09.09.2013 00:00
Datum odevzdání elektronické podoby:01.08.2013
Datum odevzdání tištěné podoby:02.08.2013
Datum proběhlé obhajoby: 09.09.2013
Oponenti: RNDr. Michal Kopecký, Ph.D.
 
 
 
Zásady pro vypracování
The author of this thesis will approach the problem of automatic structured data extraction from a semi-formatted plain text [1,2,3]. The input is a collection of text documents, an ontology describing the data domain for which the data should be extracted and a configuration file with extraction rules. Basic methods are currently being implemented in the scope of a student software project. In the thesis, the author will compare the success of his method of data extraction with methods published in the current literature.
Seznam odborné literatury
[1] Dayne Freitag , Andrew McCallum, Information Extraction with HMM Structures Learned by Stochastic Optimization, Proceedings of the Seventeenth National Conference on Artificial Intelligence and Twelfth Conference on Innovative Applications of Artificial Intelligence, p.584-589, July 30-August 03, 2000

[2] AnHai Doan, Jeffrey F. Naughton, Raghu Ramakrishnan, Akanksha Baid, Xiaoyong Chai, Fei Chen, Ting Chen, Eric Chu, Pedro DeRose, Byron Gao, Chaitanya Gokhale, Jiansheng Huang, Warren Shen, and Ba-Quy Vuong. 2009. Information extraction challenges in managing unstructured data. SIGMOD Rec. 37, 4 (March 2009), 14-20

[3] Ronen Feldman, James Sanger. The text mining handbook: advanced approaches in analyzing unstructured data. 2006. ISBN 978-0521836579.
 
Univerzita Karlova | Informační systém UK