Témata prací (Výběr práce)Témata prací (Výběr práce)(verze: 368)
Detail práce
   Přihlásit přes CAS
Extrakce znalostních grafů z projektové dokumentace
Název práce v češtině: Extrakce znalostních grafů z projektové dokumentace
Název v anglickém jazyce: Knowledge Graph Extraction from Project Documentation
Klíčová slova: Znalostní grafy, Extrakce informace, Zpracování přirozeného jazyka, Resource Description Framework
Klíčová slova anglicky: Knowledge grahs, Information extraction, Natural language processing, Resource Description Framework
Akademický rok vypsání: 2012/2013
Typ práce: diplomová práce
Jazyk práce: angličtina
Ústav: Katedra softwarového inženýrství (32-KSI)
Vedoucí / školitel: doc. Mgr. Martin Nečaský, Ph.D.
Řešitel: skrytý - zadáno a potvrzeno stud. odd.
Datum přihlášení: 17.10.2012
Datum zadání: 08.11.2012
Datum potvrzení stud. oddělením: 31.07.2014
Datum a čas obhajoby: 08.09.2014 09:00
Datum odevzdání elektronické podoby:31.07.2014
Datum odevzdání tištěné podoby:31.07.2014
Datum proběhlé obhajoby: 08.09.2014
Oponenti: RNDr. Michal Kopecký, Ph.D.
 
 
 
Konzultanti: doc. Mgr. Barbora Vidová Hladká, Ph.D.
Zásady pro vypracování
Znalostní grafy jsou dnes důležitým tématem, kterému se věnují i ty největší IT společnosti, např. Google [1]. Umožňují efektivním způsobem zachytit znalosti a ty jednoduše propojovat do větších celků. Jedním ze slibných přistupů k reprezentaci znalostních grafů jsou potom principy Linked Data [2], které navíc elegantně využívají existující webové principy a technologie pro reprezentaci, publikaci, sdílení a propojování dat a znalostí na webu a dotazování nad nimi.

Velkým problémem však zůstává, že většina znalostí je zakódovaných v nestrukturovaných odborných textech, jako např. právní normy, lékařské zprávy či projektová dokumentace. Cílem této diplomové práce je prozkoumat možnosti extrakce znalostních grafů z projektové dokumentace velké organizace ve formě nestrukturovaných textů a jejich reprezentace dle principů Linked Data. Řešitel využije existující nástroje pro zpracování přirozeného jazyka vyvíjené na MFF UK [3]. Navrhne a v podobě použitelného softwarového nástroje implementuje metodu, která umožní z daného textu extrahovat důležité pojmy a vazby mezi nimi. Využije buď metod strojového učení nebo umožní uživateli nadefinovat extrakční pravidla [4,5,6]. Vzniklý znalostní graf uloží do vhodného úložiště a vybuduje nad ním vyhledávací službu.
Seznam odborné literatury
[1] http://www.google.com/insidesearch/features/search/knowledge.html

[2] http://linkeddata.org

[3] Panevova J. et al. The Czech Language in the Digital Age. White Paper Series - Rehm, Georg; Uszkoreit, Hans (Eds.), 2012, VI, 79 p.

[4] Dayne Freitag , Andrew McCallum, Information Extraction with HMM Structures Learned by Stochastic Optimization, Proceedings of the Seventeenth National Conference on Artificial Intelligence and Twelfth Conference on Innovative Applications of Artificial Intelligence, p.584-589, July 30-August 03, 2000

[5] AnHai Doan, Jeffrey F. Naughton, Raghu Ramakrishnan, Akanksha Baid, Xiaoyong Chai, Fei Chen, Ting Chen, Eric Chu, Pedro DeRose, Byron Gao, Chaitanya Gokhale, Jiansheng Huang, Warren Shen, and Ba-Quy Vuong. 2009. Information extraction challenges in managing unstructured data. SIGMOD Rec. 37, 4 (March 2009), 14-20

[6] Ronen Feldman, James Sanger. The text mining handbook: advanced approaches in analyzing unstructured data. 2006. ISBN 978-0521836579.
 
Univerzita Karlova | Informační systém UK