Extrakce znalostních grafů z projektové dokumentace
Název práce v češtině: | Extrakce znalostních grafů z projektové dokumentace |
---|---|
Název v anglickém jazyce: | Knowledge Graph Extraction from Project Documentation |
Klíčová slova: | Znalostní grafy, Extrakce informace, Zpracování přirozeného jazyka, Resource Description Framework |
Klíčová slova anglicky: | Knowledge grahs, Information extraction, Natural language processing, Resource Description Framework |
Akademický rok vypsání: | 2012/2013 |
Typ práce: | diplomová práce |
Jazyk práce: | angličtina |
Ústav: | Katedra softwarového inženýrství (32-KSI) |
Vedoucí / školitel: | doc. Mgr. Martin Nečaský, Ph.D. |
Řešitel: | skrytý - zadáno a potvrzeno stud. odd. |
Datum přihlášení: | 17.10.2012 |
Datum zadání: | 08.11.2012 |
Datum potvrzení stud. oddělením: | 27.11.2012 |
Datum a čas obhajoby: | 26.05.2014 00:00 |
Datum odevzdání elektronické podoby: | 10.04.2014 |
Datum odevzdání tištěné podoby: | 11.04.2014 |
Datum proběhlé obhajoby: | 26.05.2014 |
Oponenti: | doc. RNDr. Martin Kruliš, Ph.D. |
Konzultanti: | doc. Mgr. Barbora Vidová Hladká, Ph.D. |
Zásady pro vypracování |
Znalostní grafy jsou dnes důležitým tématem, kterému se věnují i ty největší IT společnosti, např. Google [1]. Umožňují efektivním způsobem zachytit znalosti a ty jednoduše propojovat do větších celků. Jedním ze slibných přistupů k reprezentaci znalostních grafů jsou potom principy Linked Data [2], které navíc elegantně využívají existující webové principy a technologie pro reprezentaci, publikaci, sdílení a propojování dat a znalostí na webu a dotazování nad nimi.
Velkým problémem však zůstává, že většina znalostí je zakódovaných v nestrukturovaných odborných textech, jako např. právní normy, lékařské zprávy či projektová dokumentace. Cílem této diplomové práce je prozkoumat možnosti extrakce znalostních grafů z projektové dokumentace velké organizace ve formě nestrukturovaných textů a jejich reprezentace dle principů Linked Data. Řešitel využije existující nástroje pro zpracování přirozeného jazyka vyvíjené na MFF UK [3]. Navrhne a v podobě použitelného softwarového nástroje implementuje metodu, která umožní z daného textu extrahovat důležité pojmy a vazby mezi nimi. Využije buď metod strojového učení nebo umožní uživateli nadefinovat extrakční pravidla [4,5,6]. Vzniklý znalostní graf uloží do vhodného úložiště a vybuduje nad ním vyhledávací službu. |
Seznam odborné literatury |
[1] http://www.google.com/insidesearch/features/search/knowledge.html
[2] http://linkeddata.org [3] Panevova J. et al. The Czech Language in the Digital Age. White Paper Series - Rehm, Georg; Uszkoreit, Hans (Eds.), 2012, VI, 79 p. [4] Dayne Freitag , Andrew McCallum, Information Extraction with HMM Structures Learned by Stochastic Optimization, Proceedings of the Seventeenth National Conference on Artificial Intelligence and Twelfth Conference on Innovative Applications of Artificial Intelligence, p.584-589, July 30-August 03, 2000 [5] AnHai Doan, Jeffrey F. Naughton, Raghu Ramakrishnan, Akanksha Baid, Xiaoyong Chai, Fei Chen, Ting Chen, Eric Chu, Pedro DeRose, Byron Gao, Chaitanya Gokhale, Jiansheng Huang, Warren Shen, and Ba-Quy Vuong. 2009. Information extraction challenges in managing unstructured data. SIGMOD Rec. 37, 4 (March 2009), 14-20 [6] Ronen Feldman, James Sanger. The text mining handbook: advanced approaches in analyzing unstructured data. 2006. ISBN 978-0521836579. |