Témata prací (Výběr práce)

Váš prohlížeč nepodporuje JavaScript nebo je jeho podpora vypnutá. Některé funkce nemusejí být dostupné.

Extrakce znalostních grafů z projektové dokumentace

Název práce v češtině:	Extrakce znalostních grafů z projektové dokumentace
Název v anglickém jazyce:	Knowledge Graph Extraction from Project Documentation
Klíčová slova:	Znalostní grafy, Extrakce informace, Zpracování přirozeného jazyka, Resource Description Framework
Klíčová slova anglicky:	Knowledge grahs, Information extraction, Natural language processing, Resource Description Framework
Akademický rok vypsání:	2012/2013
Typ práce:	diplomová práce
Jazyk práce:	angličtina
Ústav:	Katedra softwarového inženýrství (32-KSI)
Vedoucí / školitel:	doc. Mgr. Martin Nečaský, Ph.D.
Řešitel:	skrytý - zadáno a potvrzeno stud. odd.
Datum přihlášení:	17.10.2012
Datum zadání:	08.11.2012
Datum potvrzení stud. oddělením:	27.11.2012
Datum a čas obhajoby:	26.05.2014 00:00
Datum odevzdání elektronické podoby:	10.04.2014
Datum odevzdání tištěné podoby:	11.04.2014
Datum proběhlé obhajoby:	26.05.2014
Oponenti:	doc. RNDr. Martin Kruliš, Ph.D.



Konzultanti:	doc. Mgr. Barbora Vidová Hladká, Ph.D.

Zásady pro vypracování

Znalostní grafy jsou dnes důležitým tématem, kterému se věnují i ty největší IT společnosti, např. Google [1]. Umožňují efektivním způsobem zachytit znalosti a ty jednoduše propojovat do větších celků. Jedním ze slibných přistupů k reprezentaci znalostních grafů jsou potom principy Linked Data [2], které navíc elegantně využívají existující webové principy a technologie pro reprezentaci, publikaci, sdílení a propojování dat a znalostí na webu a dotazování nad nimi.

Velkým problémem však zůstává, že většina znalostí je zakódovaných v nestrukturovaných odborných textech, jako např. právní normy, lékařské zprávy či projektová dokumentace. Cílem této diplomové práce je prozkoumat možnosti extrakce znalostních grafů z projektové dokumentace velké organizace ve formě nestrukturovaných textů a jejich reprezentace dle principů Linked Data. Řešitel využije existující nástroje pro zpracování přirozeného jazyka vyvíjené na MFF UK [3]. Navrhne a v podobě použitelného softwarového nástroje implementuje metodu, která umožní z daného textu extrahovat důležité pojmy a vazby mezi nimi. Využije buď metod strojového učení nebo umožní uživateli nadefinovat extrakční pravidla [4,5,6]. Vzniklý znalostní graf uloží do vhodného úložiště a vybuduje nad ním vyhledávací službu.

Seznam odborné literatury

[1] http://www.google.com/insidesearch/features/search/knowledge.html

[2] http://linkeddata.org

[3] Panevova J. et al. The Czech Language in the Digital Age. White Paper Series - Rehm, Georg; Uszkoreit, Hans (Eds.), 2012, VI, 79 p.

[4] Dayne Freitag , Andrew McCallum, Information Extraction with HMM Structures Learned by Stochastic Optimization, Proceedings of the Seventeenth National Conference on Artificial Intelligence and Twelfth Conference on Innovative Applications of Artificial Intelligence, p.584-589, July 30-August 03, 2000

[5] AnHai Doan, Jeffrey F. Naughton, Raghu Ramakrishnan, Akanksha Baid, Xiaoyong Chai, Fei Chen, Ting Chen, Eric Chu, Pedro DeRose, Byron Gao, Chaitanya Gokhale, Jiansheng Huang, Warren Shen, and Ba-Quy Vuong. 2009. Information extraction challenges in managing unstructured data. SIGMOD Rec. 37, 4 (March 2009), 14-20

[6] Ronen Feldman, James Sanger. The text mining handbook: advanced approaches in analyzing unstructured data. 2006. ISBN 978-0521836579.