Vícejazyčné rozpoznávání pojmenovaných entit
Název práce v češtině: | Vícejazyčné rozpoznávání pojmenovaných entit |
---|---|
Název v anglickém jazyce: | Multilingual Named Entity Recognition |
Klíčová slova: | pojmenovaná entita|wikifikace |
Klíčová slova anglicky: | named entity|entity linking|wikification |
Akademický rok vypsání: | 2023/2024 |
Typ práce: | bakalářská práce |
Jazyk práce: | |
Ústav: | Ústav formální a aplikované lingvistiky (32-UFAL) |
Vedoucí / školitel: | doc. RNDr. Daniel Zeman, Ph.D. |
Řešitel: | skrytý![]() |
Datum přihlášení: | 02.04.2024 |
Datum zadání: | 02.04.2024 |
Datum potvrzení stud. oddělením: | 24.04.2024 |
Zásady pro vypracování |
Cílem práce je vyzkoušet a porovnat algoritmy pro rozpoznávání (vč. kategorizace) pojmenovaných entit v různých jazycích. Algoritmy budou otestovány na datech z Universal Dependencies (UD); zajímají nás zejména obecné postupy, které budou schopné označit pojmenované entity ve všech jazycích UD, byť ne ve všech se stejnou úspěšností. Lze použít heuristiky, které předpokládají, že text na vstupu je tokenizovaný a morfosyntakticky anotovaný podle pravidel UD. Stejně tak lze použít externí dostupné zdroje, např. Wikipedii resp. Wikidata. Úspěšnost těchto heuristik bude srovnána jednak s ručně anotovanými daty pro některé jazyky (kde je ruční anotace dostupná), jednak s úspěšností některého modelu strojového učení, který bude natrénován na vícejazyčných datech (vlastní implementace strojového učení není nezbytně součástí práce – k experimentům mohou být využity již existující volně dostupné nástroje, které budou v rámci práce přetrénovány a otestována jejich úspěšnost). |
Seznam odborné literatury |
- Magda Ševčíková, Zdeněk Žabokrtský, Oldřich Krůza: Named Entities in Czech: Annotating Data and Developing NE Tagger. In: Matoušek, V., Mautner, P. (eds.) TSD 2007. LNCS (LNAI), vol. 4629, pp. 188–195. Springer, Heidelberg (2007). https://ufal.mff.cuni.cz/cnec
- Jana Straková, Milan Straka, Jan Hajič: Neural Architectures for Nested NER through Linearization. In: Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics, Copyright © Association for Computational Linguistics, Stroudsburg, PA, USA, ISBN 978-1-950737-48-2, pp. 5326-5331, 2019. https://ufal.mff.cuni.cz/nametag/2 - Pavel Taufer. 2017. Named Entity Recognition and Linking (master thesis). https://dspace.cuni.cz/handle/20.500.11956/82789 - David Kubeša, Milan Straka. 2023. DaMuEL: A Large Multilingual Dataset for Entity Linking. https://arxiv.org/abs/2306.09288 - Chen-Tse Tsai, Stephen Mayhew, Dan Roth. 2016. Cross-Lingual Named Entity Recognition via Wikification. https://cogcomp.seas.upenn.edu/papers/TsaiMaRo16.pdf - Stephen Mayhew et al. 2024. Universal NER: A Gold-Standard Multilingual Named Entity Recognition Benchmark. https://arxiv.org/abs/2311.09122 - Universal NER. At: https://www.universalner.org/ - Marcello Politi: Custom Named Entity Recognition with BERT. At: https://towardsdatascience.com/custom-named-entity-recognition-with-bert-cf1fd4510804 |