Vícejazyčné rozpoznávání pojmenovaných entit
Thesis title in Czech: | Vícejazyčné rozpoznávání pojmenovaných entit |
---|---|
Thesis title in English: | Multilingual Named Entity Recognition |
Key words: | pojmenovaná entita|wikifikace |
English key words: | named entity|entity linking|wikification |
Academic year of topic announcement: | 2023/2024 |
Thesis type: | Bachelor's thesis |
Thesis language: | |
Department: | Institute of Formal and Applied Linguistics (32-UFAL) |
Supervisor: | doc. RNDr. Daniel Zeman, Ph.D. |
Author: | hidden![]() |
Date of registration: | 02.04.2024 |
Date of assignment: | 02.04.2024 |
Confirmed by Study dept. on: | 24.04.2024 |
Guidelines |
Cílem práce je vyzkoušet a porovnat algoritmy pro rozpoznávání (vč. kategorizace) pojmenovaných entit v různých jazycích. Algoritmy budou otestovány na datech z Universal Dependencies (UD); zajímají nás zejména obecné postupy, které budou schopné označit pojmenované entity ve všech jazycích UD, byť ne ve všech se stejnou úspěšností. Lze použít heuristiky, které předpokládají, že text na vstupu je tokenizovaný a morfosyntakticky anotovaný podle pravidel UD. Stejně tak lze použít externí dostupné zdroje, např. Wikipedii resp. Wikidata. Úspěšnost těchto heuristik bude srovnána jednak s ručně anotovanými daty pro některé jazyky (kde je ruční anotace dostupná), jednak s úspěšností některého modelu strojového učení, který bude natrénován na vícejazyčných datech (vlastní implementace strojového učení není nezbytně součástí práce – k experimentům mohou být využity již existující volně dostupné nástroje, které budou v rámci práce přetrénovány a otestována jejich úspěšnost). |
References |
- Magda Ševčíková, Zdeněk Žabokrtský, Oldřich Krůza: Named Entities in Czech: Annotating Data and Developing NE Tagger. In: Matoušek, V., Mautner, P. (eds.) TSD 2007. LNCS (LNAI), vol. 4629, pp. 188–195. Springer, Heidelberg (2007). https://ufal.mff.cuni.cz/cnec
- Jana Straková, Milan Straka, Jan Hajič: Neural Architectures for Nested NER through Linearization. In: Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics, Copyright © Association for Computational Linguistics, Stroudsburg, PA, USA, ISBN 978-1-950737-48-2, pp. 5326-5331, 2019. https://ufal.mff.cuni.cz/nametag/2 - Pavel Taufer. 2017. Named Entity Recognition and Linking (master thesis). https://dspace.cuni.cz/handle/20.500.11956/82789 - David Kubeša, Milan Straka. 2023. DaMuEL: A Large Multilingual Dataset for Entity Linking. https://arxiv.org/abs/2306.09288 - Chen-Tse Tsai, Stephen Mayhew, Dan Roth. 2016. Cross-Lingual Named Entity Recognition via Wikification. https://cogcomp.seas.upenn.edu/papers/TsaiMaRo16.pdf - Stephen Mayhew et al. 2024. Universal NER: A Gold-Standard Multilingual Named Entity Recognition Benchmark. https://arxiv.org/abs/2311.09122 - Universal NER. At: https://www.universalner.org/ - Marcello Politi: Custom Named Entity Recognition with BERT. At: https://towardsdatascience.com/custom-named-entity-recognition-with-bert-cf1fd4510804 |