Thesis (Selection of subject)Thesis (Selection of subject)(version: 385)
Thesis details
   Login via CAS
Vícejazyčné rozpoznávání pojmenovaných entit
Thesis title in Czech: Vícejazyčné rozpoznávání pojmenovaných entit
Thesis title in English: Multilingual Named Entity Recognition
Key words: pojmenovaná entita|wikifikace
English key words: named entity|entity linking|wikification
Academic year of topic announcement: 2023/2024
Thesis type: Bachelor's thesis
Thesis language:
Department: Institute of Formal and Applied Linguistics (32-UFAL)
Supervisor: doc. RNDr. Daniel Zeman, Ph.D.
Author: hidden - assigned and confirmed by the Study Dept.
Date of registration: 02.04.2024
Date of assignment: 02.04.2024
Confirmed by Study dept. on: 24.04.2024
Guidelines
Cílem práce je vyzkoušet a porovnat algoritmy pro rozpoznávání (vč. kategorizace) pojmenovaných entit v různých jazycích. Algoritmy budou otestovány na datech z Universal Dependencies (UD); zajímají nás zejména obecné postupy, které budou schopné označit pojmenované entity ve všech jazycích UD, byť ne ve všech se stejnou úspěšností. Lze použít heuristiky, které předpokládají, že text na vstupu je tokenizovaný a morfosyntakticky anotovaný podle pravidel UD. Stejně tak lze použít externí dostupné zdroje, např. Wikipedii resp. Wikidata. Úspěšnost těchto heuristik bude srovnána jednak s ručně anotovanými daty pro některé jazyky (kde je ruční anotace dostupná), jednak s úspěšností některého modelu strojového učení, který bude natrénován na vícejazyčných datech (vlastní implementace strojového učení není nezbytně součástí práce – k experimentům mohou být využity již existující volně dostupné nástroje, které budou v rámci práce přetrénovány a otestována jejich úspěšnost).
References
- Magda Ševčíková, Zdeněk Žabokrtský, Oldřich Krůza: Named Entities in Czech: Annotating Data and Developing NE Tagger. In: Matoušek, V., Mautner, P. (eds.) TSD 2007. LNCS (LNAI), vol. 4629, pp. 188–195. Springer, Heidelberg (2007). https://ufal.mff.cuni.cz/cnec
- Jana Straková, Milan Straka, Jan Hajič: Neural Architectures for Nested NER through Linearization. In: Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics, Copyright © Association for Computational Linguistics, Stroudsburg, PA, USA, ISBN 978-1-950737-48-2, pp. 5326-5331, 2019. https://ufal.mff.cuni.cz/nametag/2
- Pavel Taufer. 2017. Named Entity Recognition and Linking (master thesis). https://dspace.cuni.cz/handle/20.500.11956/82789
- David Kubeša, Milan Straka. 2023. DaMuEL: A Large Multilingual Dataset for Entity Linking. https://arxiv.org/abs/2306.09288
- Chen-Tse Tsai, Stephen Mayhew, Dan Roth. 2016. Cross-Lingual Named Entity Recognition via Wikification. https://cogcomp.seas.upenn.edu/papers/TsaiMaRo16.pdf
- Stephen Mayhew et al. 2024. Universal NER: A Gold-Standard Multilingual Named Entity Recognition Benchmark. https://arxiv.org/abs/2311.09122
- Universal NER. At: https://www.universalner.org/
- Marcello Politi: Custom Named Entity Recognition with BERT. At: https://towardsdatascience.com/custom-named-entity-recognition-with-bert-cf1fd4510804
 
Charles University | Information system of Charles University | http://www.cuni.cz/UKEN-329.html