Témata prací (Výběr práce)Témata prací (Výběr práce)(verze: 385)
Detail práce
   Přihlásit přes CAS
Vícejazyčné rozpoznávání pojmenovaných entit
Název práce v češtině: Vícejazyčné rozpoznávání pojmenovaných entit
Název v anglickém jazyce: Multilingual Named Entity Recognition
Klíčová slova: pojmenovaná entita|wikifikace
Klíčová slova anglicky: named entity|entity linking|wikification
Akademický rok vypsání: 2023/2024
Typ práce: bakalářská práce
Jazyk práce:
Ústav: Ústav formální a aplikované lingvistiky (32-UFAL)
Vedoucí / školitel: doc. RNDr. Daniel Zeman, Ph.D.
Řešitel: skrytý - zadáno a potvrzeno stud. odd.
Datum přihlášení: 02.04.2024
Datum zadání: 02.04.2024
Datum potvrzení stud. oddělením: 24.04.2024
Zásady pro vypracování
Cílem práce je vyzkoušet a porovnat algoritmy pro rozpoznávání (vč. kategorizace) pojmenovaných entit v různých jazycích. Algoritmy budou otestovány na datech z Universal Dependencies (UD); zajímají nás zejména obecné postupy, které budou schopné označit pojmenované entity ve všech jazycích UD, byť ne ve všech se stejnou úspěšností. Lze použít heuristiky, které předpokládají, že text na vstupu je tokenizovaný a morfosyntakticky anotovaný podle pravidel UD. Stejně tak lze použít externí dostupné zdroje, např. Wikipedii resp. Wikidata. Úspěšnost těchto heuristik bude srovnána jednak s ručně anotovanými daty pro některé jazyky (kde je ruční anotace dostupná), jednak s úspěšností některého modelu strojového učení, který bude natrénován na vícejazyčných datech (vlastní implementace strojového učení není nezbytně součástí práce – k experimentům mohou být využity již existující volně dostupné nástroje, které budou v rámci práce přetrénovány a otestována jejich úspěšnost).
Seznam odborné literatury
- Magda Ševčíková, Zdeněk Žabokrtský, Oldřich Krůza: Named Entities in Czech: Annotating Data and Developing NE Tagger. In: Matoušek, V., Mautner, P. (eds.) TSD 2007. LNCS (LNAI), vol. 4629, pp. 188–195. Springer, Heidelberg (2007). https://ufal.mff.cuni.cz/cnec
- Jana Straková, Milan Straka, Jan Hajič: Neural Architectures for Nested NER through Linearization. In: Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics, Copyright © Association for Computational Linguistics, Stroudsburg, PA, USA, ISBN 978-1-950737-48-2, pp. 5326-5331, 2019. https://ufal.mff.cuni.cz/nametag/2
- Pavel Taufer. 2017. Named Entity Recognition and Linking (master thesis). https://dspace.cuni.cz/handle/20.500.11956/82789
- David Kubeša, Milan Straka. 2023. DaMuEL: A Large Multilingual Dataset for Entity Linking. https://arxiv.org/abs/2306.09288
- Chen-Tse Tsai, Stephen Mayhew, Dan Roth. 2016. Cross-Lingual Named Entity Recognition via Wikification. https://cogcomp.seas.upenn.edu/papers/TsaiMaRo16.pdf
- Stephen Mayhew et al. 2024. Universal NER: A Gold-Standard Multilingual Named Entity Recognition Benchmark. https://arxiv.org/abs/2311.09122
- Universal NER. At: https://www.universalner.org/
- Marcello Politi: Custom Named Entity Recognition with BERT. At: https://towardsdatascience.com/custom-named-entity-recognition-with-bert-cf1fd4510804
 
Univerzita Karlova | Informační systém UK