Klasifikace obrazu skenovaných stránek pro pracování na základe obsahu
Thesis title in Czech: | Klasifikace obrazu skenovaných stránek pro pracování na základe obsahu |
---|---|
Thesis title in English: | Image classification of scanned pages for content-based processing |
Key words: | klasifikace obrazů|zpracování digitalizovaných archivů |
English key words: | image classification|processing of digitised archives |
Academic year of topic announcement: | 2024/2025 |
Thesis type: | diploma thesis |
Thesis language: | |
Department: | Institute of Formal and Applied Linguistics (32-UFAL) |
Supervisor: | Mgr. Bc. Pavel Straňák, Ph.D. |
Author: | hidden![]() |
Date of registration: | 26.05.2025 |
Date of assignment: | 26.05.2025 |
Confirmed by Study dept. on: | 26.05.2025 |
Advisors: | doc. RNDr. Pavel Pecina, Ph.D. |
Guidelines |
Jedná se o experimentální práci, která bude provedena na datech z Velké výzkumné infrastruktury Archeologický informační systém České republiky (AIS CR) v koordinaci s pracovníky této VI, kteří poskytnou data.
Cílem práce je postupný krok ve zpracování digitalizovaného archivu dokumentů: klasifikovat naskenované stránky podle obsahu, zda obsahují text, fotografie, schémata, tabulky, jejich kombinace, apod. jako krok předcházející aplikaci OCR a případně jiných metod zpracování obrazu pro extrakci samotného obsahu z obrazových dat. Diplomantka se nejprve seznámí s postupy pro klasifikaci obrazových dat do kategorií. Navrhne kategorie pro klasifikaci, přičemž alespoň jedna z kategorií bude tvořena daty s textovým obsahem, která jsou vhodná pro následnou aplikaci OCR. Následně vybraný klasifikátor, o kterém se domnívá, že by mohl postačovat pro daný úkol, získá nebo vytvoří trénovací data, natrénuje klasifikátor (pokud není vybraný model již k dispozici) a vyhodnotí úspěšnost (pro tento úkol získá nebo vytvoří in-domain evaluační dataset). V případě nedostatečné úspěšnosti klasifikace pro další zpracování vyhodnotí chyby a buďto změní definici tříd, nebo vymění použitý algoritmus, případně zvětší trénovací data, je-li to možné, nebo aplikuje kombinaci postupů. Cílem je dosáhnout klasifikace tak úspěšné, že bude prakticky použitelné takto roztříděná data dále zpracovat specifickými postupy vhodnými pro jednotlivé typy obrazů (stránek). |
References |
Dosovitskiy, Alexey; Beyer, Lucas; Kolesnikov, Alexander; Weissenborn, Dirk; Zhai, Xiaohua; Unterthiner, Thomas; Dehghani, Mostafa; Minderer, Matthias; Heigold, Georg; Gelly, Sylvain, et al. An image is worth 16x16 words: Transformers for image recognition at scale. arXiv, preprint arXiv:2010.11929. 2020.
Hu, Ming-Kuei. Visual pattern recognition by moment invariants. IRE transactions on information theory. 1962, vol. 8, no. 2, pp. 179–187. Liu, Li; Wang, Zhiyu; Qiu, Taorong; Chen, Qiu; Lu, Yue; Suen, Ching Y. Document image classification: Progress over two decades. Neurocomputing. 2021, vol. 453, pp. 223–240. Alec Radford, Jong Wook Kim, Chris Hallacy, Aditya Ramesh, Gabriel Goh, Sandhini Agarwal, Girish Sastry, Amanda Askell, Pamela Mishkin, Jack Clark, Gretchen Krueger, and Ilya Sutskever. Learning Transferable Visual Models From Natural Language Supervision. arXiv e-prints, art. arXiv:2103.00020, February 2021. doi: 10.48550/arXiv.2103.00020. Smith, Ray. An overview of the Tesseract OCR engine. In: Ninth international conference on document analysis and recognition (ICDAR 2007). IEEE, 2007, vol. 2, pp. 629–633. |