Thesis (Selection of subject)Thesis (Selection of subject)(version: 385)
Thesis details
   Login via CAS
Klasifikace obrazu skenovaných stránek pro pracování na základe obsahu
Thesis title in Czech: Klasifikace obrazu skenovaných stránek pro pracování na základe obsahu
Thesis title in English: Image classification of scanned pages for content-based processing
Key words: klasifikace obrazů|zpracování digitalizovaných archivů
English key words: image classification|processing of digitised archives
Academic year of topic announcement: 2024/2025
Thesis type: diploma thesis
Thesis language:
Department: Institute of Formal and Applied Linguistics (32-UFAL)
Supervisor: Mgr. Bc. Pavel Straňák, Ph.D.
Author: hidden - assigned and confirmed by the Study Dept.
Date of registration: 26.05.2025
Date of assignment: 26.05.2025
Confirmed by Study dept. on: 26.05.2025
Advisors: doc. RNDr. Pavel Pecina, Ph.D.
Guidelines
Jedná se o experimentální práci, která bude provedena na datech z Velké výzkumné infrastruktury Archeologický informační systém České republiky (AIS CR) v koordinaci s pracovníky této VI, kteří poskytnou data.

Cílem práce je postupný krok ve zpracování digitalizovaného archivu dokumentů: klasifikovat naskenované stránky podle obsahu, zda obsahují text, fotografie, schémata, tabulky, jejich kombinace, apod. jako krok předcházející aplikaci OCR a případně jiných metod zpracování obrazu pro extrakci samotného obsahu z obrazových dat.

Diplomantka se nejprve seznámí s postupy pro klasifikaci obrazových dat do kategorií. Navrhne kategorie pro klasifikaci, přičemž alespoň jedna z kategorií bude tvořena daty s textovým obsahem, která jsou vhodná pro následnou aplikaci OCR. Následně vybraný klasifikátor, o kterém se domnívá, že by mohl postačovat pro daný úkol, získá nebo vytvoří trénovací data, natrénuje klasifikátor (pokud není vybraný model již k dispozici) a vyhodnotí úspěšnost (pro tento úkol získá nebo vytvoří in-domain evaluační dataset). V případě nedostatečné úspěšnosti klasifikace pro další zpracování vyhodnotí chyby a buďto změní definici tříd, nebo vymění použitý algoritmus, případně zvětší trénovací data, je-li to možné, nebo aplikuje kombinaci postupů. Cílem je dosáhnout klasifikace tak úspěšné, že bude prakticky použitelné takto roztříděná data dále zpracovat specifickými postupy vhodnými pro jednotlivé typy obrazů (stránek).
References
Dosovitskiy, Alexey; Beyer, Lucas; Kolesnikov, Alexander; Weissenborn, Dirk; Zhai, Xiaohua; Unterthiner, Thomas; Dehghani, Mostafa; Minderer, Matthias; Heigold, Georg; Gelly, Sylvain, et al. An image is worth 16x16 words: Transformers for image recognition at scale. arXiv, preprint arXiv:2010.11929. 2020.

Hu, Ming-Kuei. Visual pattern recognition by moment invariants. IRE transactions on information theory. 1962, vol. 8, no. 2, pp. 179–187.

Liu, Li; Wang, Zhiyu; Qiu, Taorong; Chen, Qiu; Lu, Yue; Suen, Ching Y. Document image classification: Progress over two decades. Neurocomputing. 2021, vol. 453, pp. 223–240.

Alec Radford, Jong Wook Kim, Chris Hallacy, Aditya Ramesh, Gabriel Goh, Sandhini Agarwal, Girish Sastry, Amanda Askell, Pamela Mishkin, Jack Clark, Gretchen Krueger, and Ilya Sutskever. Learning Transferable Visual Models From Natural Language Supervision. arXiv e-prints, art. arXiv:2103.00020, February 2021. doi: 10.48550/arXiv.2103.00020.

Smith, Ray. An overview of the Tesseract OCR engine. In: Ninth international conference on document analysis and recognition (ICDAR 2007). IEEE, 2007, vol. 2, pp. 629–633.
 
Charles University | Information system of Charles University | http://www.cuni.cz/UKEN-329.html