Témata prací (Výběr práce)

Váš prohlížeč nepodporuje JavaScript nebo je jeho podpora vypnutá. Některé funkce nemusejí být dostupné.

Klasifikace obrazu skenovaných stránek pro pracování na základe obsahu

Název práce v češtině:	Klasifikace obrazu skenovaných stránek pro pracování na základe obsahu
Název v anglickém jazyce:	Image classification of scanned pages for content-based processing
Klíčová slova:	klasifikace obrazů\|zpracování digitalizovaných archivů
Klíčová slova anglicky:	image classification\|processing of digitised archives
Akademický rok vypsání:	2024/2025
Typ práce:	diplomová práce
Jazyk práce:
Ústav:	Ústav formální a aplikované lingvistiky (32-UFAL)
Vedoucí / školitel:	Mgr. Bc. Pavel Straňák, Ph.D.
Řešitel:	skrytý - zadáno a potvrzeno stud. odd.
Datum přihlášení:	26.05.2025
Datum zadání:	26.05.2025
Datum potvrzení stud. oddělením:	26.05.2025
Konzultanti:	doc. RNDr. Pavel Pecina, Ph.D.

Zásady pro vypracování

Jedná se o experimentální práci, která bude provedena na datech z Velké výzkumné infrastruktury Archeologický informační systém České republiky (AIS CR) v koordinaci s pracovníky této VI, kteří poskytnou data.

Cílem práce je postupný krok ve zpracování digitalizovaného archivu dokumentů: klasifikovat naskenované stránky podle obsahu, zda obsahují text, fotografie, schémata, tabulky, jejich kombinace, apod. jako krok předcházející aplikaci OCR a případně jiných metod zpracování obrazu pro extrakci samotného obsahu z obrazových dat.

Diplomantka se nejprve seznámí s postupy pro klasifikaci obrazových dat do kategorií. Navrhne kategorie pro klasifikaci, přičemž alespoň jedna z kategorií bude tvořena daty s textovým obsahem, která jsou vhodná pro následnou aplikaci OCR. Následně vybraný klasifikátor, o kterém se domnívá, že by mohl postačovat pro daný úkol, získá nebo vytvoří trénovací data, natrénuje klasifikátor (pokud není vybraný model již k dispozici) a vyhodnotí úspěšnost (pro tento úkol získá nebo vytvoří in-domain evaluační dataset). V případě nedostatečné úspěšnosti klasifikace pro další zpracování vyhodnotí chyby a buďto změní definici tříd, nebo vymění použitý algoritmus, případně zvětší trénovací data, je-li to možné, nebo aplikuje kombinaci postupů. Cílem je dosáhnout klasifikace tak úspěšné, že bude prakticky použitelné takto roztříděná data dále zpracovat specifickými postupy vhodnými pro jednotlivé typy obrazů (stránek).

Seznam odborné literatury

Dosovitskiy, Alexey; Beyer, Lucas; Kolesnikov, Alexander; Weissenborn, Dirk; Zhai, Xiaohua; Unterthiner, Thomas; Dehghani, Mostafa; Minderer, Matthias; Heigold, Georg; Gelly, Sylvain, et al. An image is worth 16x16 words: Transformers for image recognition at scale. arXiv, preprint arXiv:2010.11929. 2020.

Hu, Ming-Kuei. Visual pattern recognition by moment invariants. IRE transactions on information theory. 1962, vol. 8, no. 2, pp. 179–187.

Liu, Li; Wang, Zhiyu; Qiu, Taorong; Chen, Qiu; Lu, Yue; Suen, Ching Y. Document image classification: Progress over two decades. Neurocomputing. 2021, vol. 453, pp. 223–240.

Alec Radford, Jong Wook Kim, Chris Hallacy, Aditya Ramesh, Gabriel Goh, Sandhini Agarwal, Girish Sastry, Amanda Askell, Pamela Mishkin, Jack Clark, Gretchen Krueger, and Ilya Sutskever. Learning Transferable Visual Models From Natural Language Supervision. arXiv e-prints, art. arXiv:2103.00020, February 2021. doi: 10.48550/arXiv.2103.00020.

Smith, Ray. An overview of the Tesseract OCR engine. In: Ninth international conference on document analysis and recognition (ICDAR 2007). IEEE, 2007, vol. 2, pp. 629–633.