Similarity Models for Content-based Video Retrieval
Thesis title in Czech: | Modely podobnosti pro content-based video retrieval |
---|---|
Thesis title in English: | Similarity Models for Content-based Video Retrieval |
Key words: | multimedia retrieval|modely podobnosti|deep learning|uživatelská studie |
English key words: | multimedia retrieval|similarity models|deep learning|user study |
Academic year of topic announcement: | 2022/2023 |
Thesis type: | diploma thesis |
Thesis language: | angličtina |
Department: | Department of Software Engineering (32-KSI) |
Supervisor: | Mgr. Ladislav Peška, Ph.D. |
Author: | Mgr. Patrik Veselý - assigned and confirmed by the Study Dept. |
Date of registration: | 21.09.2022 |
Date of assignment: | 06.10.2022 |
Confirmed by Study dept. on: | 06.12.2022 |
Date and time of defence: | 06.09.2023 09:00 |
Date of electronic submission: | 19.07.2023 |
Date of submission of printed version: | 24.07.2023 |
Date of proceeded defence: | 06.09.2023 |
Opponents: | Mgr. Ivana Sixtová |
Guidelines |
Student se v první řadě seznámí s problematikou podobnostního vyhledávání (query by example, relevance feedback) a content based image/video retrieval.
Praktická část diplomová práce bude rozdělena do několika částí. První část bude studie s cílem získat data o vnímání podobnosti obrázkových/video dat uživateli. Druhá část bude ověření, které stávající automatické metody pro extrakci charakteristických rysů obrázku (color-based modely, SIFT, varianty DCNN, Transformer-based architektury,...) společně se kterými vzdálenostními funkcemi nejlépe odpovídají vnímání podobnosti podle uživatelů a jaké jsou jejich omezení. Cílem třetí části bude prozkoumání možností vylepšení modelů (fine tuning), tak aby lépe odpovídaly lidmi vnímané podobnosti. |
References |
Berns, F., Rossetto, L., Schoeffmann, K., Beecks, C., Awad, G.: V3c1 dataset: An evaluation of content characteristics. pp. 334–338 (06 2019)
Chen, M., Radford, A., Child, R., Wu, J., Jun, H., Dhariwal, P., Luan, D., Sutskever, I.: Generative pretraining from pixels (2020) Deng, J., Dong, W., Socher, R., Li, L.J., Li, K., Fei-Fei, L.: Imagenet: A large-scale hierarchical image database. In: 2009 IEEE conference on computer vision and pattern recognition. pp. 248–255. Ieee (2009) Dosovitskiy, A., Beyer, L., Kolesnikov, A., Weissenborn, D., Zhai, X., Unterthiner, T., Dehghani, M., Minderer, M., Heigold, G., Gelly, S., et al.: An image is worth 16x16 words: Transformers for image recognition at scale. arXiv preprint arXiv:2010.11929 (2020) He, K., Zhang, X., Ren, S., Sun, J.: Identity mappings in deep residual networks. In: European conference on computer vision. pp. 630–645. Springer (2016) Hebart, M.N., Zheng, C.Y., Pereira, F., Baker, C.I.: Revealing the multidimensional mental representations of natural objects underlying human similarity judgements. Nature Human Behaviour 4(11), 1173–1185 (Nov 2020) Heller, S., Gsteiger, V., Bailer, W., Gurrin, C., J ́onsson, B.T., Lokoc, J., Leibetseder, A., Mejzl ́ık, F., Peˇska, L., Rossetto, L., Schall, K., Schoeffmann, K., Schuldt, H., Spiess, F., Tran, L.D., Vadicamo, L., Vesel ́y, P., Vrochidis, S., Wu, J.: Interactive video retrieval evaluation at a distance: comparing sixteen interactive video search systems in a remote setting at the 10th video browser showdown. International Journal of Multimedia Information Retrieval 11(1), 1–18 (Mar 2022) Hezel, N., Schall, K., Jung, K., Barthel, K.U.: Efficient search and browsing of large-scale video collections with vibro. In: MultiMedia Modeling: 28th International Conference, MMM 2022, Part II. p. 487–492. Springer (2022) Huang, P., Dai, S.: Image retrieval by texture similarity. Pattern Recognition 36(3),665–679 (2003) Li, X., Xu, C., Yang, G., Chen, Z., Dong, J.: W2vv++ fully deep learning for ad-hoc video search. In: 27th ACM International Conference on Multimedia. pp.1786–1794 (2019) Lokoc, J., Mejzl ık, F., Soucek, T., Dokoupil, P., Peska, L.: Video search with context-aware ranker and relevance feedback. In: MultiMedia Modeling. pp.505–510. Springer (2022) Lu, T.C., Chang, C.C.: Color image retrieval technique based on color features and image bitmap. Information Processing & Management 43(2), 461–472 (2007) Peterson, J.C., Abbott, J.T., Griffiths, T.L.: Evaluating (and improving) the correspondence between deep neural networks and human representations. Cognitive Science 42(8), 2648–2669 (2018) Radford, A., Kim, J.W., Hallacy, C., Ramesh, A., Goh, G., Agarwal, S., Sastry, G., Askell, A., Mishkin, P., Clark, J., et al.: Learning transferable visual models from natural language supervision. In: International Conference on Machine Learning. pp. 8748–8763. PMLR (2021) Roads, B.D., Love, B.C.: Enriching imagenet with human similarity judgments and psychological embeddings. In: Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. pp. 3547–3557 (2021) Tan, C., Sun, F., Kong, T., Zhang, W., Yang, C., Liu, C.: A survey on deep transfer learning. In: International conference on artificial neural networks. pp. 270–279. Springer (2018) |
Preliminary scope of work |
Každým dnem se na streamovací platformy nahrají statisíce hodin videí a zároveň miliardy obrázků na sociální sítě. Díky tomuto trendu vzniká potřeba efektivně pracovat s multimediálními daty i na vizuální a sémantické úrovni. Na těchto úrovních přirozeně pracuje i lidská mysl, která zároveň dokáže porovnávat podobnost jednotlivých obrázků na základě jejich obsahu. Automatizované porovnání podobnosti, například na základě embeddingů z různých předtrénovaných neuronových sítí se dále mohou využít v různých vyhledávačích, doporučovačích, vizualizátorech nebo i ve strojovém učením (One shot learning). Cílem diplomové práce je zaměřit se na problematiku podobnosti vizuálních dat a srovnat různé automatické techniky s tím jak koncept podobnosti vnímají uživatelé. |