Témata prací (Výběr práce)Témata prací (Výběr práce)(verze: 385)
Detail práce
   Přihlásit přes CAS
Similarity Models for Content-based Video Retrieval
Název práce v češtině: Modely podobnosti pro content-based video retrieval
Název v anglickém jazyce: Similarity Models for Content-based Video Retrieval
Klíčová slova: multimedia retrieval|modely podobnosti|deep learning|uživatelská studie
Klíčová slova anglicky: multimedia retrieval|similarity models|deep learning|user study
Akademický rok vypsání: 2022/2023
Typ práce: diplomová práce
Jazyk práce: angličtina
Ústav: Katedra softwarového inženýrství (32-KSI)
Vedoucí / školitel: Mgr. Ladislav Peška, Ph.D.
Řešitel: Mgr. Patrik Veselý - zadáno a potvrzeno stud. odd.
Datum přihlášení: 21.09.2022
Datum zadání: 06.10.2022
Datum potvrzení stud. oddělením: 06.12.2022
Datum a čas obhajoby: 06.09.2023 09:00
Datum odevzdání elektronické podoby:19.07.2023
Datum odevzdání tištěné podoby:24.07.2023
Datum proběhlé obhajoby: 06.09.2023
Oponenti: Mgr. Ivana Sixtová
 
 
 
Zásady pro vypracování
Student se v první řadě seznámí s problematikou podobnostního vyhledávání (query by example, relevance feedback) a content based image/video retrieval.
Praktická část diplomová práce bude rozdělena do několika částí. První část bude studie s cílem získat data o vnímání podobnosti obrázkových/video dat uživateli. Druhá část bude ověření, které stávající automatické metody pro extrakci charakteristických rysů obrázku (color-based modely, SIFT, varianty DCNN, Transformer-based architektury,...) společně se kterými vzdálenostními funkcemi nejlépe odpovídají vnímání podobnosti podle uživatelů a jaké jsou jejich omezení. Cílem třetí části bude prozkoumání možností vylepšení modelů (fine tuning), tak aby lépe odpovídaly lidmi vnímané podobnosti.
Seznam odborné literatury
Berns, F., Rossetto, L., Schoeffmann, K., Beecks, C., Awad, G.: V3c1 dataset: An evaluation of content characteristics. pp. 334–338 (06 2019)
Chen, M., Radford, A., Child, R., Wu, J., Jun, H., Dhariwal, P., Luan, D., Sutskever, I.: Generative pretraining from pixels (2020)
Deng, J., Dong, W., Socher, R., Li, L.J., Li, K., Fei-Fei, L.: Imagenet: A large-scale hierarchical image database. In: 2009 IEEE conference on computer vision and pattern recognition. pp. 248–255. Ieee (2009)
Dosovitskiy, A., Beyer, L., Kolesnikov, A., Weissenborn, D., Zhai, X., Unterthiner, T., Dehghani, M., Minderer, M., Heigold, G., Gelly, S., et al.: An image is worth 16x16 words: Transformers for image recognition at scale. arXiv preprint arXiv:2010.11929 (2020)
He, K., Zhang, X., Ren, S., Sun, J.: Identity mappings in deep residual networks. In: European conference on computer vision. pp. 630–645. Springer (2016)
Hebart, M.N., Zheng, C.Y., Pereira, F., Baker, C.I.: Revealing the multidimensional mental representations of natural objects underlying human similarity judgements. Nature Human Behaviour 4(11), 1173–1185 (Nov 2020)
Heller, S., Gsteiger, V., Bailer, W., Gurrin, C., J ́onsson, B.T., Lokoc, J., Leibetseder, A., Mejzl ́ık, F., Peˇska, L., Rossetto, L., Schall, K., Schoeffmann, K.,
Schuldt, H., Spiess, F., Tran, L.D., Vadicamo, L., Vesel ́y, P., Vrochidis, S., Wu, J.: Interactive video retrieval evaluation at a distance: comparing sixteen interactive video search systems in a remote setting at the 10th video browser showdown. International Journal of Multimedia Information Retrieval 11(1), 1–18 (Mar 2022)
Hezel, N., Schall, K., Jung, K., Barthel, K.U.: Efficient search and browsing of large-scale video collections with vibro. In: MultiMedia Modeling: 28th International
Conference, MMM 2022, Part II. p. 487–492. Springer (2022)
Huang, P., Dai, S.: Image retrieval by texture similarity. Pattern Recognition 36(3),665–679 (2003)
Li, X., Xu, C., Yang, G., Chen, Z., Dong, J.: W2vv++ fully deep learning for ad-hoc video search. In: 27th ACM International Conference on Multimedia. pp.1786–1794 (2019)
Lokoc, J., Mejzl ık, F., Soucek, T., Dokoupil, P., Peska, L.: Video search with context-aware ranker and relevance feedback. In: MultiMedia Modeling. pp.505–510. Springer (2022)
Lu, T.C., Chang, C.C.: Color image retrieval technique based on color features and image bitmap. Information Processing & Management 43(2), 461–472 (2007)
Peterson, J.C., Abbott, J.T., Griffiths, T.L.: Evaluating (and improving) the correspondence between deep neural networks and human representations. Cognitive Science 42(8), 2648–2669 (2018)
Radford, A., Kim, J.W., Hallacy, C., Ramesh, A., Goh, G., Agarwal, S., Sastry, G., Askell, A., Mishkin, P., Clark, J., et al.: Learning transferable visual models from natural language supervision. In: International Conference on Machine Learning. pp. 8748–8763. PMLR (2021)
Roads, B.D., Love, B.C.: Enriching imagenet with human similarity judgments and psychological embeddings. In: Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. pp. 3547–3557 (2021)
Tan, C., Sun, F., Kong, T., Zhang, W., Yang, C., Liu, C.: A survey on deep transfer learning. In: International conference on artificial neural networks. pp. 270–279. Springer (2018)
Předběžná náplň práce
Každým dnem se na streamovací platformy nahrají statisíce hodin videí a zároveň miliardy obrázků na sociální sítě. Díky tomuto trendu vzniká potřeba efektivně pracovat s multimediálními daty i na vizuální a sémantické úrovni. Na těchto úrovních přirozeně pracuje i lidská mysl, která zároveň dokáže porovnávat podobnost jednotlivých obrázků na základě jejich obsahu. Automatizované porovnání podobnosti, například na základě embeddingů z různých předtrénovaných neuronových sítí se dále mohou využít v různých vyhledávačích, doporučovačích, vizualizátorech nebo i ve strojovém učením (One shot learning). Cílem diplomové práce je zaměřit se na problematiku podobnosti vizuálních dat a srovnat různé automatické techniky s tím jak koncept podobnosti vnímají uživatelé.
 
Univerzita Karlova | Informační systém UK