Τεχνικές υπολογιστικής όρασης για την εύρεση αντιπροσώπων από ένα σύνολο δεδομένων
Computer vision algorithms for representatives selection of big data set
Λέξεις-κλειδιά
Αραιή αναπαράσταση ; Εκμάθηση λεξικού ; Κυρτή βελτιστοποίηση ; Μείωση διαστάσεων ; Υπολογιστική όραση ; Αλγόριθμος SMRSΠερίληψη
Στην παρούσα διπλωματική εργασία διερευνάται η ανάλυση και εφαρμογή μεθόδων για την επιλογή αντιπροσωπευτικών υποσυνόλων δεδομένων από μεγάλα και πολυδιάστατα σύνολα δεδομένων. Η ανάγκη για αποδοτικές τεχνικές συμπύκνωσης δεδομένων έχει αυξηθεί σημαντικά τα τελευταία χρόνια λόγω της ανάπτυξης της τεχνητής νοημοσύνης και της μηχανικής μάθησης. Η παρούσα διπλωματική εργασία αυτή υλοποιεί και βασίζεται στη μεθοδολογία που παρουσιάστηκε στην δημοσίευση των Ehsan Elhamifar, Guillermo Sapiro και Rene Vidal, "See all by looking at a few: Sparse modeling for finding representative objects", εφαρμόζοντας τον αλγόριθμο SMRS (Sparse Modeling via Representative Selection). Ο SMRS αποτελεί ένα καινοτόμο εργαλείο για την εξαγωγή ενός μικρού, αλλά εξαιρετικά αντιπροσωπευτικού υποσυνόλου από μεγάλα δεδομένα. Πραγματοποιείται μια εκτενής ανάλυση της θεωρητικής βάσης του αλγορίθμου SMRS, ο οποίος στηρίζεται στην αραιή αναπαράσταση και τη μείωση διαστάσεων, προσφέροντας μια ισχυρή μέθοδο για την επιλογή αντιπροσώπων. Επιπλέον, γίνεται ανάπτυξη κώδικα σε περιβάλλον Matlab, ο οποίος χρησιμοποιείται για την εξαγωγή των πιο αντιπροσωπευτικών καρέ από βίντεο και εικόνες από σύνολα δεδομένων. Τα επιλεγμένα καρέ και εικόνες μπορούν να χρησιμοποιηθούν σε διάφορες εφαρμογές, όπως η συμπίεση δεδομένων, η βελτιστοποίηση αλγορίθμων μηχανικής μάθησης και η ανάλυση βίντεο. Τα αποτελέσματα της εργασίας αποδεικνύουν τη δυνατότητα του SMRS να εντοπίζει αποτελεσματικά αντιπροσωπευτικά καρέ από βίντεο και αντιπροσωπευτικές εικόνες από μεγάλες βιβλιοθήκες, ενώ παράλληλα παρέχονται προτάσεις για μελλοντικές βελτιώσεις και εφαρμογές του αλγορίθμου. Η παρούσα διπλωματική εργασία ακολουθεί τα βήματα της αρχικής μεθοδολογίας και συνεισφέρει σημαντικά στο πεδίο της υπολογιστικής όρασης και των τεχνικών μείωσης διαστάσεων, προτείνοντας μια πρακτική και καινοτόμο προσέγγιση για τη διαχείριση μεγάλων συνόλων δεδομένων. Τέλος, ανοίγει νέους δρόμους για την περαιτέρω βελτίωση της αποδοτικότητας του SMRS και τη χρήση του σε άλλους τομείς, όπως η βιοπληροφορική και η επεξεργασία σήματος.
Περίληψη
In the present thesis, we delve into the analysis and application of methods for selecting representative subsets of data from large and high-dimensional datasets are investigated. The need for efficient data compression techniques has significantly increased in recent years due to the development of artificial intelligence and machine learning. This thesis implements and is based on the methodology presented in the work of Ehsan Elhamifar, Guillermo Sapiro, and Rene Vidal, "See All by Looking at a Few: Sparse Modeling for Finding Representative Objects," applying the SMRS algorithm (Sparse Modeling via Representative Selection). SMRS is an innovative tool for extracting a small but highly representative subset from large datasets. An extensive analysis of the theoretical foundation of the SMRS algorithm is conducted, which relies on sparse representation and dimensionality reduction, offering a powerful method for representative selection. Additionally, code is developed in the Matlab environment, which is used for extracting the most representative frames from videos and images from datasets. The selected frames and images can be used in various applications, such as data compression, optimization of machine learning algorithms, and video analysis. The results of the thesis demonstrate the capability of SMRS to effectively identify representative frames from videos and representative images from large datasets, while also providing suggestions for future improvements and applications of the algorithm. This thesis follows the steps of the initial methodology and contributes significantly to the field of computer vision and dimensionality reduction techniques, proposing a practical and innovative approach for managing large datasets. Finally, it opens new avenues for further improvement of the efficiency of SMRS and its use in other fields, such as bioinformatics and signal processing.