Ταξινόμηση μουσικών ειδών και συστήματα συστάσεων με χρήση βαθιάς μάθησης
Music genre classification and recommender systems using deep learning
Διπλωματική εργασία
Συγγραφέας
Σπανουδάκης, Κωνσταντίνος
Ημερομηνία
2024-03-19Επιβλέπων
Tselenti, PanagiotaΛέξεις-κλειδιά
Τεχνητή νοημοσύνη ; Μηχανική μάθηση ; Μουσική ; Βαθιά μάθηση ; Ανάκτηση μουσικής πληροφορίαςΠερίληψη
Στο σημερινό δυναμικό μουσικό οικοσύστημα, η σημασία της ταξινόμησης μουσικών ειδών (MGC) και των συστημάτων μουσικών συστάσεων (MRS) δεν μπορεί να υπερεκτιμηθεί. Με τον πολλαπλασιασμό των ψηφιακών μουσικών πλατφορμών και την άνευ προηγουμένου αφθονία περιεχομένου, η MGC χρησιμεύει ως άξονας για τη διαισθητική οργάνωση και πλοήγηση σε εκτεταμένες μουσικές βιβλιοθήκες. Ταυτόχρονα, το MRS διαδραματίζει κρίσιμο ρόλο στη βελτίωση της εμπειρίας του χρήστη, παρέχοντας εξατομικευμένες συστάσεις μπροστά στις ποικίλες και εξελισσόμενες προτιμήσεις των ακροατών. Η σημασία του MGC και του MRS εκτείνεται πέρα από την απλή ευκολία, διαμορφώνοντας τον τρόπο με τον οποίο οι χρήστες εξερευνούν και συνδέονται με τη μουσική με εξατομικευμένο και ουσιαστικό τρόπο. Τα συστήματα αυτά όχι μόνο απλοποιούν την πρόσβαση σε ένα διαρκώς διευρυνόμενο μουσικό τοπίο, αλλά συμβάλλουν επίσης στον πολιτιστικό ιστό της ψηφιακής κοινωνίας μας, προωθώντας την ανακάλυψη, την εμπλοκή και την απόλαυση στο πεδίο της κατανάλωσης μουσικής.
Η παρούσα διπλωματική εργασία ασχολείται με την πρακτική εφαρμογή μεθοδολογιών βαθιάς μάθησης για την ταξινόμηση μουσικών ειδών (MGC) και για συστήματα μουσικών συστάσεων (MRS). Επικεντρώνοντας αποκλειστικά στη βαθιά μάθηση, η μελέτη διερευνά την αποτελεσματικότητα των νευρωνικών δικτύων χρησιμοποιώντας Multilayer Perceptron (MLP), Convolutional Neural Networks (CNN) και Long-Short Term Memory Network (LSTM) για την ταξινόμηση μουσικών ειδών και μια προσέγγιση βασισμένη στο περιεχόμενο (content- based approach) για τα συστήματα συστάσεων. Κύρια μορφή δεδομένων και πληροφορίας η οποία θα μας δώσει την δυνατότητα να εξάγουμε πληροφορία και συμπεράσματα για το κάθε μουσικό κομμάτι θα είναι τα Mel-Frequency Cepstral Coefficients (MFCC).
Επιπλέον πραγματοποιούμε μια Βιβλιογραφική Ανασκόπηση που παρέχει μια επισκόπη- ση της υπάρχουσας έρευνας στην MGC πλαίσιο της βαθιάς μάθησης και τις content-based προσεγγίσεις που υπάρχουν στον τομέα του MRS, αναφερόμαστε στο τι υπάρχει στον κόσμο του Art & AI σήμερα και πιο συγκεκριμένα εφαρμογές που αφορούν την χρήση της Τεχνητής Νοημοσύνης στην Μουσική. Επίσης αναλύουμε τις βασικές γνώσεις που χρειάζονται για την κατανόηση όλων των εργαλείων που χρησιμοποιούμε στην παρούσα εργασία όπως για παράδειγμα πως λειτουργεί ένα CNN, τι είναι τα MFCC κι άλλα. Τέλος υλοποιούμε ένα Web App στο οποία αναδεικνύεται η λειτουργικότητα του μοντέλου που δημιουργήσαμε και το θέτουμε σε εφαρμογή με γνωστά και άγνωστα σε αυτό μουσικά κομμάτια.
Περίληψη
In today’s dynamic musical ecosystem, the importance of music genre classification (MGC) and music recommendation systems (MRS) cannot be overestimated. With the proliferation of digital music platforms and the unprecedented abundance of content, MGC serves as a linchpin for intuitive organization and navigation of extensive music libraries. At the same time, MRS plays a critical role in enhancing the user experience by providing personalized recommendations in the face of listeners’ diverse and evolving preferences. The importance of MGC and MRS extends beyond mere convenience, shaping the way users explore and connect with music in a personalized and meaningful way. These systems not only simplify access to an ever-expanding musical landscape, but also contribute to the cultural fabric of our digital society by promoting discovery, engagement and enjoyment in the realm of music consumption.
This thesis deals with the practical application of deep learning methodologies for music genre classification (MGC) and music recommendation systems (MRS). Focusing exclusively on deep learning, the study investigates the effectiveness of neural networks using Multilayer Perceptron (MLP), Convolutional Neural Networks (CNN), and Long-Short Term Memory (LSTM) for music genre classification and a content-based approach for recommendation systems. The main form of data and information that will enable us to extract information and inferences about each musical piece will be Mel-Frequency Cepstral Coefficients (MFCC).
In addition we conduct a Literature Review that provides an overview of existing research in the MGC framework of deep learning and the content-based approaches that exist in the field of MRS, we report on what exists in the world of Art& AI today and more specifically applications involving the use of AI in Music. We also discuss the basic knowledge needed to understand all the tools used in this work, such as how a CNN works, what MFCCs are and more. Finally, we implement a Web App in which we demonstrate the functionality of the model we created and put it into practice with known and unknown music tracks.