Συστηματική ανάλυση και σύγκριση μεθόδων επιτάχυνσης μεγάλων γλωσσικών μοντέλων
A comprehensive survey, taxonomy, and comparison of accelerated large language models
Διπλωματική εργασία
Συγγραφέας
Κοιλιά, Νικολέττα
Ημερομηνία
2024-07-19Επιβλέπων
Kachris, ChristoforosΛέξεις-κλειδιά
Τεχνητή νοημοσύνη ; Βαθιά μάθηση ; Μεγάλα γλωσσικά μοντέλα ; Κωδικοποιητές ; Αποκωδικοποιητής ; FPGA ; GPU ; In-memory ; ASIC ; Ενεργειακή απόδοση ; Ρυθμός απόδοσης ; VHDL ; Ollama ; Γραμμική παλινδρόμηση ; Δέντρα αποφάσεων ; Μηχανές διανυσμάτων απόφασης ; Artificial intelligence ; Machine learning ; Deep learning ; Encoders ; Decoder ; Energy efficiency ; Large language models ; Performance ; Decision trees ; Random forest ; Linear regression ; Support Vector MachinesΠερίληψη
Μέχρι σήμερα δεν υπάρχει κάποια συστηματική και συγκριτική έρευνα για τους επιταχυντές υλικού (hardware accelerators) που να αναφέρονται στην υπολογιστική ισχύ των διάφορων γλωσσικών μοντέλων επιταχυντών. Σε αυτή την εργασία παρουσιάζεται κατ’ αρχήν μια επισκόπηση σχετικά με τις έρευνες και τα μοντέλα επιταχυντών που έχουν παρουσιαστεί διαχρονικά για την επιτάχυνση των Μεγάλων Γλωσσικών Μοντέλων και της επεξεργασίας της Φυσικής Γλώσσας, χρησιμοποιώντας επιταχυντές υλικού.
Η επισκόπηση παρουσιάζει τα πλαίσια που έχουν προταθεί και στη συνέχεια πραγματοποιεί μια ποιοτική και ποσοτική σύγκριση όσο αφορά τη τεχνολογία και τον τύπο επεξεργαστή που χρησιμοποιούν (FPGA, ASIC, In-Memory, GPU), την ενεργειακή απόδοση, την επιτάχυνσης, καθώς και τους αντίστοιχους ρυθμούς (επιτάχυνσης και ενεργειακής απόδοσης). Το μεγαλύτερο πρόβλημα είναι ότι οι υπάρχουσες σχετικές ερευνητικές προτάσεις συνήθως υλοποιούνται η καθεμία σε διαφορετική τεχνολογία (process technology). Αυτό έχει ως αποτέλεσμα να γίνεται δύσκολη η δίκαια σύγκριση των προτεινόμενων λύσεων. Σκοπός του εφαρμοσμένου, πειραματικού μέρους αυτής της διπλωματικής εργασίας ήταν να γίνει αναγωγή των αποτελεσμάτων σε μία κοινή τεχνολογία, κάνοντας έτσι δυνατή την δίκαια σύγκριση. Για την αναγωγή στην ίδια τεχνολογία (process technology) χρησιμοποιήθηκαν και αξιολογήθηκαν 2 προσεγγίσεις, μία θεωρητική αναγωγή (extrapolation) στην ίδια τεχνολογία και μία εργαστηριακή αναγωγή με βάση τα αποτελέσματα υλοποίησης ψηφιακών κυκλωμάτων σε διάφορες πλατφόρμες αναδιατασσόμενης λογικής (FPGA platforms). Στη συνέχεια παρουσιάζονται τα αποτελέσματα της υπολογιστικής επιτάχυνσης με αναγωγή στην ίδια τεχνολογία. Ακόμη, παρατίθενται δύο παραδείγματα της Μηχανικής Μάθησης με χρήση των LLMs για τους κλασικούς επεξεργαστές. Τέλος η εργασία κλείνει με την εξαγωγή σημαντικών συμπερασμάτων με βάση τη θεωρητική μελέτη αλλά και το πειραματικό μέρος.
Περίληψη
Until now there is no comprehensive survey on the hardware accelerators to speed up the most computationally intensive tasks of Transformers. In this diploma thesis, we present a comprehensive survey on the several research efforts that have been published on the acceleration of transformer networks for Large Language Models and Natural Language Processing (NLP) using hardware accelerators. The survey presents the frameworks that have been proposed and then performs a qualitative and quantitative comparison regarding the technology, the processing platform ( FPGA, ASIC, In-Memory, GPU), the speedup, the energy efficiency, the performance, and the energy efficiency (GOPs/W) of each framework. The main challenge a comparative study is faced with is that every proposed scheme is implemented on a different process technology, thus making the fair comparison a hard task. In the applied, experimental part of this diploma thesis, we extrapolate the results of the speedup and the performance of the hardware accelerators using 2 different approaches, a theoretical one and a more practical one. We implement part of the LLMs on several FPGA chips to extrapolate the results to the same process technology and then we make a fair comparison of the performance. Additionally, two examples of Machine Learning using LLMs for classical processors are provided. The diploma thesis concludes with the extraction of significant results drawn from both the theoretical study (hardware accelerators) and the experimental study parts.