Greek patent classification using deep learning
Ταξινόμηση πατεντών με την χρήση βαθιάς μάθησης
Μεταπτυχιακή διπλωματική εργασία
Συγγραφέας
Ποντίκης, Ιωάννης
Ημερομηνία
2023-02-22Επιβλέπων
Kasnesis, PanagiotisΛέξεις-κλειδιά
Greek patents ; Automated classification ; Natural language processing ; Deep learning ; Greek-BERT ; Ελληνικές πατέντες ; Αυτόματη ταξινόμηση ; Επεξεργασία φυσικής γλώσσας ; Βαθιά μάθηση ; Νευρωνικά δίκτυα ; Τεχνητή νοημοσύνηΠερίληψη
Patents are documents that contain state of the art technical and scientific information in almost every field of science. Patent applications filed every day in the Hellenic Industrial Property Organization, have to be intellectually classified by domain experts based on a hierarchical taxonomy. As a result, this classification process is labor intensive and overwhelming for the experts. This paper proposes the use of Natural Language Processing (NLP) for automated pa-tent classification. We compare state of the art deep learning-based NLP methods for the automated semantic categorization of these documents. For this purpose, we built a dataset comprised by around 70,000 Greek patents applications, used to train several deep learning algorithms with Greek-BERT obtaining the best accuracy scores.
Περίληψη
Τα διπλώματα ευρεσιτεχνίας είναι έγγραφα που περιέχουν τελευταίας τεχνολογίας τεχνικές και επιστημονικές πληροφορίες σχεδόν σε κάθε τομέα της επιστήμης. Οι αιτήσεις διπλωμάτων ευρεσιτεχνίας που υποβάλλονται καθημερινά στον Οργανισμό Βιομηχανικής Ιδιοκτησίας Ελλάδος πρέπει να ταξινομούνται πνευματικά από ειδικούς του τομέα βάσει ιεραρχικής ταξινόμησης. Ως αποτέλεσμα, αυτή η διαδικασία ταξινόμησης είναι εντατική και συντριπτική για τους ειδικούς. Αυτό το έγγραφο προτείνει τη χρήση της Επεξεργασίας Φυσικής Γλώσσας (ΕΦΓ) για την αυτοματοποιημένη ταξινόμηση των διπλωμάτων ευρεσιτεχνίας. Συγκρίνουμε τις πιο σύγχρονες μεθόδους ΕΦΓ που βασίζονται σε Βαθιά Μάθηση για την αυτοματοποιημένη σημασιολογική κατηγοριοποίηση αυτών των εγγράφων. Για το σκοπό αυτό, δημιουργήσαμε ένα σύνολο δεδομένων που αποτελείται από περίπου 70.000 ελληνικές αιτήσεις διπλωμάτων ευρεσιτεχνίας, που χρησιμοποιείται για την εκπαίδευση αρκετών αλγορίθμων βαθιάς μάθησης με το Greek-BERT να λαμβάνει τις καλύτερες βαθμολογίες ακρίβειας.
Αριθμός σελίδων
81Σχολή
Σχολή ΜηχανικώνΑκαδημαϊκό Τμήμα
Τμήμα Ηλεκτρολόγων και Ηλεκτρονικών ΜηχανικώνΤμήμα Μηχανικών Βιομηχανικής Σχεδίασης και Παραγωγής