Artificial intelligence in pharmaceutical domain (with emphasis on the data quality). ALCOA prediction from pharmaceutical industry line
Τεχνητή νοημοσύνη σε φαρμακευτικό Τομέα (με έμφαση στην ποιότητα των δεδομένων). Πρόβλεψη ALCOA από γραμμή παραγωγής φαρμακοβιομηχανίας
Μεταπτυχιακή διπλωματική εργασία
Author
Καρύδας, Δημήτριος
Date
2022-07Advisor
Leligou, Helen C. (Nelly)Keywords
Pharmaceutical industry ; Big data ; Data quality ; Machine learning ; Artificial intelligence ; Φαρμακευτική βιομηχανία ; Μεγάλα δεδομένα ; Τεχνητή νοημοσύνη ; Μηχανική μάθηση ; ALCOAAbstract
We can all imagine the amount of data generated during the procedure of the production of a medicine in a pharmaceutical industry. Data are taken from the import of the raw material to the factory, its analysis until it is used in the production of the drug, from the production line, from the warehouses but also from the distribution lines up to the final consumer, the patient. All this data must ensure traceability, if possible, from the raw material production plant to the final consumer. The most recent example is the example of the pandemic of COVID 19 vaccines. Therefore, before a drug can be used, the pharmaceutical company must prove that the drug is effective and safe. That is why the pharmaceutical companies are conducting many tests, and numerous studies in quality control. Over the years, the pharmaceutical companies have adopted the concept of ALCOA as a framework for ensuring the observance, preservation, security and accuracy of data. The term ALCOA is an acronym that means Attributable, Legible, Contemporaneous, Original and Accurate. From the meaning of these words, we can easily understand why this acronym is so important and why it was adopted by the pharmaceutical industry. The term ALCOA is about the quality and integrity of the data, which has a direct impact on the quality of the drug. This master thesis is an attempt to classify the values obtained from different sensors (from two production lines of a well-known Italian pharmaceutical company) as data that are Attributable and Contemporaneous. This attempt was done by using three deep learning models. We also tried to find out if there is a possibility to predict the next ALCOAs from the previous ones. These words came from the acronym ALCOA that mentioned above. The three deep learning models used are the LSTM Model, Bi-LSTM Model and GRU Model. Unfortunately, the above deep learning models failed to predict the next ALCOA the Attributable and the Contemporaneous from the previous ones. The three models used showed better performance in the Attributable than in the Contemporaneous yet again this performance does not allow us to use them as models for predicting this ALCOA in a pharmaceutical industry. However, this should not disappoint us as it is the first attempt to use such models in the prediction of ALCOA. After all, this dissertation focused only on the Attributable and the Contemporaneous. There are three other letters in the acronym as well and the dataset was only from two production lines. There are so many deep learning models, machine learning algorithms, so many more letters remaining letters in the acronym, other and more improved datasets that can only give promise for the future.
Abstract
Όλοι μπορούμε να φανταστούμε τον όγκο των δεδομένων που παράγονται κατά τη διαδικασία παραγωγής ενός φαρμάκου σε μια φαρμακευτική βιομηχανία. Λαμβάνονται δεδομένα από την εισαγωγή της πρώτης ύλης στο εργοστάσιο, την ανάλυσή της έως ότου χρησιμοποιηθεί στην παραγωγή του φαρμάκου, από τη γραμμή παραγωγής, από τις αποθήκες αλλά και από τις γραμμές διανομής μέχρι τον τελικό καταναλωτή, τον ασθενή. Όλα αυτά τα δεδομένα πρέπει να διασφαλίζουν την ιχνηλασιμότητα, ει δυνατόν, από τη μονάδα παραγωγής πρώτων υλών έως τον τελικό καταναλωτή. Το πιο πρόσφατο παράδειγμα είναι το παράδειγμα της πανδημίας των εμβολίων κατά του COVID 19. Επομένως, πριν χρησιμοποιηθεί ένα φάρμακο, η φαρμακευτική εταιρεία πρέπει να αποδείξει ότι το φάρμακο είναι αποτελεσματικό και ασφαλές. Γι' αυτό οι φαρμακευτικές εταιρείες πραγματοποιούν πολλές δοκιμές και πολυάριθμες μελέτες στον ποιοτικό έλεγχο. Με τα χρόνια, οι φαρμακευτικές εταιρείες έχουν υιοθετήσει την έννοια της ALCOA ως πλαίσιο για τη διασφάλιση της τήρησης, της διατήρησης, της ασφάλειας και της ακρίβειας των δεδομένων. Ο όρος ALCOA είναι ένα αρκτικόλεξο που σημαίνει Αποδοτέο, Ευανάγνωστο, Σύγχρονο, Πρωτότυπο και Ακριβές. Από τη σημασία αυτών των λέξεων μπορούμε εύκολα να καταλάβουμε γιατί αυτό το αρκτικόλεξο είναι τόσο σημαντικό και γιατί υιοθετήθηκε από τη φαρμακοβιομηχανία. Ο όρος ALCOA αφορά την ποιότητα και την ακεραιότητα των δεδομένων, τα οποία έχουν άμεσο αντίκτυπο στην ποιότητα του φαρμάκου. Η παρούσα μεταπτυχιακή διατριβή είναι μια προσπάθεια ταξινόμησης των τιμών που λαμβάνονται από διαφορετικούς αισθητήρες (από δύο γραμμές παραγωγής γνωστής ιταλικής φαρμακευτικής εταιρείας) ως δεδομένα που αποδίδονται και είναι σύγχρονα. Αυτή η προσπάθεια έγινε με τη χρήση τριών μοντέλων βαθιάς μάθησης. Προσπαθήσαμε επίσης να μάθουμε αν υπάρχει δυνατότητα πρόβλεψης των επόμενων ALCOA από τα προηγούμενα. Αυτές οι λέξεις προήλθαν από το αρκτικόλεξο ALCOA που αναφέρθηκε παραπάνω. Τα τρία μοντέλα βαθιάς μάθησης που χρησιμοποιούνται είναι το μοντέλο LSTM, το μοντέλο Bi-LSTM και το μοντέλο GRU. Δυστυχώς, τα παραπάνω μοντέλα βαθιάς μάθησης δεν κατάφεραν να προβλέψουν το επόμενο ALCOA το Attributable και το Contemporaneous από τα προηγούμενα. Τα τρία μοντέλα που χρησιμοποιήθηκαν έδειξαν καλύτερες επιδόσεις στο Attributable από ότι στο Contemporaneous, και πάλι αυτή η απόδοση δεν μας επιτρέπει να τα χρησιμοποιήσουμε ως μοντέλα για την πρόβλεψη αυτού του ALCOA σε μια φαρμακευτική βιομηχανία. Ωστόσο, αυτό δεν πρέπει να μας απογοητεύσει καθώς είναι η πρώτη προσπάθεια χρήσης τέτοιων μοντέλων στην πρόβλεψη της ALCOA. Άλλωστε, αυτή η πτυχιακή επικεντρώθηκε μόνο στο Αποδοτέο και στο Σύγχρονο. Υπάρχουν και άλλα τρία γράμματα στο ακρωνύμιο και το σύνολο δεδομένων προέρχεται μόνο από δύο γραμμές παραγωγής. Υπάρχουν τόσα πολλά μοντέλα βαθιάς μάθησης, αλγόριθμοι μηχανικής μάθησης, τόσα άλλα γράμματα που απομένουν στο ακρωνύμιο, άλλα και περισσότερα
Number of pages
96Faculty
Σχολή ΜηχανικώνAcademic Department
Τμήμα Ηλεκτρολόγων και Ηλεκτρονικών ΜηχανικώνΤμήμα Μηχανικών Βιομηχανικής Σχεδίασης και Παραγωγής