Εξόρυξη κειμένου και εφαρμογές στην βιοϊατρική μηχανική
Text mining applications in biomedical engineering
Keywords
Βιοϊατρική μηχανική ; Εξόρυξη δεδομένων ; Data mining ; Εξόρυξη κειμένου ; Latent Dirichlet allocation ; LDA ; RapidMiner ; Νόσος Αλτσχάιμερ ; Επεξεργασία φυσικής γλώσσας ; Εξαγωγή θέματοςAbstract
Η παρούσα διπλωματική εργασία εξετάζει το πεδίο των εφαρμογών της ανάλυσης κειμένων βιοϊατρικού περιεχομένου (biomedical text mining), που αφορούν στη νόσο Alzheimer. Η εργασία επιχειρεί να αναλύσει επιστημονικά κείμενα (δημοσιευμένες ερευνητικές εργασίες) των οποίων η αναζήτηση και ανάκτηση γίνεται από την βάση PubMed. Αρχικά, δίνεται έμφαση σε κάποιες βασικές ορολογίες με σκοπό την κατανόηση της έννοιας της εξόρυξης δεδομένων και πιο συγκεκριμένα της εξόρυξης κειμένου, ως σύγχρονης τεχνολογίας με ευρύτατες εφαρμογές. Οι έννοιες που αναλύονται είναι η εξόρυξη δεδομένων, η επεξεργασία της φυσικής γλώσσας και η εξόρυξη κειμένου. Ένας από τους κεντρικούς πυλώνες της διπλωματικής εργασίας είναι η κατανόηση και η χρήση του αλγορίθμου Latent Dirichlet Allocation (LDA), ο οποίος παίζει κρίσιμο ρόλο στην ανακάλυψη κρυμμένων αλλά σημαντικών πληροφοριών. Επίσης παρουσιάζεται το κύριο εργαλείο της ανάλυσης, το ανοικτό λογισμικό RapidMiner, το οποίο χρησιμοποιήθηκε για την διεξαγωγή των πειραμάτων. Η δημιουργία και η εκτέλεση μίας πιλοτικής διεργασίας αποτέλεσε το βασικό πρώτο βήμα, το οποίο συνεχίστηκε με μία πιο ολοκληρωμένη πειραματική σχεδίαση και υλοποίηση. Τα (θετικά) αποτελέσματα που λήφθηκαν αποτέλεσαν τη βάση για να επιχειρηθεί μία απάντηση στο κύριο ερώτημα με το οποίο ασχολείται η διπλωματική εργασία.
Abstract
The present diploma thesis examines the field of biomedical text mining applications, focusing on Alzheimer's disease. In this context, the thesis analyzes scientific texts (research publications) retrieved from the PubMed bibliographic database. Initially, some basic terminology is outlined, in order to explain and clarify the concept of data mining and more specifically of text mining. The concepts covered include data mining, natural language processing and text mining. One of the central pillars of the thesis is the in-depth comprehension and correct utilization of the Latent Dirichlet Allocation (LDA) algorithm, which plays a significant role in discovering hidden yet meaningful information. Subsequently, the RapidMiner open software platform is introduced; this is the tool employed for all experiments carried out. The development and execution of a pilot experiment for the verification of the process setup on artificially created, non-biomedical data, was the first step. Subsequently, a more detailed experimental setup was designed and executed on selected biomedical text data, with positive results. These results served as the ground on which an attempt was made to answer the research question posed and investigated in the present diploma thesis.