Εξόρυξη κειμένου στην ανασκόπηση βιβλιογραφίας και την τεκμηριωμένη ιατρική
Text mining practices under the scope of literature review for evidence-based medicine
Keywords
Τεκμηριωμένη ιατρική ; Εξόρυξη κειμένου ; Βάσεις δεδομένων ; Latent semantic analysis ; Singular Value Decomposition ; RAbstract
Η εφαρμογή της τεκμηριωμένης ιατρικής απαιτεί την συνεχή ενημέρωση του ιατρικού προσωπικού σχετικά με τις βέλτιστες πρακτικές, πράγμα ολοένα και πιο δύσκολο λόγω του αυξανόμενου όγκου νέων επιστημονικών δημοσιεύσεων. Αυτή η εργασία ερευνά την εφαρμογή τεχνικών εξόρυξης κειμένου σε προβλήματα ανασκόπησης βιβλιογραφίας. Για τον σκοπό αυτό υλοποιήθηκαν προγραμματιστικές τεχνικές πρόσβασης σε αποθετήρια επιστημονικών δημοσιεύσεων, όπου αποκτήθηκε μεγάλος όγκος δεδομένων κειμένου. Στη συνέχεια υλοποιήθηκαν δυο διαφορετικές τεχνικές αναζήτησης για την ανάκτηση δεδομένων σχετικών με την εξόρυξη κειμένου στην τεκμηριωμένη ιατρική. Η πρώτη τεχνική βασίστηκε στο full text search της PostgreSQL για την αναζήτηση λέξεων και φράσεων κλειδιών. Η δεύτερη τεχνική που υλοποιήθηκε ήταν η Latent Semantic Analysis – LSA μια μαθηματική τεχνική που βασίζεται στην ανάλυση σε ιδιάζουσες τιμές (Singular Value Decomposition - SVD) για την αναπαράσταση των δεδομένων σε έναν σημασιολογικό χώρο μειωμένων διαστάσεων. Τα αποτελέσματα αξιολογήθηκαν μετά από χειροκίνητο χαρακτηρισμό των εγγράφων ως σχετικά και μη, με ενθαρρυντικά αποτελέσματα.
Abstract
Evidence-based medicine in practice requires the continuous education of medical personnel according to the best up to date medical practices, an increasingly difficult task due to the growing volume of new published research. This thesis explores the implementation of text mining practices under the scope of literature reviews. For this purpose, a large corpus was acquired through programmatical access to scientific publication repositories. Subsequently, two different searching techniques were implemented to retrieve texts concerning text mining and evidence-based medicine. The first method utilized PostgreSQL full-text search to carry out keyword and phrase searches. The second method implemented was Latent Semantic Analysis – LSA, a mathematical technique that relies on Singular Value Decomposition – SVD to project the data in a reduced dimension semantic space. Results were evaluated after manual labelling of records as relevant or non-relevant, with promising results.