Προθεματοποιητές που βασίζονται σε κανόνες έναντι Προθεματοποιητών που δημιουργούνται με μηχανική μάθηση
Προθεματοποιητές που βασίζονται σε κανόνες έναντι Προθεματοποιητών που δημιουργούνται με μηχανική μάθηση
Λέξεις-κλειδιά
Stemming ; Πολωνικά ; Information retrieval ; Stemmer suiteΠερίληψη
Για την τεχνολογία των μηχανών αναζήτησης απαιτούνται Stemmers. Οι stemmers εμφανίζονται και παλαιότερα στην τεχνολογία «Information retrieval». Οι stemmers (προθεματοποιητές) χρησιμοποιούνται για να ομαδοποιούν ένα σύνολο λέξεων με παρόμοια σημασία σε μια μοναδική (συνήθως) κοινή ρίζα της ομάδας των λέξεων που αντιπροσωπεύουν. Αυτό διευκολύνει στην εύρεση και ανάκτηση κειμένων που μπορεί να έχουν τις αναζητούμενες λέξεις παραλλαγμένες με μικρή γραμματική διαφοροποίηση (από γένος, αριθμό, πτώση, κλπ.). Πιο πρόσφατα έχουν γίνει προσπάθειες για μηχανική δημιουργία stemmers από συλλογές κειμένων και συλλογές καταλήξεων που μπορεί να υπάρχουν σε μια γλώσσα. Στόχος αυτών των προσπάθειών είναι να μην απαιτούνται άνθρωποι που θα γράφουν τους κανόνες εύρεσης ριζών (stems) και αυτό να γίνεται (η παραγωγή κανόνων) με μηχανική μάθηση επιβλεπόμενη από ειδικούς (experts). Στόχος της παρούσας εργασίας είναι να συγκρίνουμε έναν μηχανικά παραγμένο stemmer με έναν χειροκίνητα παραγμένο stemmer (με κανόνες δημιουργημένους από ειδικούς). Στην εργασία αυτή θα χρησιμοποιήσουμε την Πολωνική γλώσσα ως πεδίο εφαρμογής της σύγκρισης που θέλουμε να κάνουμε. Δηλαδή θα χρησιμοποιήσουμε έναν stemmer builder για μηχανική και επιβλεπομένη δημιουργία stemmer με βάση λέξεις και καταλήξεις της Πολωνικής γλώσσας. Από αυτό θα παράγουμε τον μηχανικά παραγμένο stemmer (στο εξής ΜΠS). Στην συνέχεια θα αναζητήσουμε και θα επιλέξουμε κάποιον έτοιμο stemmer (επιθυμητό να είναι σε πηγαία γλώσσα προγραμματισμού) της ιδίας γλώσσας (της Πολωνικής) που βασίζεται σε χειροποίητα φτιαγμένους κανόνες stemming (XΠS). Στο τέλος θα συγκρίνουμε τα αποτελέσματα των δυο stemmers (ΜΠS versus XΠS) και θα αξιολογήσουμε κατά πόσο καλά τα καταφέρνει ο μηχανικά δημιουργημένος stemmer (ΜΠS).