Συγκέντρωση και καταγραφή ελληνικών γλωσσικών πόρων του ΠΑΔΑ
Collection and recording of Greek language resources of PADA
Μεταπτυχιακή διπλωματική εργασία
Author
Μπαμνιώτη, Αγγελική
Date
2023-01-09Advisor
Kapidakis, SarantosKeywords
Clarin ; Μεταδεδομένα ; Τεκμηρίωση ; Πανεπιστήμιο Δυτικής Αττικής ; Γλωσσικοί πόροι ; Γλωσσικές τεχνολογίες ; Γλωσσική επεξεργασία ; Ψηφιακές ανθρωπιστικές επιστήμεςAbstract
Ως γλωσσικός πόρος νοείται οποιοδήποτε σύνολο δεδομένων σε κάθε μορφή, σχετιζόμενο
με τη γλώσσα, σε δομημένη ή αδόμητη μορφή. Το περιεχόμενο τους μπορεί να είναι
πρωτογενές, επεξεργασμένο, πόροι οργανωμένης γνώσης ή ακόμα να εμπίπτει στην
κατηγορία των γλωσσικών τεχνολογιών. Η συλλογή και καταγραφή γλωσσικών πόρων, εκτός
από τη διάχυση της γνώσης και την προβολή του έργου των δημιουργών τους, συμβάλει
σημαντικά στην εξέλιξη των γλωσσικών τεχνολογιών, οι οποίες αναπτύσσουν διάφορα
εργαλεία και εφαρμογές γλωσσικής ανάλυσης και επεξεργασίας. Στη συγκεκριμένη εργασία
συγκεντρώθηκαν και καταγράφηκαν ελληνικοί γλωσσικοί πόροι οι οποίοι έχουν παραχθεί
στα πλαίσια του διδακτικού και ερευνητικού έργου του Πανεπιστημίου Δυτικής Αττικής, από
τους διδάσκοντες, ερευνητές ή φοιτητές του. Στη συνέχεια, οι συγκεκριμένοι γλωσσικοί
πόροι οργανώθηκαν, περιεγραφήκαν και τεκμηριώθηκαν στην ελληνική εκδοχή της
ευρωπαϊκής διαδικτυακής υποδομής του Clarin. Το Clarin συσσωρεύει γλωσσικούς πόρους,
τεχνολογίες και υπηρεσίες, σε διάφορες γλώσσες, με στόχο τη διάθεση τους προς την
ερευνητική κοινότητα και τον απλό ιδιώτη. Το υλικό μπορεί να καταστεί επεξεργάσιμο μέσω
διαφόρων γλωσσικών τεχνολογιών. Σημαντικός αριθμός πανεπιστήμιων και ερευνητικών
κέντρων της Ελλάδας διαθέτουν ήδη ψηφιακό αποθετήριο στο Clarin, το οποίο φιλοξενεί
τους παραγόμενους γλωσσικούς τους πόρους. Μέσω της εκπόνησης της συγκεκριμένης
μεταπτυχιακής εργασίας, επιχειρήθηκε η δημιουργία ανάλογου ψηφιακού αποθετηρίου,
μέσα στην υποδομή του Clarin, για το Πανεπιστήμιο Δυτικής Αττικής. Το υλικό συλλέχθηκε,
επεξεργάστηκε, περιγράφηκε, τεκμηριώθηκε και έγινε προσβάσιμο προς την επιστημονική
κοινότητα. Η συλλογή των πόρων πραγματοποιήθηκε έπειτα από επικοινωνία με τους
δημιουργούς τους, οι οποίοι είναι και κάτοχοι των δικαιωμάτων διάθεσης τους. Επίσης
συμπεριλήφθηκε υλικό που διατίθεται ήδη με ελεύθερες μορφές πνευματικών δικαιωμάτων
και έχει παραχθεί στα πλαίσια του εκπαιδευτικού έργου του πανεπιστημίου. Η διάθεση του
υλικού στο Clarin γίνεται με άδειες ανοιχτής πρόσβασης Creative Commons, σεβόμενοι την
επιθυμία των δημιουργών του. Έπειτα από μια χρονοβόρα και επίπονη διαδικασία
συλλέχθηκε υλικό από μεγάλο αριθμό δημιουργών, οι οποίοι εκπροσωπούν την πλειοψηφία
των σχολών και τμημάτων των δύο ΤΕΙ, Αθηνών και Πειραιά, με τη συγχώνευση των οποίων
δημιουργήθηκε το Πανεπιστήμιο Δυτικής Αττικής, καθώς και από το ίδιο το ΠαΔΑ. Συνολικά
συλλέχθηκαν 193 γλωσσικοί πόροι. Αναφορικά με το ΤΕΙ Αθηνών, ενσωματώθηκε στην
υποδομή του Clarin:el υλικό από 5 σχολές και 19 τμήματα, ενώ από το ΤΕΙ Πειραιά, υλικό από
2 σχολές και 8 τμήματα. Το υλικό από το ΠαΔΑ καλύπτει 4 σχολές και 5 τμήματα. Το
6 συγκεκριμένο υλικό, που βρίσκεται εξολοκλήρου σε μορφή κειμένου (text), αποτελείται από
188 σώματα κειμένου και 5 λεξικό /εννοιολογικούς πόρους. Οι 189 γλωσσικοί πόροι είναι
μονόγλωσσοι και οι 4 δίγλωσσοι, ενώ οι εκπροσωπούμενες γλώσσες είναι τα ελληνικά, τα
αγγλικά και η τοπική διάλεκτο της Μεσσηνίας
Abstract
A language resource is any set of data in any form, language-related, structured, or
unstructured. Their content can be raw, processed, organized knowledge resources, or even
fall into the category of language technologies. The collection and recording of language
resources, in addition to the dissemination of knowledge and the promotion of the work of
their creators, contributes significantly to the evolution of language technologies, which
develop various tools and applications of language analysis and processing. In this specific
work, Greek language resources which have been produced in the context of the teaching and
research work of the University of West Attica, by its teachers, researchers or students were
collected and recorded. The language resources were then organized, described, and
documented in the Greek version of Clarin's European web infrastructure. Clarin accumulates
language resources, technologies and services, in various languages, with the aim of making
them available to the research community and the ordinary individual. The material can be
made editable through various language technologies. A significant number of universities
and research centers in Greece already have a digital repository in Clarin, which hosts their
produced language resources. Through the elaboration of this postgraduate thesis, the
creation of a similar digital repository, within the infrastructure of Clarin, was attempted for
the University of West Attica. The material was collected, processed, described, documented,
and made accessible to the scientific community. The collection of the resources was carried
out after contacting their creators, who are also the owners of their distribution rights. Also
included was material that is already available in free forms of copyright and has been
produced in the context of the university's educational work. The material on Clarin is made
available under Creative Commons open access licenses, respecting the wishes of its creators.
After a time-consuming and laborious process, material was collected from many authors,
who represent the majority of schools and departments of the two TEIs, Athens and Piraeus,
with the merger of which the University of West Attica was created, as well as from the PADA
itself. A total of 193 language resources were collected. Regarding the TEI of Athens, material
from 5 schools and 19 departments was integrated with the Clarin:el infrastructure, while
from TEI Piraeus, material from 2 schools and 8 departments. The material from the PADA
covers 4 schools and 5 departments. The material, which is entirely in text format, consists of
188 text corpuses and 5 lexical /conceptual resources. The 189 language resources are
monolingual and 4 are bilingual, while the languages represented are Greek, English and the
local dialect of Messinia.