Ένα εργαλείο σε Java για την ανάκτηση πληροφοριών και τον εντοπισμό ομοιοτήτων σε ακαδημαϊκές εκδόσεις με τη χρήση τεχνικών εξόρυξης δεδομένων Δημήτρης.

Slides:



Advertisements
Παρόμοιες παρουσιάσεις
5η Επιστημονική ημερίδα ΚΕΒΕΠ: «Ανάπτυξη βιβλιοθηκών/κέντρων πληροφόρησης εν μέσω οικονομικής κρίσης» Ανδρέας Κ. Ανδρέου.
Advertisements

Πέτσας Δημήτριος Παρουσίαση στο μάθημα: Ψηφιακές Βιβλιοθήκες
ΔΙ.ΟΡΓΑΝΩ.ΣΗ Σύστημα ΔΙαχείρισης ΟΡΓΑΝΩσιακής ΓνώΣΗς για τις ελληνικές επιχειρήσεις. Μπίμπη Σταματία1 Σαμολαδάς Ιωάννης1 Σταμέλος Ιωάννης1 Κατσιαδάκης.
Κίνητρα & Στόχοι εργασίας
Ημερίδα Χαροκοπείου Πανεπιστημίου με θέμα:
1 Μηχανές αναζήτησης στον Παγκόσμιο Ιστό Search Engines.
Σύστημα ηλεκτρονικής δημοσίευσης DiVA Μάθημα: «Ηλεκτρονική Δημοσίευση» Χαρίκλεια Μπρίντεζη.
Πνευματικό κέντρο Ερμουπόλεως Σύρου
Ανάκτηση Πληροφορίας Το Boolean μοντέλο.
1 Συλλογικοί Κατάλογοι & Διαδίκτυο Μιχάλης Σφακάκης.
Εποπτεύων καθηγητής: Κος Σαράντος Καπιδάκης
Μηχανική Μάθηση και Εξόρυξη Γνώσης
Έρευνα Έρευνα :“Συστηματική, ελεγχόμενη, εμπειρική και κριτική διερεύνηση υποθετικών προτάσεων σχετικά με τις εικαζόμενες σχέσεις ανάμεσα σε φυσικά(;)
Καθιστώντας μια υπηρεσία θεματικής πλοήγησης στο διαδίκτυο συμβατή με τις τεχνολογίες των συνδεδεμένων δεδομένων Συγγραφείς: Κωνσταντίνος Κυπριανός, Ιωάννης.
Heal Link Η HEAL Link (Hellenic Academic Libraries Link) είναι ο Σύνδεσμος Ελληνικών Ακαδημαϊκών Βιβλιοθηκών και λειτουργεί υπό.
ΈΝΑ ΗΛΕΚΤΡΟΝΙΚΟ ΕΚΘΕΤΗΡΙΟ ΓΙΑ ΤΙΣ ΝΕΕΣ ΠΡΟΣΚΤΗΣΕΙΣ ΒΙΒΛΙΩΝ ΤΗΣ ΒΙΒΛΙΟΘΗΚΗΣ ΤΟΥ ΠΑΝΕΠΙΣΤΗΜΙΟΥ ΜΑΚΕΔΟΝΙΑΣ Κολοβός Φίλιππος Τσανακτσίδου ΕλισάβετΠαπαργύρη.
Δημήτρης Γαβρίλης, Κωνσταντία Κακάλη Βιβλιοθήκη & Υπηρεσία Πληροφόρησης, Πάντειο Πανεπιστήμιο.
ΕΥΡΕΣΗ ΚΑΤΗΓΟΡΙΚΩΝ ΕΚΤΟΠΩΝ ΣΕ ΒΙΒΛΙΟΓΡΑΦΙΚΗ ΒΑΣΗ ΔΕΔΟΜΕΝΩΝ
Ψηφιακή Βιβλιοθήκη ΤΕΕ
Λάζαρος Πολυμενάκος, καθηγητής ΑΙΤ Ηρακλής Καπρίτσας, telia.co.gr
Διαδικτυακή εφαρμογή ανάλυσης και επεξεργασίας δεδομένων κυβερνητικών διαβουλεύσεωνgov.insight Η. Ζαβιτσάνος, Γ. Γιαννακόπουλος, Γ. Παλιούρας Ινστιτούτο.
1 ΙΟΝΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΤΜΗΜΑ ΑΡΧΕΙΟΝΟΜΙΑΣ ΚΑΙ ΒΙΒΛΟΘΗΚΟΝΟΜΙΑΣ Αναζητώντας πρότυπα αλληλεπίδρασης χρηστών για ψηφιακές βιβλιοθήκες Εργασία στο Μάθημα: Ψηφιακές.
Οργάνωση πληροφοριών Ευρετηρίαση Μέρος Β Σχεδιασμός ευρετηρίων.
Οργάνωση πληροφοριών Ευρετηρίαση Γ Εξάμηνο Τετάρτη 12-3μμ, αίθουσα Β13 Καθηγητής: Δάφνη Κυριάκη-Μάνεση, δρ.
 Είναι τεκμηριωμένο το περιεχόμενο του βιβλίου ή του άρθρου περιοδικού με σχετική βιβλιογραφία;  Ημερομηνία έκδοσης; Ανάλογα με το θέμα που πραγματεύεται,
Ανάκτηση Πληροφορίας (Information Retrieval – IR) Πανεπιστήμιο Θεσσαλίας Πολυτεχνική Σχολή Τμήμα Μηχ. Η/Υ, Τηλ/νιών & Δικτύων Ακαδημαϊκό Έτος
1. 2 ΠΕΡΙΓΡΑΜΜΑ ΕΝΗΜΕΡΩΣΗΣ ΙΣΤΟΡΙΚΟ ΣΚΟΠΟΣ ΣΥΛΛΟΓΕΣ ΒΙΒΛΙΟΘΗΚΗΣ ΕΜΠΛΟΥΤΙΣΜΟΣ ΤΩΝ ΣΥΛΛΟΓΩΝ ΑΥΤΟΜΑΤΟΠΟΙΗΣΗ ΒΙΒΛΙΟΘΗΚΗΣ ΣΤΑΤΙΣΤΙΚΑ ΣΤΟΙΧΕΙΑ ΕΠΙΛΟΓΟΣ.
Μονάδα Εκπαίδευσης & Επιμόρφωσης Χρηστών Απρίλιος 2010.
1 Ενότητα 5.3.1: Ερωτηματολόγια με τη χρήση του Διαδικτύου Διδάσκων: Χρήστος Κατσάνος - Πανεπιστημιακό κέντρο εκπαίδευσης επιμορφωτών.
TA E-BOOKS ΚΑΙ ΤΟ ΜΕΛΛΟΝ ΤΟΥΣ ΕΡΓΑΣΙΑ ΣΤΟ ΜΑΘΗΜΑ: ΗΛΕΚΤΡΟΝΙΚΗ ΔΗΜΟΣΙΕΥΣΗ ΡΟΚΙΔΗ ΧΡΥΣΟΥΛΑ-ΔΙΟΝΥΣΙΑ ΤΣΙΛΙΓΙΑΝΝΗ ΣΟΦΙΑ ΚΕΡΚΥΡΑ 2006.
ΙΟΝΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΕΤΑΠΤΥΧΙΑΚΟ ΠΡΟΓΡΑΜΜΑ ΣΠΟΥΔΩΝ ΕΡΓΑΣΙΑ ΣΤΟ ΜΑΘΗΜΑ «ΨΗΦΙΑΚΕΣ ΒΙΒΛΙΟΘΗΚΕΣ» ΜΕ ΘΕΜΑ: A Comparison of Methodic Segmentation Techniques for.
ΗΛΕΚΤΡΟΝΙΚΗ ΔΗΜΟΣΙΕΥΣΗ ΔΑΜΠΑΣ ΑΘΑΝΑΣΙΟΣ Β ΚΑΛΩΤΑ ΑΝΝΑ Β
E X a M p L e Αξιοποιώντας την τεχνολογία XML στη διαχείριση της πληροφορίας Λίνα Μπουντούρη Εθνικό Κέντρο Τεκμηρίωσης 13ο Πανελλήνιο Συνέδριο Ακαδημαϊκών.
ΙΟΝΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΤΜΗΜΑ ΑΡΧΕΙΟΝΟΜΙΑΣ – ΒΙΒΛΙΟΘΗΚΟΝΟΜΙΑΣ ΨΗΦΙΑΚΕΣ ΒΙΒΛΙΟΘΗΚΕΣ Εργασία 6ου εξαμήνου ΑΡΧΗ ΠΡΟΣΤΑΣΙΑΣ ΔΕΔΟΜΕΝΩΝ ΚΑΡΑΚΑΤΣΑΝΗΣ ΑΛΕΞΑΝΔΡΟΣ ΜΠΑΜΠΑΤΣΙΚΟΣ.
ΙΟΝΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΤΜΗΜΑ ΑΡΧΕΙΟΝΟΜΙΑΣ ΚΑΙ ΒΙΒΛΙΟΘΗΚΟΝΟΜΙΑΣ ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ ΣΤΗΝ ΕΠΙΣΤΗΜΗ ΤΗΣ ΠΛΗΡΟΦΟΡΙΑΣ " Διοίκηση και Οργάνωση Βιβλιοθηκών.
Παρουσίαση της Ηλεκτρονικής Έκδοσης των Περιοδικών «Ιστορία» και «Αρχαιολογία»
ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ Μάθημα 1ο Εισαγωγή στη Γλωσσική Τεχνολογία
Διδακτική της Πληροφορικής ΗΥ302 Εργασία :Παρουσίαση σχολικού βιβλίου Γ’ Λυκείου Τεχνολογικής Κατεύθυνσης «Ανάπτυξη εφαρμογών σε προγραμματιστικό περιβάλλον»
Οριζόντιο Έργο Υποστήριξης Σχολείων, Εκπαιδευτικών και Μαθητών στο Δρόμο για το ΨΗΦΙΑΚΟ ΣΧΟΛΕΙΟ, νέες υπηρεσίες Πανελλήνιου Σχολικού Δικτύου και Στήριξη.
ΠΜΣ ΕΡΓΑΣΙΑ ΣΤΟ ΜΑΘΗΜΑ ΨΗΦΙΑΚΕΣ ΒΙΒΛΙΟΘΗΚΕΣ The Digital Library and Computational Philology: The BAMBI Project Γόντικα Ειρήνη.
Υπουργείο Εθνικής Παιδείας και Θρησκευμάτων Γενικά Αρχεία του Κράτους Ιστορικό Αρχείο Μακεδονίας.
ΣΥΓΚΟΜΙΔΗ ΜΕΤΑΔΕΔΟΜΕΝΩΝ (METADATA HARVESTING) ΙΟΝΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΤΜΗΜΑ ΑΡΧΕΙΟΝΟΜΙΑΣ - ΒΙΒΛΙΟΘΗΚΟΝΟΜΙΑΣ "Διοίκηση & Οργάνωση Βιβλιοθηκών με έμφαση στις.
«Πρόγραμμα Αναμόρφωσης Προπτυχιακών Προγραμμάτων Σπουδών Γ.Π.Α» Σεμινάριο Ενημέρωσης Διδακτικού Προσωπικού Οι τεχνολογίες της Πληροφορικής και των Επικοινωνιών.
Εισαγωγή-Πρώτα στάδια των ψηφιακών βιβλιοθηκών  Υπάρχουν βιβλιοθήκες εικόνων, ήχου, ψηφιακού βίντεο και συλλογές αποθηκευμένες σε βάσεις δεδομένων, βάσεις.
ΙΟΝΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΤΜΗΜΑ ΑΡΧΕΙΟΝΟΜΙΑΣ - ΒΙΒΛΙΟΘΗΚΟΝΟΜΙΑΣ ΜΕΤΑΠΤΥΧΙΑΚΟ ΠΡΟΓΡΑΜΜΑ ΣΠΟΥΔΩΝ ΣΤΗΝ ΕΠΙΣΤΗΜΗ ΤΗΣ ΠΛΗΡΟΦΟΡΙΑΣ «ΕΠΙΣΤΗΜΗ ΤΗΣ ΠΛΗΡΟΦΟΡΙΑΣ – ΔΙΟΙΚΗΣΗ.
ΗΛΙΟΠΟΥΛΟΥ ΗΡΩ Α.Μ.: Β ΠΙΤΣΟΥΝΗ ΔΗΜΗΤΡΑ Α.Μ.: Β ΣΤΑΥΡΟΠΟΥΛΟΥ ΚΑΣΣΑΝΔΡΑ Α.Μ.: Β
IΟΝΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ ΣΤΗΝ ΕΠΙΣΤΗΜΗ ΤΗΣ ΠΛΗΡΟΦΟΡΙΑΣ: «ΔΙΟΙΚΗΣΗ & ΟΡΓΑΝΩΣΗ ΒΙΒΛΙΟΘΗΚΩΝ ΜΕ ΕΜΦΑΣΗ ΣΤΙΣ ΝΕΕΣ ΤΕΧΝΟΛΟΓΙΕΣ ΤΗΣ.
ΙΟΝΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΤΜΗΜΑ ΑΡΧΕΙΟΝΟΜΙΑΣ ΒΙΒΛΙΟΘΗΚΟΝΟΜΙΑΣ ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ ΣΤΗΝ ΕΠΙΣΤΗΜΗ ΤΗΣ ΠΛΗΡΟΦΟΡΙΑΣ Βρίσκοντας κατάλληλα αντικείμενα μάθησης:
DSpace:ένα ψηφιακό αποθετήριο ανοικτής πρόσβασης Φοιτήτρια : Νικολέττα Μπίζου Μάθημα: Ηλεκτρονική δημοσίευση Διδάσκοντες: Σαράντος Καπιδάκης Μανώλης Γεργατσούλης.
ΙΟΝΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΜΣ «ΕΠΙΣΤΗΜΗ ΤΗΣ ΠΛΗΡΟΦΟΡΗΣΗΣ» ΗΛΕΚΤΡΟΝΙΚΗ ΔΗΜΟΣΙΕΥΣΗ ΔΙΔΑΣΚΟΝΤΕΣ: ΚΑΠΙΔΑΚΗΣ ΣΑΡΑΝΤΟΣ ΓΕΡΓΑΤΣΟΥΛΗΣ ΕΜΜΑΝΟΥΗΛ Το DSpace ως ένα Ανοικτό.
Μάθημα: «Ψηφιακές Βιβλιοθήκες» Μεταπτυχιακό Πρόγραμμα Σπουδών στην Επιστήμη της Πληροφορίας Ιόνιο Πανεπιστήμιο Κωνσταντόπουλος Παναγιώτης
Ιόνιο Πανεπιστήμιο Τμήμα Αρχειονομίας και Βιβλιοθηκονομίας Πρόγραμμα Μεταπτυχιακών Σπουδών στην Επιστήμη της Πληροφορίας «Διοίκηση & Οργάνωση Βιβλιοθηκών.
ΗΛΕΚΤΡΟΝΙΚΗ ΔΗΜΟΣΙΕΥΣΗ: ΠΑΡΑΠΟΜΠΕΣ ΤΜΗΜΑ ΑΡΧΕΙΟΝΟΜΙΑΣ ΒΙΒΛΙΟΘΗΚΟΝΟΜΙΑΣ ΤΣΙΦΛΙΔΟΥ ΕΥΘΥΜΙΑ ΥΔΡΑΙΟΥ ΙΩΑΝΝΑ.
ΗΛΕΚΤΡΟΝΙΚΗ ΔΗΜΟΣΙΕΥΣΗ ΑΚΑΔΗΜΑΪΚΗ ΔΗΜΟΣΙΕΥΣΗ ΚΑΙ ΠΕΡΙΠΤΩΣΕΙΣ ΗΛΕΚΤΡΟΝΙΚΩΝ ΠΕΡΙΟΔΙΚΩΝ ΒΛΙΣΙΔΟΥ ΕΥΔΟΚΙΑ ΚΕΡΚΥΡΑ, ΙΟΥΝΗΣ 2006.
ΣΚΟΠΟΣ ΤΟΥ ΕΡΓΑΣΤΗΡΙΟΥ “Επιστημονική εργασία” Εύρεση πηγών Άξονες δομής επιστημονικού άρθρου (αναγνώριση) Κανόνες γραφής επιστημονικού άρθρου (αναγνώριση)
Δρ. Αλέξανδρος Βακαλούδης.  Εξόρυξη δεδομένων (Data Mining)  Association Rules  Clustering  Classification  Στάδια για εξόρυξη δεδομένων  Επανάληψη.
► ► Η συγγραφή μιας ερευνητικής εργασίας ► ► Επιστημονικά κείμενα ► ► Οδηγίες για την συγγραφή και δημοσίευση εργασίας σε επιστημονικά περιοδικά ► ► Οδηγίες.
Διεργασίες ψηφιακής επιμέλειας και το πρόγραμμα δράσης της Μονάδας Ψηφιακής Επιμέλειας Πάνος Κωνσταντόπουλος Μονάδα Ψηφιακής Επιμέλειας, Ερευνητικό Κέντρο.
Μεθοδολογία Έρευνας Διάλεξη 4 η (2015 – 16) Βιβλιογραφική Έρευνα Δρ. Αλέξανδρος Αποστολακης
ΤΡΟΠΟΣ ΣΥΓΓΡΑΦΗΣ ΕΠΙΣΤΗΜΟΝΙΚΩΝ ΕΡΓΑΣΙΩΝ
ΜΕΘΟΔΟΛΟΓΙΑ ΕκπαιδευτικΗς ΕΡΕΥΝΑΣ: Συγγραφη εργασιας
Σεμινάριο Τελειοφοίτων
ΔΙΟΙΚΗΣΗ ΟΛΙΚΗΣ ΠΟΙΟΤΗΤΑΣ
ΠΑΡΑΛΛΗΛΑ ΚΑΙ ΣΥΓΚΡΙΣΙΜΑ ΣΩΜΑΤΑ ΚΕΙΜΕΝΩΝ
Δομή ερευνητικής εργασίας
Μεθοδολογία Έρευνας Διάλεξη 9η Σύνταξη Πτυχιακής Εργασίας
Εισαγωγή Για σχεδόν τέσσερις δεκαετίες, οι προσωπικοί υπολογιστές αποτελούνταν από ένα desktop system και ένα folder system metaphors για τη διαχείριση.
ΜΕΘΟΔΟΛΟΓΙΕΣ ΕΡΕΥΝΑΣ ΚΡΙΤΙΚΗ ΕΠΙΣΚΟΠΗΣΗ ΒΙΒΛΙΟΓΡΑΦΙΑΣ
ΣΥΓΓΡΑΦΗ ΕΠΙΣΤΗΜΟΝΙΚΗΣ ΕΡΓΑΣΙΑΣ
ΑΝΑΣΚΟΠΗΣΗ ΤΗΣ ΒΙΒΛΙΟΓΡΑΦΙΑΣ
Μεταγράφημα παρουσίασης:

Ένα εργαλείο σε Java για την ανάκτηση πληροφοριών και τον εντοπισμό ομοιοτήτων σε ακαδημαϊκές εκδόσεις με τη χρήση τεχνικών εξόρυξης δεδομένων Δημήτρης Ρουσίδης - Εμμανουήλ Γαρουφάλλου - Πάνος Μπαλατσούκας -

2 Κύρια Σημεία •Δεδομένα – Στατιστικά – Μελέτες Περίπτωσης που οδήγησαν στη δημιουργία του εργαλείου •Σκοπός-Στόχοι Εργαλείου •Κύρια Χαρακτηριστικά - Μεθοδολογία

3 Δεδομένα για τις ακαδημαϊκές εκδόσεις •Αριθμός peer-reviewed άρθρων (2010) = 2,5 εκατ. •Συνολικός αριθμός δημοσιευμένων άρθρων σε περιοδικά μέχρι το 2009 = 50 εκατ. •Πλούτος γνώσης •Οι χρήστες χρησιμοποιούν διαφορετικά κριτήρια για να αξιολογήσουν τη συνάφεια ενός άρθρου πέρα από τα κριτήρια που περιλαμβάνουν λέξεις κλειδιά (keywords) σε κάποιο ερώτημα (query) •Δεν είναι πάντα δυνατή η αξιολόγηση όλων των σχετικών πληροφοριών

4 Στατιστικά • πλήρους απασχόλησης επαγγελματίες στον ακαδημαϊκό χώρο •10-15 εκατ. το αναγνωστικό κοινό των περιοδικών •5,5 εκατ. ερευνητές •Συνολικό κόστος διεξαγωγής και κοινοποίησης της έρευνας που δημοσιεύεται σε περιοδικά 219,3 δισ. € –145,4 δισ. € για την έρευνα –31,3 δισ. € για τη δημοσίευση, διανομή και πρόσβαση –42,6 δισ. € για την ανάγνωση των άρθρων •Έρευνα JISC 2011: Τρομερά οφέλη από την εφαρμογή εξόρυξης κειμένου σε ακαδημαϊκές εκδόσεις

5 Μελέτες Περίπτωσης Στατιστικών •Αυτοματοποιημένη περίληψη που να υποστηρίζει την ανασκόπηση βιβλιογραφίας –Χρόνος ανάγνωσης και σύνοψης περιεχομένου ενός ακαδ. άρθρου = 31 λεπτά –Χρόνος για να διαβαστεί μια αυτοματοποιημένη περίληψη = 5 λεπτά –Χρόνος που εξοικονομείται 26 λεπτά –Εξοικονόμηση κόστους ανά περίληψη = 15,8 € •131 εργαλεία εξόρυξης κειμένου στο SciVerse –22 χρησιμοποιούν association rules, classification ή clustering –12 από αυτά αναφέρονται σε ακαδημαϊκές εκδόσεις –5 επικεντρώνονται μόνο στους συγγραφείς –2 μόνο βρίσκουν ομοιότητες αλλά χρησιμοποιούν ελάχιστα μεταδεδομένα

6 Μελέτη Περίπτωσης Αναζήτησης •Αναζήτηση στο Google για το θέμα «Συμπεριφορά αναζήτησης πληροφοριών» •7 εκ. σελίδες – 700 χιλ. Pdf •Συνήθης τακτική: download από τις πρώτες σελίδες αποτελεσμάτων •Λόγοι: Περιορισμοί στη λήψη αποφάσεων – έλλειψη γνωστικής προσπάθειας στην ανάπτυξη ερωτημάτων μέσω κριτηρίων •Συμπέρασμα: Η διαδικασία της αξιολόγησης ανακτώμενων εγγράφων στα πλαίσια των διερευνητικών αναζητήσεων είναι απαιτητική τόσο από πλευράς χρόνου όσο και γνωστικής προσπάθειας που ξοδεύεται

7 Σκοπός-Στόχοι Εργαλείου •Υποστήριξη και βελτιστοποίηση της διαδικασίας λήψης αποφάσεων των χρηστών •Μείωση χρόνου που ξοδεύεται για την σύγκριση και ανακάλυψη ομοιότητας μεταξύ ακαδημαϊκών άρθρων •Διευκόλυνση στη κρίση για τη χρησιμότητα ανάγνωσης συγκεκριμένων ακαδημαϊκών άρθρων •Κατανόηση του περιεχομένου ενός επιλεγμένου συνόλου εκδόσεων •Συμπληρωματικό (plug-in) στα IR συστήματα, μηχανές αναζήτησης και όχι υποκατάστατο

8 Κύρια Χαρακτηριστικά Εργαλείου •Προτείνεται ένα εργαλείο σε Java (στο στάδιο υλοποίησης): –Αυτοματοποιημένο – Αγγλική Γλώσσα –Θα εντοπίζει σημασιολογικές ομοιότητες μεταξύ ανακτώμενων συγγραμμάτων μέσω συμβατικών και μη κριτηρίων (π.χ. Μέθοδοι έρευνας και τεχνικές ανάλυσης αποτελεσμάτων) –Μέσω συνδυασμών μεταδεδομένων θα ανακαλύπτει και θα οπτικοποιεί •Κρυμμένα μοτίβα •Κανόνες σχέσεις (association rules) – π.χ. 80% των άρθρων του συγγραφέα Χ περιέχουν την λέξη Υ στις λέξεις-κλειδιά •Κατηγοριοποίηση (classification) •Συσταδοποίηση (clustering) – Οπτικοποίηση ομαδοποίησης εγγράφων απάντησης D ενός ερωτήματος q του χρήστη –Θα δημιουργεί μια βάση ορολογιών μέσω ανάλυσης ευρετηρίων από e- books –Προβλέπεται ενσωμάτωση σε υπάρχοντα εργαλεία και μηχανές εργαλείων ακαδημαϊκών εκδόσεων

9 Μεθοδολογία Εργαλείου •Γραμμένο σε Java (Write Once, Run Anywhere) •Desktop application με σκοπό την ενσωμάτωση σε ακαδημαϊκά αποθετήρια, ακαδημαϊκές ψηφιακές βιβλιοθήκες και μηχανές αναζήτησης •Μεταφόρτωση αρχείων κειμένου και μετατροπή σε.xml •Δημιουργία πινάκων μεταδεδομένων •Επιλογή και ανάθεση κριτηρίων ομοιότητας

10 Πίνακες Μεταδεδομένων •Μεταδεδομένα: –Άρθρου –Λέξεων – Κλειδιά –Περίληψης –Κυρίου Σώματος –Συγγραφέων –Αναφορών •Η συντριπτική πλειοψηφία θα εισάγονται αυτοματοποιημένα και ορισμένα manually

11 Δομή Πινάκων Μεταδεδομένων

12 Κριτήρια Ομοιότητας •Άρθρο πηγή (υψίστης χρησιμότητας για τον χρήστη) •Τιμές με ένα δεκαδικό μεταξύ 0 και 1 •Αυτόματη Εισαγωγή (προεπιλεγμένη από τον προγραμματιστή) •Εισαγωγή από το χρήστη •Ημιαυτόματη Εισαγωγή (μέσω scroll bars)

Αλγόριθμοι Ομοιότητας & Εξόρυξης Δεδομένων •Αρχικός Αλγόριθμος: •όπου: Wi = η βαρύτητα, N = ο αριθμός των άρθρων στη βάση δεδομένων και Xij = ο αριθμός όλων των άρθρων (j) που μοιράζονται μια κοινή τιμή μεταδεδομένου με το άρθρο «πηγή» •Μελέτη αλγόριθμων εξόρυξης δεδομένων όπως C4.5, K-Means, SVM: Support Vector Machines, EM, PageRank, AdaBoost, k-Nearest Neighbors, Naïve Bayes and CART

14 Ροή Εργασίας Μεταδεδομένων

15 Προσδιορισμός Μεθοδολογιών Ακαδημαϊκών Άρθρων •Αποθετήριο γλωσσάριων και υπο-γλωσσάριων –Δημιουργία μέσω ευρετηρίων e-books •Δενδροειδής μορφή •Χρήση των labels και headers της.xml •Ανίχνευση της μεθοδολογίας μέσω αντιστοίχησης των λέξεων του άρθρου με τα γλωσσάρια

16 Δοκιμή & Αξιολόγηση •Μερικές δεκάδες χιλιάδες ακαδημαϊκά άρθρα, περιοδικά, πρακτικά, e-books. •Πηγές: open access ηλεκτρονικές βιβλιοθήκες, καταλόγους, βάσεις δεδομένων διατριβών, πανεπιστημιακές βιβλιοθήκες και ακαδημαϊκές προσωπικές συλλογές •Αξιολόγηση μέσω τεστ χρηστικότητας και μελετών χρηστών από φοιτητές, πανεπιστημιακούς και ειδικούς

17 Συμπεράσματα – Τρέχουσα Εργασία •Εφαρμογή data mining και text mining τεχνικών προκειμένου να αποκαλυφθούν ομοιότητες μεταξύ ακαδημαϊκών συγγραμμάτων •Επιλογή πληθώρας κριτηρίων •Δημιουργία γλωσσαρίων •Έρευνα και υλοποίηση σε εξέλιξη •Προσπάθεια για αυτόματη τροφοδότηση άρθρων μέσω Web

Ένα εργαλείο σε Java για την ανάκτηση πληροφοριών και τον εντοπισμό ομοιοτήτων σε ακαδημαϊκές εκδόσεις με τη χρήση τεχνικών εξόρυξης δεδομένων Δημήτρης Ρουσίδης - Εμμανουήλ Γαρουφάλλου - Πάνος Μπαλατσούκας -