Πληροφοριακό Σύστημα Ενημέρωσης Δικτύου Βιβλιογραφικών Αναφορών από τον Ιστό με τεχνικές εξαγωγής πληροφορίας, τεχνολογίας λογισμικού και ταιριάσματος.

Slides:



Advertisements
Παρόμοιες παρουσιάσεις
ΛΟΓΙΣΜΙΚΟ ΔΙΑΧΕΙΡΙΣΗΣ DATA, ΤΟΠΟΘΕΣΙΩΝ ΚΑΙ ΠΟΡΩΝ.
Advertisements

Πέτσας Δημήτριος Παρουσίαση στο μάθημα: Ψηφιακές Βιβλιοθήκες
ShareIt Social Network Project Simos Hatzikostas: Manolhs Georgiou: Theodoros Demetriou:
EPublishing 6/ Βικτωρία Τσουκαλά, PhD Ιούνιος 2013 Η Πράξη “Εθνικό Πληροφοριακό Σύστημα Έρευνας και Τεχνολογίας/Κοινωνικά Δίκτυα – Περιεχόμενο Παραγόμενο.
ΠΜΣ ΠΡΟΗΓΜΕΝΑ ΣΥΣΤΗΜΑΤΑ ΠΛΗΡΟΦΟΡΙΚΗΣ Κατεύθυνση ΤΕΔΑ Τεχνολογίες Διαχείρισης Ασφάλειας Security Management Engineering Τμήμα Πληροφορικής ΠΑΝΕΠΙΣΤΗΜΙΟ.
Τεχνολογίες Ηλεκτρονικής Μάθησης
ΟΡΟΛΟΓΙΑ Στην ΚτΠ: Χρησιμότητα στον Δημόσιο Τομέα ή Η σημασία της γνώσης των όρων για αποτελεσματική πρόσβαση στην πληροφορία Γ. Καραγιάννης Καθηγητής.
 Αυδίκου Χριστίνα  Γιουμούκης Παναγιώτης  Κιντσάκης Θάνος  Πάπιστας Γιάννης.
Πτυχιακή εργασία των Κωνσταντίνου Κουρμούση (1604)
Εποπτεύων καθηγητής: Κος Σαράντος Καπιδάκης
Μηχανική Μάθηση και Εξόρυξη Γνώσης
ΠΛΗΡΟΦΟΡΙΑΚΟ ΣΥΣΤΗΜΑ ΓΙΑ ΤΗΝ ΔΙΑΣΦΑΛΙΣΗ ΠΟΙΟΤΗΤΑΣ Γραφείο Ποιότητας Αλεξάνδρειο ΤΕΙ Θεσσαλονίκης.
ΕΡΓΑΛΕΙΟ ΠΑΡΑΓΩΓΗΣ ΠΕΡΙΕΧΟΜΕΝΟΥ ΣΕ WEB SITE (CONTENT MANAGEMENT TOOL)
Η ποιότητα της πληροφορίας στο εκπαιδευτικό υλικό που χρησιμοποιείται ή διανέμεται μέσω του Internet Χρήστος Σαβρανίδης Πανεπιστήμιο Ιωαννίνων Τμήμα ΦΠΨ.
ΟΡΓΑΝΙΣΜΟΣ ΒΙΟΜΗΧΑΝΙΚΗΣ ΙΔΙΟΚΤΗΣΙΑΣ ΤΕΧΝΟΛΟΓΙΚΗ ΠΛΗΡΟΦΟΡΗΣΗ ΑΠΟ ΤΙΤΛΟΥΣ ΒΙΟΜΗΧΑΝΙΚΗΣ ΙΔΙΟΚΤΗΣΙΑΣ.
MODULE 3 – Εξερευνώντας το τοπίο της Ανοικτής Πρόσβασης: πώς να χρησιμοποιήσουμε την ΑΠ.
ΠΛΗΡΟΦΟΡΙΑΚΑ ΣΥΣΤΗΜΑΤΑ
ΚΕΦΑΛΑΙΟ 3 ΒΑΣΙΚΕΣ ΕΝΝΟΙΕΣ ΤΩΝ Γ.Σ.Π.. ΟΡΙΣΜΟΙ Ένα σύστημα για τακτικό και συνηθισμένο τρόπο επεξεργασίας δεδομένων και για απάντηση προκαθορισμένων και.
ΈΝΑ ΗΛΕΚΤΡΟΝΙΚΟ ΕΚΘΕΤΗΡΙΟ ΓΙΑ ΤΙΣ ΝΕΕΣ ΠΡΟΣΚΤΗΣΕΙΣ ΒΙΒΛΙΩΝ ΤΗΣ ΒΙΒΛΙΟΘΗΚΗΣ ΤΟΥ ΠΑΝΕΠΙΣΤΗΜΙΟΥ ΜΑΚΕΔΟΝΙΑΣ Κολοβός Φίλιππος Τσανακτσίδου ΕλισάβετΠαπαργύρη.
Δημήτρης Γαβρίλης, Κωνσταντία Κακάλη Βιβλιοθήκη & Υπηρεσία Πληροφόρησης, Πάντειο Πανεπιστήμιο.
ΕΥΡΕΣΗ ΚΑΤΗΓΟΡΙΚΩΝ ΕΚΤΟΠΩΝ ΣΕ ΒΙΒΛΙΟΓΡΑΦΙΚΗ ΒΑΣΗ ΔΕΔΟΜΕΝΩΝ
Λάζαρος Πολυμενάκος, καθηγητής ΑΙΤ Ηρακλής Καπρίτσας, telia.co.gr
Διαδικτυακή εφαρμογή ανάλυσης και επεξεργασίας δεδομένων κυβερνητικών διαβουλεύσεωνgov.insight Η. Ζαβιτσάνος, Γ. Γιαννακόπουλος, Γ. Παλιούρας Ινστιτούτο.
ΕΚΕΦΕ «Δημόκριτος» Ινστιτούτο Πληροφορικής & Τηλεπικοινωνιών Κοινωνία της Πληροφορίας & Τεχνητή Νοημοσύνη Δρ. Κωνσταντίνος Δ. Σπυρόπουλος Δντής Έρευνας.
Οργάνωση πληροφοριών Ευρετηρίαση Μέρος Β Σχεδιασμός ευρετηρίων.
Ανάπτυξη και εκπαίδευση ιεραρχίας ταξινομητών για την κατηγοριοποίηση κειμένων Αβραμίδη Γεωργία 719.
ΘΥΡΑ: ανάπτυξη θεματικής πύλης πληροφόρησης στη Βιβλιοθήκη του Πανεπιστημίου Μακεδονίας με τη χρήση λογισμικού ανοικτού κώδικα Γ’ ΚΠΣ / ΕΠΕΑΕΚ ΙΙ / ΕΝΕΡΓΕΙΑ.
Ακαδημαϊκή Ηλεκτρονική Δημοσίευση: η σημερινή κατάσταση και μια αναφορά των project που ασχολούνται με αυτή Κάτση Εγλεντίνα (Β )
1 MedioVis- Ένας φυλλομετρητής μεταδεδομένων MedioVis – A user-centred Library Metadata Browser Μάθημα: Ψηφιακές Βιβλιοθήκες Διδάσκων: Καπιδάκης Σαράντος.
Τα ελληνικά περιοδικά στο Internet Βιβλιοθήκη Πανεπιστημίου Μακεδονίας Βιβλιοθήκη Πανεπιστημίου Μακεδονίας Κώστας Ζωντανός 11ο Πανελλήνιο Συνέδριο Ακαδημαϊκών.
E X a M p L e Αξιοποιώντας την τεχνολογία XML στη διαχείριση της πληροφορίας Λίνα Μπουντούρη Εθνικό Κέντρο Τεκμηρίωσης 13ο Πανελλήνιο Συνέδριο Ακαδημαϊκών.
Ημερίδα 4 Πορεία των διαδικασιών Διασφάλισης της ποιότητας 15 Νοεμβρίου 2012.
CALIS (China Academic Library and Information System) Κοινοπραξία ακαδημαϊκών βιβλιοθηκών της Κίνας Σύστημα παροχής πληροφοριών 1998.
ΙΟΝΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΤΜΗΜΑ ΑΡΧΕΙΟΝΟΜΙΑΣ ΚΑΙ ΒΙΒΛΙΟΘΗΚΟΝΟΜΙΑΣ ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ ΣΤΗΝ ΕΠΙΣΤΗΜΗ ΤΗΣ ΠΛΗΡΟΦΟΡΙΑΣ " Διοίκηση και Οργάνωση Βιβλιοθηκών.
Παρουσίαση της Ηλεκτρονικής Έκδοσης των Περιοδικών «Ιστορία» και «Αρχαιολογία»
ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ Μάθημα 1ο Εισαγωγή στη Γλωσσική Τεχνολογία
ΠΜΣ ΕΡΓΑΣΙΑ ΣΤΟ ΜΑΘΗΜΑ ΨΗΦΙΑΚΕΣ ΒΙΒΛΙΟΘΗΚΕΣ The Digital Library and Computational Philology: The BAMBI Project Γόντικα Ειρήνη.
Προηγμένη Εφαρμογή Ιστού Διαχείρισης Δεδομένων Βιοεπιστημών Διπλωματική Εργασία του Γεωργίου Πρέκα ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΣΧΟΛΗ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ.
ΙΟΝΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΤΜΗΜΑ ΑΡΧΕΙΟΝΟΜΙΑΣ - ΒΙΒΛΙΟΘΗΚΟΝΟΜΙΑΣ ΜΕΤΑΠΤΥΧΙΑΚΟ ΠΡΟΓΡΑΜΜΑ ΣΠΟΥΔΩΝ ΣΤΗΝ ΕΠΙΣΤΗΜΗ ΤΗΣ ΠΛΗΡΟΦΟΡΙΑΣ «ΕΠΙΣΤΗΜΗ ΤΗΣ ΠΛΗΡΟΦΟΡΙΑΣ – ΔΙΟΙΚΗΣΗ.
Οδηγός Αναζήτησης Ιδρυματικού Αποθετηρίου
IΟΝΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ ΣΤΗΝ ΕΠΙΣΤΗΜΗ ΤΗΣ ΠΛΗΡΟΦΟΡΙΑΣ: «ΔΙΟΙΚΗΣΗ & ΟΡΓΑΝΩΣΗ ΒΙΒΛΙΟΘΗΚΩΝ ΜΕ ΕΜΦΑΣΗ ΣΤΙΣ ΝΕΕΣ ΤΕΧΝΟΛΟΓΙΕΣ ΤΗΣ.
ΙΟΝΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΤΜΗΜΑ ΑΡΧΕΙΟΝΟΜΙΑΣ- ΒΙΒΛΙΟΘΗΚΟΝΟΜΙΑΣ ΗΛΕΚΤΡΟΝΙΚΗ ΔΗΜΟΣΙΕΥΣΗ Υπεύθυνος καθηγητής: κος. Σ. Καπιδάκης Επιμελήτρια: Παπαγιάννη Ανδρονίκη.
DSpace:ένα ψηφιακό αποθετήριο ανοικτής πρόσβασης Φοιτήτρια : Νικολέττα Μπίζου Μάθημα: Ηλεκτρονική δημοσίευση Διδάσκοντες: Σαράντος Καπιδάκης Μανώλης Γεργατσούλης.
Ιόνιο Πανεπιστήμιο Τμήμα Αρχειονομίας και Βιβλιοθηκονομίας Πρόγραμμα Μεταπτυχιακών Σπουδών στην Επιστήμη της Πληροφορίας «Διοίκηση & Οργάνωση Βιβλιοθηκών.
Ηλεκτρονική Δημοσίευση The Goddard Library Web Capture Project Χριστιανούδης Ιωάννης Π.Μ.Σ. Κέρκυρας Μάιος 2005.
ΗΛΕΚΤΡΟΝΙΚΗ ΔΗΜΟΣΙΕΥΣΗ: ΠΑΡΑΠΟΜΠΕΣ ΤΜΗΜΑ ΑΡΧΕΙΟΝΟΜΙΑΣ ΒΙΒΛΙΟΘΗΚΟΝΟΜΙΑΣ ΤΣΙΦΛΙΔΟΥ ΕΥΘΥΜΙΑ ΥΔΡΑΙΟΥ ΙΩΑΝΝΑ.
ΗΛΕΚΤΡΟΝΙΚΗ ΔΗΜΟΣΙΕΥΣΗ ΑΚΑΔΗΜΑΪΚΗ ΔΗΜΟΣΙΕΥΣΗ ΚΑΙ ΠΕΡΙΠΤΩΣΕΙΣ ΗΛΕΚΤΡΟΝΙΚΩΝ ΠΕΡΙΟΔΙΚΩΝ ΒΛΙΣΙΔΟΥ ΕΥΔΟΚΙΑ ΚΕΡΚΥΡΑ, ΙΟΥΝΗΣ 2006.
Τεχνολογία ΛογισμικούSlide 1 Τεχνολογία Απαιτήσεων u Καθορίζει τι θέλει ο πελάτης από ένα σύστημα λογισμικού.
ΑΝΑΠΤΥΞΗ ΕΦΑΡΜΟΓΗΣ ΣΥΛΟΓΗΣ ΔΕΔΟΜΕΝΩΝ ΑΠΟ ΔΥΚΤΙΑ ΚΟΙΝΩΝΙΚΟΥ ΙΣΤΟΥ Ανέστης Κυβράνογλου(1281) Επιβλέπων : Κ. Πεταλίδης Νικόλαος.
Μπόλαρη Αγγελικη(1451) Επιβλέπων Βολογιαννίδης Σταύρος ΑΤΕΙ ΣΕΡΡΩΝ ΣΧΟΛΗ ΤΕΧΝΟΛΟΓΙΚΩΝ ΕΦΑΡΜΟΓΩΝ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ & ΕΠΙΚΟΙΝΩΝΙΩΝ Σέρρες 2013.
ΣΚΟΠΟΣ ΤΟΥ ΕΡΓΑΣΤΗΡΙΟΥ “Επιστημονική εργασία” Εύρεση πηγών Άξονες δομής επιστημονικού άρθρου (αναγνώριση) Κανόνες γραφής επιστημονικού άρθρου (αναγνώριση)
Διεργασίες ψηφιακής επιμέλειας και το πρόγραμμα δράσης της Μονάδας Ψηφιακής Επιμέλειας Πάνος Κωνσταντόπουλος Μονάδα Ψηφιακής Επιμέλειας, Ερευνητικό Κέντρο.
ΕΙΣΑΓΩΓΗ ΣΤΙΣ ΕΥΡΕΤΙΚΕΣ ΜΕΘΟΔΟΥΣ Άπληστη Αναζήτηση και Αναζήτηση Α* ΣΠΥΡΟΣ ΛΥΚΟΘΑΝΑΣΗΣ, ΚΑΘΗΓΗΤΗΣ.
1 Βιβλιογραφική Ανασκόπηση Literature Review. 2 Τι είναι η Βιβλιογραφική Ανασκόπηση;  Είναι η ικανότητα του σπουδαστή- συγγραφέα-ερευνητή να ανατρέχει.
ΔΥΑΔΙΚΗ ΑΝΑΖΗΤΗΣΗ & ΤΑΞΙΝΟΜΗΣΗ ΜΕ ΣΥΓΧΩΝΕΥΣΗ. Δυαδική αναζήτηση (Binary search) ΔΕΔΟΜΕΝΟ: ένα μεγάλο αρχείο που περιέχει τιμές z [0,1,…,n-1] ταξινομημένες.
ΕΝΟΤΗΤΑ 1. ΒΑΣΙΚΕΣ ΕΝΝΟΙΕΣ ΚΕΦΑΛΑΙΟ 1.1 ΕΠΙΣΤΗΜΗ ΤΩΝ ΥΠΟΛΟΓΙΣΤΩΝ 1.
Εισαγωγή στη Νοσηλευτική Επιστήμη
ΕΠΙΣΤΗΜΟΝΙΚΗ ΜΕΘΟΔΟΛΟΓΙΑ
ΤΙΤΛΟΣ ΕΡΓΑΣΙΑΣ ΒΑΣΕΙΣ ΔΕΔΟΜΕΝΩΝ Ανδρέου Βασίλης.
Μελλοντικές Προκλήσεις στην Επιστήμη και Μηχανική του Περιβάλλοντος
Πρόγραμμα Προπτυχιακών Σπουδών Ροή Λ: Λογισμικό
Οριζόντιο Έργο Υποστήριξης Σχολείων, Εκπαιδευτικών και Μαθητών στο Δρόμο για το ΨΗΦΙΑΚΟ ΣΧΟΛΕΙΟ, νέες υπηρεσίες Πανελλήνιου Σχολικού Δικτύου και Στήριξη.
Διδάσκων: Δρ. Τσίντζα Παναγιώτα
ΕπιβλΕπων: Δρ. Κ. Σ. ΧειλΑΣ, ΑναπληρωΤΗΣ ΚαθηγητΗΣ
Συγγραφέας: Ζαγκότας Στεφανος Επιβλέπων Καθηγητής: Ούτσιος Ευάγγελος
Διδακτική της ιστορίας με ΤΠΕ 3ο μάθημα
ΜΕΘΟΔΟΛΟΓΙΕΣ ΕΡΕΥΝΑΣ ΚΡΙΤΙΚΗ ΕΠΙΣΚΟΠΗΣΗ ΒΙΒΛΙΟΓΡΑΦΙΑΣ
Βιβλιογραφική Ανασκόπηση
ΣΥΓΓΡΑΦΗ ΕΠΙΣΤΗΜΟΝΙΚΗΣ ΕΡΓΑΣΙΑΣ
Οι Κατευθύνσεις στο τμήμα Μηχανικών Πληροφορικής
Μεταγράφημα παρουσίασης:

Πληροφοριακό Σύστημα Ενημέρωσης Δικτύου Βιβλιογραφικών Αναφορών από τον Ιστό με τεχνικές εξαγωγής πληροφορίας, τεχνολογίας λογισμικού και ταιριάσματος όμοιων εγγραφών Επιβλέποντες: Γεώργιος Παλιούρας – Ερευνητής ΕΚΕΦΕ «Δημόκριτος» Τίμος Σελλής – Καθηγητής Ε.Μ.Π. ΠΑΠΑΔΑΚΗΣ ΓΕΩΡΓΙΟΣ

…Βιβλιογραφικών Αναφορών…  Βιβλιογραφική Αναφορά (citation): μέθοδος αναγνώρισης της συνεισφοράς μιας επιστημονικής εργασίας σε κάποιο άλλο ερευνητικό έργο.  Πρακτική Σημασία : τρόπος αξιολόγησης του ερευνητικού έργου των επιστημόνων.  Εμπνευστής: Eugene Garfield (1955)  Μειονεκτήματα Αντικειμενικότητας  Ανάγκη Αυτοματοποίησης της διαδικασίας συλλογής των βιβλιογραφικών αναφορών

…δικτύου βιβλιογραφικών αναφορών… ■ Γράφος → κοινωνικό δίκτυο ■ Κόμβοι → επιστήμονες ■ Ακμές → citations ή συνεργασίες επιστημόνων σε δημοσιεύσεις

…ενημέρωση δικτύου βιβλιογραφικών αναφορών…  Απαιτείται επίλυση των ακόλουθων προβλημάτων: 1. Πρόσβαση στις πρωτογενείς πηγές δημοσιοποίησης επιστημονικών εργασιών 2. Ταίριασμα Βιβλιογραφικών Αναφορών (Citation Matching Problem - CMP) 3. Πρόβλημα των Ομώνυμων Συγγραφέων (Mixed Citation Problem – MCP ) 4. Πρόβλημα των Συνώνυμων Συγγραφέων (Split Citation Problem - SCP)

1. Πρόσβαση στις πρωτογενείς πηγές δημοσιοποίησης επιστημονικών εργασιών  Ακαδημαϊκές Μηχανές Αναζήτησης  Γενικές με μεγάλες δυνατότητες (π.χ. ανάλυση βιβλιογραφικών αναφορών) 1. Scopus (2004) 2. Web of Science 3. Google Scholar (2005)  Γενικές με περιορισμένες δυνατότητες 1. Live Search Academic (2007) 2. Citeseer (1997)  Εξειδικευμένες 1. ACM Digital Libray 2. DBLP 3. PudMed Central 4. SciFinder Scholar Καμία από αυτές δεν λύνει επαρκώς και τα 4 προηγούμενα προβλήματα

2. Ταίριασμα Βιβλιογραφικών Αναφορών Citation Matching (Α)  Ορισμός: Δεδομένου ενός συνόλου βιβλιογραφικών αναφορών να εντοπιστούν γρήγορα και με ακρίβεια οι βιβλιογραφικές αναφορές που στην πραγματικότητα αφορούν την ίδια δημοσίευση.  Αίτια:  Ακαθόριστη σειρά των πεδίων (συγγραφείς, τίτλος κλπ)  Κάποια πεδία σε ορισμένες βιβλιογραφικές αναφορές παραλείπονται.  Παράθεση τίτλων περιοδικών/συνεδρίων στη συντομευμένη τους μορφή.  Ορθογραφικά λάθη  Παράδειγμα :

2. Ταίριασμα Βιβλιογραφικών Αναφορών Citation Matching (Β)  Δεν αντιμετωπίζουμε το citation matching πρόβλημα στην συνηθισμένη του μορφή αλλά όπως αυτό εμφανίζεται στα αποτελέσματα του Google Scholar:  ορθογραφικό λάθος στους τίτλους  τοποθέτηση ονομάτων συγγραφέων στη θέση ή στην αρχή του τίτλου  προσθήκη συνεδρίου στο τέλος του τίτλου

3. Πρόβλημα των Ομώνυμων Συγγραφέων Mixed Citation Problem  Ορισμός : Δεδομένου ενός συνόλου βιβλιογραφικών αναφορών, έστω C, που αφορούν ένα συγγραφέα a i, να εντοπιστούν γρήγορα και με ακρίβεια οι βιβλιογραφικές αναφορές που στην πραγματικότητα είναι γραμμένες από ένα διαφορετικό συγγραφέα a j, που τυχαίνει να έχει το ακριβώς ίδιο όνομα.  Αίτια :  συνηθισμένα ονόματα και επίθετα  οι συγγραφείς δηλώνονται συνήθως μόνο με το πρώτο γράμμα του ονόματός τους ακολουθούμενο από το επίθετό τους  Παράδειγμα :

4. Πρόβλημα των Συνώνυμων Συγγραφέων Split Citation Problem  Ορισμός: Δεδομένων δυο λιστών με ονόματα συγγραφέων, έστω X και Y, για κάθε όνομα συγγραφέα x (  X), να βρεθεί ένα σύνολο ονομάτων, y 1, y 2, …, y n (  Y), τέτοια ώστε τόσο το x όσο και τα y i (1≤i≤n) να αποτελούν παραλλαγές του ονόματος του ίδιου συγγραφέα.  Αίτια:  υποκοριστικά (π.χ. Jeff αντί Jeffrey)  ορθογραφικά λάθη  λάθη στο λογισμικό συλλογής δεδομένων ■ Παράδειγμα:

…τεχνικές εξαγωγής πληροφορίας… (επίλυση 1 ου προβλήματος - Α)  Χειρωνακτική Δημιουργία και Συντήρηση wrappper για εξαγωγή δεδομένων από τις HTML σελίδες των αποτελεσμάτων του Google Scholar  Περιορισμοί Google Scholar:  Μέχρι 1000 αποτελέσματα για κάθε ερώτημα  Πολιτική αποτροπής αυτόματης εξαγωγής δεδομένων από προγράμματα

…τεχνικές εξαγωγής πληροφορίας… (επίλυση 1 ου προβλήματος - Β)  Δεδομένα τα οποία αντλούμε από τις εγγραφές του Google Scholar:  Τίτλος  Συγγραφείς  Abstarct  URLs  Έτος και Μήνας Δημοσίευσης  Τύπος Δημοσίευσης  Τίτλος συνεδρίου ή περιοδικού  Τόμος (volume),  Έκδοση (issue)  Σελίδες περιοδικού ή πρακτικών  Εκδότης  Δεν έχουν όλες οι εγγραφές του την ίδια ποιότητα πληροφοριών

…ταιριάσματος όμοιων εγγραφών (επίλυση των προβλημάτων 2, 3 και 4)  Μετρικές Μορφολογικής Απόστασης Συμβολοσειρών (String Distance Metrics)  Κατηγορίες ανάλογα με τον τρόπο αναπαράστασης των δεδομένων που συγκρίνουν:  αναπαράσταση με χαρακτήρες (Edit Distance, Jaro)  αναπαράσταση με σύνολο λέξεων - tokens (Jaccard, TFIDF)  υβριδικές μέθοδοι (SoftTFIDF, Monge-Elkan)  Q-grams  Για τη σύγκριση ονομάτων επιλέξαμε τη Jaro.  Για τις υπόλοιπες συγκρίσεις (τίτλοι, URL κλπ) τη SoftTFIDF σε συνδυασμό με τη Jaro.

Αλγόριθμος Citation Matching  Ταξινόμηση των νέων δημοσιεύσεων  Για κάθε δημοσίευση, εξετάζουμε αν ο τίτλος της υπάρχει αυτούσιος καταχωρημένος στη ΒΔ.  Αν υπάρχει, σταματάμε την επεξεργασία της τρέχουσας δημοσίευσης.  Αν δεν υπάρχει, συγκρίνουμε τον τρέχοντα τίτλο με τους τίτλους των προηγούμενων στην κατάταξη δημοσιεύσεων.  Αν δε βρεθεί ταίριασμα και πληρούνται κάποια κριτήρια, συγκρίνουμε την τρέχουσα δημοσίευση πάλι με τις προηγούμενες στην κατάταξη με βάση την εξής συμβολοσειρά: συγγραφείς + τίτλος δημοσίευσης + τίτλος περιοδικού/συνεδρίου

Αλγόριθμος Mixed & Split Citation Problem  Για κάθε συγγραφέα κάθε δημοσίευσης δημιουργούμε ένα κόμβο σε ένα μη κατευθυνόμενο γράφο.  Για τις ήδη καταχωρημένες στη ΒΔ δημοσιεύσεις τοποθετούμε σε μια γραμμή τους κόμβους που αντιστοιχούν στον ίδιο επιστήμονα  Τους συγγραφείς των νέων δημοσιεύσεων τους συγκρίνουμε με τους αντίστοιχους των προηγούμενων στην κατάταξη δημοσιεύσεων ως εξής:  από τους συγγραφείς κάθε δημοσίευσης διαλέγουμε μόνο τον πιο όμοιο με τον τρέχοντα συγγραφέα και εξετάζουμε διεξοδικότερα την ομοιότητα τους με τον ακόλουθο τύπο: 1.4 • ποσοστό κοινών συν-συγγραφέων + ποσοστό κοινών λέξεων των τίτλων + ποσοστό κοινών URL + ομοιότητα ονομάτων > 1.9  Χωρίζουμε το γράφο σε συνεκτικές συνιστώσες (connected components)

Ενδεικτική Αξιολόγηση Αλγορίθμων  Η επίδοση των αλγορίθμων επηρεάζεται από τον επιστημονικό κλάδο των δημοσιεύσεων και την εθνικότητα των συγγραφέων.  Περιορισμένο Σύνολο Δεδομένων:   Ικανοποιητικά Αποτελέσματα Αλγόριθμος Προτεινόμενα Ταιριάσματα Λάθος Ταιριάσματα Πραγματικά ταιριάσματα Μη Ταιριάσματα Citation Matching Name Disambiguation ΑλγόριθμοςΑκρίβειαΑνάκληση Citation Matching68.57%85.71% Name Disambiguation94.54%96.24%

Αναζήτηση Δεδομένων από το Web  Όλα τα παραπάνω προβλήματα λύνονται κατά τη διάρκεια μιας αναζήτησης από το Web πριν τα δεδομένα καταχωρηθούν στη ΒΔ:  Εύρεση των δημοσιεύσεων και των ενδεχόμενων συνώνυμών του δοσμένου επιστήμονα  Ανάκτηση των δημοσιεύσεων που αντιστοιχούν σε κάθε επιβεβαιωμένο συνώνυμο  Επίλυση citation matching προβλήματος  Επεξεργασία των αποτελεσμάτων από το χρήστη και καταχώρησή τους στη βάση δεδομένων  Επίλυση των προβλημάτων mixed και split citation  Επεξεργασία των αποτελεσμάτων από το χρήστη και καταχώρησή τους στη βάση δεδομένων  Αναζήτηση των βιβλιογραφικών αναφορών για τις δημοσιεύσεις του δοσμένου επιστήμονα

…τεχνολογίας λογισμικού…  Μοντέλο κύκλου ζωής που επιλέχθηκε για την ανάπτυξη του συστήματος: Μοντέλο Πρωτοτυποποίησης  1ο στάδιο: σχεδιασμός βάσης δεδομένων  2ο στάδιο: δημιουργία πρωτοτύπου για εξόρυξη απαιτήσεων

Πληροφοριακό Σύστημα… (Α)  Λειτουργικές απαιτήσεις:  On-line εύρεση όλων των δημοσιεύσεων ενός επιστήμονα και όλων των citations για κάθε μια.  Προβολή του συνόλου των καταχωρημένων δημοσιεύσεων ενός επιστήμονα σε συνδυασμό με τα citations τους.  Προβολή των co-authors ενός συγκεκριμένου συγγραφέα σε συνδυασμό με το πλήθος των κοινών δημοσιεύσεων.  Προβολή των citing authors σε συνδυασμό με τις δημοσιεύσεις που αναφέρουν.  Ενημέρωση του wrapper του Google Scholar  Εμπλουτισμός με νέες δυνατότητες στο μέλλον.

Πληροφοριακό Σύστημα… (Β)  Μη λειτουργικές απαιτήσεις:  Εύκολη συντήρηση και επέκταση  Εύχρηστο γραφικό περιβάλλον  Κλιμακωσιμότητα – scalability  Καμία ιδιαίτερη απαίτηση από άποψη υλικού. Απαιτείται μόνο δυνατότητα σύνδεσης στο Διαδίκτυο.  Γλώσσα Προγραμματισμού: Java 1.5 (IDE: Netbeans 5.0)  DBMS: MySQL 5.0 (MySQL GUI Tools )

Πληροφοριακό Σύστημα… (Γ)  Αρχιτεκτονική Σχεδίαση :  Δομή βασισμένη στη λειτουργική συνεκτικότητα και στη σύζευξη δεδομένων  Διαίρεση του συστήματος στα ακόλουθα υποσυστήματα :  GUI  DBMS  InfoManagement  GSWrapper  MachineLearning

Συμπεράσματα  Κάλυψη όλων των λειτουργικών απαιτήσεων.  Κάλυψη όλων των μη λειτουργικών απαιτήσεων.  Ικανοποιητικά αποτελέσματα αλγορίθμων αλλά χρειάζεται διεξοδικότερος έλεγχος.  Μοναδικό πρόβλημα από την πολιτική του Google Scholar.

Μελλοντικές Επεκτάσεις  Δυνατότητα άντλησης δεδομένων και από άλλες ακαδημαϊκές μηχανές αναζήτησης εκτός του Google Scholar.  Βελτίωση των αλγορίθμων μηχανικής μάθησης.  Περισσότερες δυνατότητες όσον αφορά την αλληλεπίδρασή του συστήματος με το χρήστη.  αναζήτηση των νέων citations για μια συγκεκριμένη δημοσίευση  μεταβολή από το χρήστη των δεδομένων που αφορούν μια δημοσίευση  μεγαλύτερη ευελιξία στο χρήστη κατά την επικύρωση των αποτελεσμάτων των αλγορίθμων μηχανικής μάθησης  οπτικοποίηση του κοινωνικού δικτύου-γράφου που δημιουργούν τα citations  εξαγωγή των καταχωρημένων δημοσιεύσεων ενός συγγραφέα σε συνδυασμό με τα citations τους σε αρχεία text, HTML ή XML