ΙΟΝΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΤΜΗΜΑ ΑΡΧΕΙΟΝΟΜΙΑΣ - ΒΙΒΛΙΟΘΗΚΟΝΟΜΙΑΣ «Π.Μ.Σ. ΣΤΗΝ ΕΠΙΣΤΗΜΗ ΤΗΣ ΠΛΗΡΟΦΟΡΙΑΣ - ΔΙΟΙΚΗΣΗ ΚΑΙ ΟΡΓΑΝΩΣΗ ΒΙΒΛΙΟΘΗΚΩΝ ΜΕ ΕΜΦΑΣΗ ΤΙΣ ΝΕΕΣ ΤΕΧΝΟΛΟΓΙΕΣ ΤΗΣ ΠΛΗΡΟΦΟΡΙΑΣ» ΤΙΤΛΟΣ ΜΑΘΗΜΑΤΟΣ: «ΨΗΦΙΑΚΕΣ ΒΙΒΛΙΟΘΗΚΕΣ » ΤΙΤΛΟΣ ΕΡΓΑΣΙΑΣ: «ΕΞΕΛΙΚΤΙΚΗ ΣΗΜΑΣΙΟΛΟΓΙΚΗ P2P ΨΗΦΙΑΚΗ ΒΙΒΛΙΟΘΗΚΗ ΜΕ ΤΗΝ ΜΕΘΟΔΟ ΤΗΣ ΕΠΙΚΑΛΥΨΗΣ» ΟΝΟΜΑΤΕΠΩΝΥΜΟ: ΚΤΩΡΗ ΜΙΧΑΛΗΣ ΥΠΕΥΘΥΝΟΣ ΚΑΘΗΓΗΤΗΣ: ΚΑΠΙΔΑΚΗΣ ΣΑΡΑΝΤΟΣ ΑΘΗΝΑ 2007
Σύντομη Ανασκόπηση Εισαγωγή Δημιουργία δικτύων επικαλύψεων (Overlay Network Creation) Αναζήτηση (Searching) Προσομοίωση αποτελεσμάτων Μελλοντική εργασία
Εισαγωγή 1/2 Οι ψηφιακές βιβλιοθήκες στο μέλλον θα επιτρέψουν στους πολίτες να έχουν: Πρόσβαση Φιλικό, πολύμορφο, αποδοτικό και αποτελεσματικό τρόπο Αύξηση των ψηφιακών τεκμηρίων
Εισαγωγή 2/2 Η μέθοδος που θα αναλύσουμε εφαρμόζεται στα μη δομημένα P2P συστήματα γιατί η εξελιξιμότητα και η υποστήριξη για τη σημασιολογία είναι δύσκολες στα δομημένα P2P συστήματα Απαιτούνται εξειδικευμένοι μηχανισμοί αναζήτησης όπως είναι τα SONs – semantic overlay networks γιατί με τους συνηθισμένους μηχανισμούς επιβαρύνεται το: Bandwidth Latency
Στόχος της εργασίας Μια διανεμημένη και αποκεντρωμένη μέθοδος κατασκευής των ιεραρχημένων SONs (DESENT) που να μας παρέχει έναν αποδοτικό μηχανισμό για την αναζήτηση στα μη δομημένα P2P δίκτυα Μέσω της εφαρμογής ενός αλγορίθμου συγκέντρωσης στα έγγραφα που αποθηκεύονται στο Peer, ένα ή περισσότερα διανύσματα χαρακτηριστικών γνωρισμάτων δημιουργούνται για κάθε Peer, ουσιαστικά ένα για κάθε θέμα που ένας Peer καλύπτει
Δημιουργία δικτύων επικαλύψεων (Overlay Network Creation) Εστιαζόμαστε στους Peer που αποθηκεύουν έγγραφα Δημιουργούνται οι τοπικές ζώνες από peer Διαμορφώνονται οι σημασιολογικές συστάδες οι οποίες βασίζονται στην αποθήκευση πληροφοριών στους peer Γίνεται συγχώνευση ζωνών και συστάδων κατ' επανάληψη έως ότου αποκτήσουμε τις σφαιρικές ζώνες και συστάδες
Αποκεντρωμένη και διανεμημένη δημιουργία συστάδων Το Peer clustering διαιρείται σε 5 φάσεις: 1) τοπική συστοιχία (Local Clustering) 2) επιλογή εναρκτών ζώνης (Zone Initiator Selection) 3) δημιουργία ζώνης (Zone Creation) 4) συστοιχία ενδιάμεσων ζωνών (Intra-Zone Clustering) 5) μεταξύ-ζωνών συστοιχίες (Inter Zone Clustering).
1. Τοπική συστοιχία (Local Clustering) Στο στάδιο του προσδιορισμού των περιοχών (Sites) που περιέχουν τα σχετικά έγγραφα τα διανύσματα χαρακτηριστικών γνωρισμάτων χρησιμοποιούνται αντί των πραγματικών εγγράφων λόγω του μεγάλου αριθμού των εμπλεκομένων στοιχείων Με την εκτέλεση της συγκέντρωσης της συλλογής εγγράφων σε κάθε περιοχή, ένα σύνολο συστάδων από έγγραφα δημιουργείται, κάθε συστάδα αντιπροσωπεύεται από ένα διάνυσμα χαρακτηριστικών γνωρισμάτων.
2. Επιλογή εναρκτών ζώνης(Zone Initiator Selection) Eνα υποσύνολο από Peers πρέπει να καθορίσει το ρόλο των εναρκτών ζώνης (zone Initiators) που μπορούν να εκτελέσουν τη διαδικασία δημιουργίας ζώνης και διαδοχικά να ξεκινήσουν και να ελέγξουν τη διαδικασία συγκέντρωσης (Clustering Process) μέσα στη ζώνη
3. Δημιουργία ζώνης (Zone Creation) Ένας εναρκτής, χρησιμοποιεί μια έλεγχου-βασισμένη (Probe-Based) τεχνική για να δημιουργήσει τη ζώνη του Ο εναρκτής μπορεί να αποφασίσει να χωρίσει τη ζώνη του, μοιράζοντας κατά συνέπεια το φορτίο του με άλλους Peers Όταν αυτός ο αλγόριθμος τελειώσει: 1) κάθε εναρκτής έχει συγκεντρώσει ένα σύνολο Peer Z i και τις ικανότητες τους, βάση των πόρων που κατέχουν, 2) κάθε Peer ξέρει τον εναρκτή αρμόδιο για τη ζώνη του και 3) κάθε εναρκτής ξέρει τις ταυτότητες των γειτονικών εναρκτών του
4. Συστοιχία ενδιάμεσων ζωνών (Intra- Zone Clustering) Η σφαιρική συγκέντρωση αρχίζει με τη συλλογή των διανυσμάτων χαρακτηριστικών γνωρισμάτων από τους Peer Τη δημιουργία των συστάδων που εδρεύουν σε αυτά τα διανύσματα χαρακτηριστικών γνωρισμάτων
Μεταξύ-ζωνών συστοιχίες (Inter-Zone Clustering) Σε αυτό το σημείο, κάθε εναρκτής έχει προσδιορίσει τις συστάδες στη ζώνη του Εφαρμόζεται κατ' επανάληψη η συγχώνευση των ζωνών στις όλο και μεγαλύτερες super-zones Συγχρόνως συγχωνεύσουμε τις συστάδες που είναι επαρκώς παρόμοιες με τις super-συστάδες Αυτός ο αλγόριθμος ολοκληρώνεται όταν αφήνεται μόνο ένας εναρκτής, Σκοπός του τελικού εναρκτή είναι να αποφασίσει το επίπεδο της τελικής ιεραρχίας
Τελική οργάνωση (1/2) H Ιεραρχία των Peer (Hierarchy of Peers) Κάθε Peer ξέρει τον εναρκτή του Ένας Level-1 εναρκτής ξέρει τους Peer στη ζώνη του καθώς επίσης και τους Level-2 εναρκτές της super-ζώνης Ο εναρκτής ξέρει τα προσδιοριστικά των εναρκτών της Super Ζώνης
Τελική οργάνωση (2/2) Η Ιεραρχία των συστάδων (Hierarchy of clusters): Κάθε Peer ξέρει τη συστάδα(ες) που είναι μέρος, και τους αντιπροσωπευτικούς Peers αυτών των συστάδων Ένας αντιπρόσωπος ξέρει επίσης τα προσδιοριστικά των Peer στη συστάδα του, καθώς επίσης και το προσδιοριστικό του αντιπροσώπου της Super συστάδας που ανήκει Ένας αντιπρόσωπος για μια Super-συστάδα ξέρει το προσδιοριστικό του αντιπροσώπου στο πιο πάνω επίπεδο καθώς επίσης και των αντιπροσώπων του πιο κάτω επιπέδου.
Παράδειγμα Ιεραρχίας Ζωνών και Εναρκτών
Αναζήτηση (Searching) Το Query μεταβιβάζεται πρώτα στους εκπροσώπους των Super συστάδων με κριτήριο το similarity το οποίο ορίζουμε. Αφού το αποτέλεσμα του similarity είναι ικανοποιητικό γίνεται η αναζήτηση στα sub- clusters μέχρι να εντοπιστεί το διάνυσμα χαρακτηριστικών γνωρισμάτων με το μεγαλύτερο similarity
Η προσομοίωση αποτελεσμάτων DESENT (DESENT simulation results) Ένα περιβάλλον προσομοίωσης στην Java, το οποίο καλύπτει όλες τις ενδιάμεσες φάσεις της παραγωγής δικτύων Pentium IV υπολογιστές στα 3GHz και 1- 2GB RAM Χρησιμοποιήθηκε η GT- ITM topology generator για να δημιουργηθούν οι τυχαίες γραφικές παραστάσεις των Peer Επέλεξαν τη συλλογή δοκιμής κατηγοριοποίησης κειμένων Reuters προ-ταξινομημένα έγγραφα που ανήκουν σε 60 ευδιάκριτες κατηγορίες και μια διαφορετική οργάνωση εγγράφων Δοκιμάστηκαν διαφορετικές πειραματικές οργανώσεις με 2000, 8000 και Peers
Η συγκέντρωση της ποιότητας αποτελεσμάτων (clustering Results Quality) Δείχνουν ότι το DESENT επιτυγχάνει την υψηλή ποιότητα συγκέντρωσης Τα αποτελέσματα εκθέτουν μια σχετικά σταθερή συμπεριφορά καθώς το μέγεθος δικτύων αυξάνεται Επιτυγχάνει την υψηλή ποιότητα με διαμόρφωση SONs παρά την έλλειψη σφαιρικής γνώσης και την υψηλή διανομή του περιεχομένου.
Ποιότητα και κόστος αναζήτησης (Quality and cost of searching) Μετρήθηκε η ποιότητα έρευνας χρησιμοποιώντας την ανάκληση, που αντιπροσωπεύει το ποσοστό των σχετικών εγγράφων που βρίσκονται από την αναζήτηση Βελτιώνει την ανάκληση περισσότερες από 3- 5 φορές για GT / ITM, και περισσότερο από 10 για το SQUARE
Μελλοντική εργασία H μέτρηση απόδοσης και ποιότητας του αλγορίθμου αναζήτησης χρησιμοποιώντας μεγάλες συλλογές εγγράφων, μελετώντας τη χρήση άλλων αλγορίθμων συγκέντρωσης καθώς επίσης και τη χρήση των τεχνικών εναποθήκευσης και ταξινόμησης για να αυξήσει την αποδοτικότητα.