Η παρουσίαση φορτώνεται. Παρακαλείστε να περιμένετε

Η παρουσίαση φορτώνεται. Παρακαλείστε να περιμένετε

Η επίδραση των Στρατηγικών συγχώνευσης της συλλογής στην αποδοτική αναζήτηση πληροφοριών στις δομημένες Ψηφιακές Βιβλιοθήκες Υπερμέσων Άρθρο των : Michail.

Παρόμοιες παρουσιάσεις


Παρουσίαση με θέμα: "Η επίδραση των Στρατηγικών συγχώνευσης της συλλογής στην αποδοτική αναζήτηση πληροφοριών στις δομημένες Ψηφιακές Βιβλιοθήκες Υπερμέσων Άρθρο των : Michail."— Μεταγράφημα παρουσίασης:

1 Η επίδραση των Στρατηγικών συγχώνευσης της συλλογής στην αποδοτική αναζήτηση πληροφοριών στις δομημένες Ψηφιακές Βιβλιοθήκες Υπερμέσων Άρθρο των : Michail Salampasis and John Tait Επιμέλεια Εργασίας: Χατζηβασιλείου Αγγελική Κέρκυρα 2008

2 Σκοπός. αποτελέσματα ενός πειράματος  Το άρθρο που θα μελετήσουμε διεξοδικά παρακάτω μας εκθέτει τα αποτελέσματα ενός πειράματος. Το πείραμα αυτό βασίζεται στο χρήστη και εξετάζει την επίδραση της παράλληλης αναζήτησης σε πολλές βάσεις δεδομένων χρησιμοποιώντας αυτοματοποιημένες στρατηγικές συγχώνευσης πληροφοριών.

3 Εισαγωγή.  Στην εργασία αυτή θα μας απασχολήσουν ιδιαίτερα οι ψηφιακές Βιβλιοθήκες υπερμέσων. Ψηφιακές βιβλιοθήκες υπερμέσων είναι ψηφιακές βιβλιοθήκες βασισμένες σε ένα παράδειγμα υπερμέσων, είναι δηλαδή συλλογές με άμεσα διασυνδεδεμένα δεδομένα υπερμέσων σε αντίθεση με τις συλλογές εγγράφων που είναι έμμεσα συνδεδεμένες μόνο με καταλόγους ή ευρετήρια.

4 Εισαγωγή.  Οι υπερμέσες και οι ψηφιακές βιβλιοθήκες είναι ευρείες περιοχές που έχουν τεράστια ποικιλομορφία. Η διαφορά μεταξύ ψηφιακών βιβλιοθηκών και ψηφιακών βιβλιοθηκών υπερμέσων έγκειται στο γεγονός ότι οι ψηφιακές Βιβλιοθήκες υπερμέσων προκειμένου να διεξάγουν μια αναζήτηση πληροφοριών χρησιμοποιούν στρατηγικές φυλλομέτρησης εγγράφων.

5 Συστήματα αρχιτεκτονικής για αναζήτηση πληροφοριών.  Το πρώτο είναι να υποστηρίξει μια συγκεντρωτική κατασκευή ευρετηρίου συστηματικής και λεπτομερούς φόρτωσης(crawling) αλλά και ευρετηρίασης εγγράφων μιας συλλογής σε ένα κεντρικό θησαυρό.  Η δεύτερη προσέγγιση είναι ο δομημένος σχεδιασμός ευρετηρίου. Σε αυτό τον σχεδιασμό κάθε συμμετέχουσα συλλογή σε μία ψηφιακή βιβλιοθήκη διατηρεί το δικό της ευρετήριο και χρησιμοποιεί τις δικές της μεθόδους για να διεξάγει τις αναλυτικές έρευνες. Αυτή η προσέγγιση αποκαλείται μερικές φορές μετα- έρευνα (metasearching).

6 Συστήματα αρχιτεκτονικής για αναζήτηση πληροφοριών.  Τα συγκεντρωτικά συστήματα έχουν πλεονεκτήματα σε περιοχές όπως η συνέπεια και η χρονική αποδοτικότητα αναζήτησης έχουν όμως και σημαντικούς περιορισμούς:  Μερικές ψηφιακές βιβλιοθήκες δεν επιτρέπουν την πρόσβαση σε spiders crawling έγγραφα.  Ακόμη τα συγκεντρωτικά ευρετήρια είναι δύσκολο να συντηρηθούν και να αναβαθμιστούν. Για παράδειγμα, ένας ολοκληρωμένος crawl είναι πολύ ακριβός και στην περίπτωση του παγκόσμιου ιστού δεν είναι και καθόλου πρακτικός..

7 Συστήματα αρχιτεκτονικής για αναζήτηση πληροφοριών.  Τα κατανεμημένα συστήματα έχουν πολλά πλεονεκτήματα συμπεριλαμβάνοντας την απλούστερη συντήρηση των ευρετηρίων, την διαθεσιμότητα, την υποστήριξη για διαφορετικές στρατηγικές ευρετηρίασης βασισμένες στο περιεχόμενο της συλλογής κ.λ.π. Το συγκεκριμένο άρθρο θα ασχοληθεί με την δεύτερη προσέγγιση δηλαδή με τα ηλεκτρονικά περιβάλλοντα που βασίζονται σε ένα κατανεμημένο σχεδιασμό εγγράφου

8 Collection Fusion Problem.  Στην έρευνα των πολλαπλών κατανεμημένων συλλογών προκύπτει το πρόβλημα συγχωνεύσεως συλλογών (collection fusion problem) που αποτελείται από τους εξής δύο προβληματισμούς:  Πως να επιλέξουμε τις πηγές (απ’ αυτές που είναι διαθέσιμες), σε ποιες να υποβάλλουμε τα ερωτήματα και σε ποιες να διεξάγουμε τις έρευνες.  Πως θα συνδυαστούν τα ξεχωριστά αποτελέσματα για να παραχθεί ένα μοναδικό αποτέλεσμα έτσι ώστε να είναι το πιο σχετικό στο αποτέλεσμα που ζητάει ο αναζητητής της πληροφορίας.

9 Στρατηγικές Συγχώνευσης Συλλογών  Υπάρχουν στρατηγικές συγχώνευσης συλλογών οι οποίες ανακτούν τεκμήρια από όλες τις συλλογές που είναι διαθέσιμες. Επίσης υπάρχουν στρατηγικές συγχώνευσης συλλογών οι οποίες επιδιώκουν να ανακτήσουν τα έγγραφα από ένα μικρό ποσοστό των διαθέσιμων συλλογών. Η βασική υπόθεση σε αυτές τις εκλεκτικές μεθόδους είναι ότι τα σχετικά έγγραφα συνήθως δεν θα διανεμηθούν εξίσου σε όλες τις συλλογές, αλλά θα παρατεθούν σε μερικές από αυτές. Απαριθμούνται δύο τέτοιες στρατηγικές συγχώνευσης συλλογών: Η ενιαία στρατηγική. Η στρατηγική που βασίζεται σε links.

10 Η ενιαία στρατηγική.  Η ενιαία στρατηγική είναι αρκετά απλή και λειτουργεί ως εξής: Το ερώτημα γνωστοποιείται σε κάθε συλλογή (ή σε μια ξεχωριστή ψηφιακή βιβλιοθήκη υπερμέσων) με μια ένδειξη ενός μέγιστου αριθμού των σχετικών εγγράφων που ο κάθε χρήστης παίρνει σαν απάντηση. Έπειτα η ψηφιακή βιβλιοθήκη υπερμέσων επιστρέφει αυτό τον αριθμό (εκτός αν έχουν βρεθεί πολύ λίγα) και τα αποτελέσματα συγχωνεύονται χρησιμοποιώντας έναν αλγόριθμο συγχώνευσης αποτελεσμάτων.

11 Η στρατηγική που βασίζεται σε links  Η στρατηγική συγχώνευσης συλλογών βασισμένη σε links που παρουσιάζεται εδώ εκμεταλλεύεται τις συνδέσεις για την επίλυση του προβλήματος συγχωνεύσεως συλλογών.  Ο τελευταίος στόχος είναι να αυξηθεί η αποτελεσματικότητα και η αποδοτικότητα της διαδικασίας αναζήτησης πληροφοριών στις δυναμικές ψηφιακές βιβλιοθήκες πολυμέσων.  Η μέθοδος προϋποθέτει την παρουσία των hypermedia links και μπορεί να χρησιμοποιηθεί σε οποιοδήποτε υπερμεσικό περιβάλλον καθώς και σε διαφορετικές διανεμημένες συλλογές υπερμέσων.

12 Η στρατηγική που βασίζεται σε links  Η λειτουργία της στρατηγικής συγχώνευσης συλλογών βασισμένης σε links χωρίζεται σε τρεις φάσεις (βλ. πίνακα δεξιά): 1. Εξαγωγή των Συσχετιζόμενων Πληροφοριών. 2. Προσέγγιση της σχετικής διανομής εγγράφων. 3. Αποτελέσματα συγχώνευσης.

13 Προσέγγιση της σχετικής διανομής εγγράφων.  Τ είναι ο συνολικός αριθμός των εγγράφων που πρέπει τελικά να ανακτηθούν από όλες τις συλλογές,  Σ είναι το σύνολο των συχνοτήτων των συνδέσμων.  Li είναι η συχνότητα των συνδέσμων για τη συλλογή i,  τότε ο αριθμός των εγγράφων που ανακτώνται από κάθε συλλογή καθορίζεται από τον εξής τύπο.

14 Πείραμα…  Στόχος.  Να συγκριθεί η κατανεμημένη, παράλληλη, με πολλές βάσεις δεδομένων έρευνα με την «ενιαία» μέθοδο χρησιμοποιώντας τη χειρωνακτική επιλογή σε ένα ρεαλιστικό περιβάλλον ανάκτησης πληροφοριών.  Να συγκριθούν οι ομοιόμορφες και οι βασισμένες σε συνδέσμους στρατηγικές συγχώνευσης σε ένα πείραμα που θα είχε ως κέντρο του τον χρήστη.

15 Συστήματα και υλικά.  Για το πείραμα αυτό χρησιμοποιήθηκαν τρεις διαφορετικές ψηφιακές βιβλιοθήκες υπερμέσων. Και οι τρεις αυτές ψηφιακές βιβλιοθήκες αξιοποιήθηκαν από την ίδια δοκιμαστική συλλογή CACM.  Η CACM είναι μια συλλογή μεσαίου μεγέθους που διαθέτει έγγραφα που περιέχουν συνδέσμους μεταξύ τους (και αυτός είναι και ο λόγος που επιλέχθηκε για το πείραμα αυτό.). Τα έγγραφα αυτά είναι περιλήψεις τεχνικών εγγράφων που αφορούν την πληροφορική και περιλαμβάνουν τίτλους, πληροφορίες για τον συγγραφέα και μερικές λέξεις κλειδιά.  Και οι τρείς ψηφιακές βιβλιοθήκες υπερμέσων βασισμένες στον παγκόσμιο ιστό βασίστηκαν στην ίδια πρώτη ύλη αλλά χρησιμοποιήθηκε σε καθεμία από αυτές διαφορετική μέθοδος αναλυτικής έρευνας δηλαδή…

16 Συστήματα και υλικά.  Στην πρώτη περίπτωση τα άτομα στην πρώτη ψηφιακή βιβλιοθήκη υπερμέσων μπορούν να ψάξουν για σχετικά έγγραφα χρησιμοποιώντας μια απλή έρευνα σε όλο το έγγραφο, ή χρησιμοποιώντας στρατηγικές «ενιαίας» έρευνας. Για παράδειγμα μπορούν να ψάξουν μόνο μία υπό-βιβλιοθήκη (από τις 8 που είναι διαθέσιμες) την κάθε φορά. Γι’ αυτό αν θέλουν να ψάξουν όλες τις υπο-βιβλιοθήκες για ένα ερώτημα που έχει τεθεί, θα πρέπει να επαναλάβουμε το ερώτημα σε κάθε υπό-βιβλιοθήκη και να εξετάσουμε ξεχωριστά τα αποτελέσματα. Έπρεπε επίσης να επιλεγούν χειρωνακτικά οι πηγές στις οποίες πίστευαν ότι ήταν πιθανότερο να βρεθούν σχετικά έγγραφα. Τέλος, τα θέματα θα μπορούσαν επίσης να χρησιμοποιήσουν ένα φυλλομετρήσιμο πίνακα περιεχομένων, ο οποίος έχει ένα σύνδεσμο για κάθε μέλος εγγράφων μιας υπο- συλλογής, σαν βοήθεια πλοήγησης

17 Συστήματα και υλικά.  Στην δεύτερη περίπτωση η δεύτερη ψηφιακή βιβλιοθήκη υπερμέσων υποστήριξε ακριβώς τις ίδιες στρατηγικές αναζήτησης πληροφοριών με την πρώτη, αλλά οι αναζητητές θα μπορούσαν να εκτελέσουν τις παράλληλες, κατανεμημένες αναζητήσεις και στις 8 υπό-βιβλιοθήκες. Αυτό σημαίνει ότι θα μπορούσε να υποβληθεί μόνο ένα ερώτημα και να γίνει έρευνα σε όλες τις υπό- βιβλιοθήκες, ενώ παράλληλα θα μπορούσε να εξεταστεί ένα ενιαίο συγχωνευμένο αποτέλεσμα. Η ομοιόμορφη στρατηγική συγχώνευσης συλλογής χρησιμοποιήθηκε για να λύσει το πρόβλημα της συγχώνευσης συλλογών, έτσι ώστε να εξετάζονται εξίσου όλες οι CACM υπό-συλλογές, όταν γίνεται μια αναζήτηση σε μία πολλαπλή βάση δεδομένων.

18  Στην τρίτη περίπτωση η τρίτη ψηφιακή βιβλιοθήκη υπερμέσων είναι πανομοιότυπη με τη δεύτερη, αλλά η στρατηγική συγχώνευσης που βασίζεται σε συνδέσμους και η οποία έχει περιγραφεί νωρίτερα, χρησιμοποιήθηκε για να λύσει το πρόβλημα της συγχώνευσης συλλογών. Συστήματα και υλικά.

19 Μέθοδος.  Στο πείραμα συμμετείχαν εθελοντικά τριάντα έξι άτομα τα οποία εξετάστηκαν ξεχωριστά. Πριν από την εξέταση διαδραματίστηκε μια συνοπτική, δεκαπέντε λεπτών περίοδος άσκησης, ώστε να εξασφαλιστεί ότι το άτομο θα μπορούσε να ψάξει την στη βιβλιοθήκη και να καταλάβει επίσης τη φύση του στόχου που θα καλούνταν να εκτελέσει. Ακόμη πριν την εφαρμογή των δοκιμών τους δόθηκε σε κάθε έναν ξεχωριστά μία γραπτή περιγραφή για να τους βοηθήσει να έχουν μία επισκόπηση του συστήματος που χρησιμοποιείται.

20  Στη συνέχεια τα άτομα χωρίστηκαν σε τρεις ομάδες. Κάθε ομάδα χρησιμοποίησε μία από τις παραπάνω ψηφιακές βιβλιοθήκες υπερμέσων, με κάθε άτομο να ενημερώνεται για τις διαθέσιμες στρατηγικές αναζήτησης πληροφοριών. Αργότερα τους δίνεται ένα πληροφοριακό πρόβλημα (π.χ. ερώτημα, να δοθεί μία λίστα από λέξεις κλειδιά) και τους ζητείται να βρουν όσο το δυνατόν περισσότερα σχετικά έγγραφα στο χρονικό όριο των 30 λεπτών. Μπορούν να χρησιμοποιήσουν την στρατηγική που έχουν προτιμήσει, ή ένα συνδυασμό στρατηγικών από αυτές που είναι διαθέσιμες.  Τέλος από τα άτομα του πειράματος ζητήθηκε να γράψουν τα χαρακτηριστικά των εγγράφων που είδαν και έκριναν ως σχετικά με το ερώτημά τους. Αυτός ο κατάλογος εγγράφων αποκαλείται κατάλογος εκτίμησης ενός ατόμου. Μέθοδος.

21 Αποτελέσματα.  Πίνακας Βασικών αποτελεσμάτων των διαδικασιών αναζήτησης  Τα λεπτά: Ο χρόνος σε λεπτά που διάρκεσε πραγματικά μέχρι να βρεθούν τα αποτελέσματα αναζήτησης  Πρώτο αποτέλεσμα: Ο χρόνος ο οποίος χρειάστηκε για να βρεθεί το πρώτο σχετικό έγγραφο.  Καταστάσεις: ο συνολικός αριθμός των διαφορετικών καταστάσεων (κινήσεων) στις οποίες βρέθηκε ο ερευνητής κατά τη διάρκεια της αναζήτησης των αποτελεσμάτων  Ποσοστού των αναλυτικών καταστάσεων (και στις ενιαίες και στις παράλληλες κατανεμημένες έρευνες) και το ποσοστό των καταστάσεων της αναζήτησης πληροφορίας.

22 Αποτελέσματα  JR (judged recall): Η εκτίμηση της ανάκλησης στο τέλος της αναζήτησης των αποτελεσμάτων  JP (judged precision): Η εκτίμηση των αποτελεσμάτων που βρέθηκαν και μας ενδιαφέρουν στο τέλος της αναζήτησης των αποτελεσμάτων  VR (viewed recall): Λίστα που περιλαμβάνει σχετικά έγγραφα, τα οποίο τα άτομα που συμμετέχουν στο πείραμα τα έχουν δει και δεν τα έχουν κρίνει ως σχετικά.  RR (retrieved recall):Λίστα που περιλαμβάνει τα σχετικά έγγραφα που έχουν ανακτηθεί από μία αναλυτική έρευνα αλλά δεν έχουν παρουσιαστεί ποτέ από τα άτομα που συμμετέχουν στο πείραμα

23 Συμπεράσματα  Κλείνοντας την εργασία αυτή και έχοντας μελετήσει διεξοδικά το άρθρο θα μπορούσαμε να συμπεράνουμε ότι η στρατηγική συγχώνευσης βασισμένη σε link είναι πιο αποτελεσματική και πιο αποδοτική από άλλες στρατηγικές συγχώνευσης συλλογών που θα μπορούσαν να εφαρμοστούν κάτω από τις ίδιες συνθήκες. Ακόμη η παράλληλη έρευνα είναι γενικά χρήσιμη και αποτελεσματική και αυξάνει την αποτελεσματικότητα των αναζητητών της πληροφορίας.  Τα αποτελέσματα που παρουσιάζονται δείχνουν ότι η παράλληλη έρευνα σε πολλαπλές βιβλιοθήκες είναι αποτελεσματικότερη και αποδοτικότερη από την έρευνα σε μία ενιαία συλλογή  Έτσι, για τους παραπάνω λόγους πιστεύεται ότι η μέθοδος αυτή αποτελεί την λύση στο πρόβλημα συγχωνεύσεως συλλογών.

24 Προβληματισμοί 1. Όσον αφορά τους προβληματισμούς μου σχετικά με την μεθοδολογία: Παρατήρησα ότι τα έγγραφα λήφθηκαν από τη συλλογή CACM, συγκεντρώθηκαν, και διατέθηκαν στις διαφορετικές υπο-βιβλιοθήκες, χρησιμοποιώντας μια αυτόματη μέθοδο συγκέντρωσης. Δηλαδή, οι υπό-βιβλιοθήκες δεν παράχθηκαν χειρωνακτικά όπως θα συνέβαίνε σε ένα πραγματικό περιβάλλον αλλά παράχθηκαν με ένα αυτόματο τρόπο. Αυτό δεν σημαίνει όμως ότι οι υπό-βιβλιοθήκες που παράχθηκαν αυτόματα θα μπορούσαν να ακυρώσουν τα αποτελέσματα των πειραμάτων. Από την άλλη πλευρά είναι πιθανό η στρατηγική συγχώνευσης να είναι καλύτερη στον τομέα της εκμετάλλευσης των ιδιοτήτων της συγκέντρωσης.

25 Προβληματισμοί 2. Αξιοσημείωτο είναι επίσης το γεγονός ότι τα πειράματα είχαν χρησιμοποιήσει περιλήψεις και όχι το πλήρες κείμενο. Με συνέπεια αυτό να με βάζει σε σκέψεις για το εάν θα είχαμε τα ίδια αποτελέσματα εάν τα πειράματα είχαν χρησιμοποιήσει το πλήρες κείμενο και όχι τις περιλήψεις ή εάν θα είχε χρησιμοποιηθεί μια μεγάλη ποικιλία από link τα οποία θα ήταν ειδικά συνδεδεμένα με πλήρη κείμενα.

26 Προβληματισμοί 3. Ακόμη οι στρατηγικές έρευνας οι οποίες ψάχνουν παράλληλα σε πολλαπλές συλλογές για να παράγουν ένα ενιαίο συγχωνευμένο αποτέλεσμα, έχουν μια θετική επίδραση στην αποδοτική αναζήτηση πληροφοριών. Οι αναζητητές πληροφοριών που χρησιμοποιούν στρατηγικές αναζήτησης που ψάχνουν ταυτόχρονα σε πολλαπλές υπό-βιβλιοθήκες είναι αποτελεσματικότεροι από τους αναζητητές πληροφοριών που μπορούν μόνο να εκτελέσουν αναζητήσεις σε μία ενιαία βιβλιοθήκη. Έτειναν επίσης να είναι αποτελεσματικότεροι όπως φαίνεται από τον χρόνο μέσα στον οποίο βρισκόταν το πρώτο έγγραφο και τον αριθμό των καταστάσεων που παράγονταν κατά τη διάρκεια της ερευνητικής διαδικασίας. Παρ’ όλα αυτά θα πρέπει να σημειώσω ότι σε μερικές περιπτώσεις η παράλληλη έρευνα που χρησιμοποιεί την ομοιόμορφη στρατηγική συγχώνευσης συλλογής δεν ήταν καλύτερη αλλά εμφανώς χειρότερη από την περίπτωση της ενιαίας έρευνας

27


Κατέβασμα ppt "Η επίδραση των Στρατηγικών συγχώνευσης της συλλογής στην αποδοτική αναζήτηση πληροφοριών στις δομημένες Ψηφιακές Βιβλιοθήκες Υπερμέσων Άρθρο των : Michail."

Παρόμοιες παρουσιάσεις


Διαφημίσεις Google