Η παρουσίαση φορτώνεται. Παρακαλείστε να περιμένετε

Η παρουσίαση φορτώνεται. Παρακαλείστε να περιμένετε

C AN S OCIAL B OOKMARKING I MPROVE W EB S EARCH ? Μίσκος Γιώργος Α. Μ. 196.

Παρόμοιες παρουσιάσεις


Παρουσίαση με θέμα: "C AN S OCIAL B OOKMARKING I MPROVE W EB S EARCH ? Μίσκος Γιώργος Α. Μ. 196."— Μεταγράφημα παρουσίασης:

1 C AN S OCIAL B OOKMARKING I MPROVE W EB S EARCH ? Μίσκος Γιώργος Α. Μ. 196

2

3 ΜΕΘΟΔΟΛΟΓΙΑ Συλλογή δεδομένων recent feed -real time data seeds-tags,url,users -adv. Unfiltered view of data -dis. Σχετικά μικρός το del.icious, οδηγεί σε προκατειλλημένα δεδομένα για δημοφιλής ετικέτες και διευθύνσεις

4 ΜΕΘΟΔΟΛΟΓΙΑ

5 Σ ΥΝΟΛΑ ΔΕΔΟΜΕΝΩΝ Dataset C(rawl): crawling σύμφωνα με τη διαδικασία που αναφέρθηκε. Το Seed έγινε με την ετικέτα(tag) “web”. 22,588,354 δημοσιεύσεις 1,371,941 μοναδικές διευθύνσεις Dataset R(ecent): 8μηνη συλλογή από το recent 11,613,913 δημοσιεύσεις 3,004,998 διευθύνσεις Dataset M(onth): 1μήνα συλλογή από recent, επίσης ενισχύθηκε με crawling για κάθε URL μέσα σε 2 ώρες από τη δημοσίευση του 3,630,250 δημοσιεύσεις 2,549,282 διευθύνσεις 301,495 χρήστες

6 TRADEOFFS

7 U RL -P OSITIVE FACTORS 1) Οι ιστοσελίδες που δημοσιεύονται στο delicious ειναι συνήθως πρόσφατα τροποποιημένες Οι χρήστες δημοσιεύουν ενδιαφέρουσες σελίδες που ανανεώνονται συχνά ή δημιουργήθηκαν πρόσφατα

8 U RL -P OSITIVE FACTORS

9 2) Περίπου το 25% των διευθύνσεων που δημοσιεύονται από χρήστες είναι νέες, που ακόμα δεν έχουν ευρετηριοποιηθεί Delicious μπορεί να αποτελέσει μια πηγή για νέες ιστοσελίδες και να βοηθήσει στο crawl ordering πρόβλημα

10 U RL -P OSITIVE FACTORS 3) Χονδρικά 9% των αποτελεσμάτων για τα search queries είναι ιστοσελίδες που είναι παρούσες στο delicious Καλύπτεται ένα σημαντίκό ποσοστό σε σχέση με το μέγεθος του και στο πρώτα 10 αποτελέσματα το ποσοστό ανεβαίνει στο 19%

11 U RL -P OSITIVE FACTORS 4) ενώ κάποιοι χρήστες φαίνεται να είναι πολύ παραγωγικοί, αφού το 10% των χρηστών ευθύνεται για το 56% των δημοσιεύσεων Δεν εξαρτάται άμεσα από μικρό αριθμό χρηστών

12 U RL -P OSITIVE FACTORS

13 5) 30-50% των διευθύνσεων και περίπου 1/8 domains που δημοσιεύτηκαν δεν ήταν πριν στο delicious, δηλαδή ήταν η πρώτη τους φορά στο διάστημα αυτό Μικρός πλεονασμός για τις πληροφορίες της σελίδας

14 U RL -P OSITIVE FACTORS

15 U RL -N EGATIVE FACTORS 1) Ο αριθμός των ημερήσιων δημοσιεύσεων είναι μικρός, αντιπροσωπεύει το 1/10 των blogs που δημοσιεύονται ημερησίως Ο ρυθμός της ημερήσιας αύξησης δείχνει να εξαρτάται απο εξωτερικούς παράγοντες και δε μπορεί να γίνει πρόβλεψη

16 U RL -N EGATIVE FACTORS

17

18 2) Ο συνολιγός αριθμός δημοσιεύσεων είναι σχετικά μικρός. (1/1000 of web) 117m δημοσιεύσεις, Web: hundreds of billions

19 T AGS - POSITIVE FACTORS 1) Δημοφιλείς όροι ερωτημάτων και tags πολύ συχνά συμπίπτουν. Αν τα metadata που επισυνάπτονται από το bookmarking είναι σχετικά με τις web αναζητήσεις, τότε τα tags μπορούν να βοηθήσουν τους χρήστες να πλοηγηθούν σε σχετικές σελίδες

20 T AGS - POSITIVE FACTORS

21

22 Ενώ υπάρχει σημαντικό ποσό επικάλυψης, δεν υπάρχει θετική συσχέτιση ανάμεσα σε δημοφιλή tags και όρους ερωτημάτων. Αυτό γιατί 21.9% AOL queries is navigational Μετά από αφαίρεση stopwords και των tags<3 Ένα τουλάχιστον tag από τα 100, 500 και 1000 πιο δημοφιλή, ήταν αντίστοιχα στο 8,6%, 25,3% και 36,8% στους όρους ερωτημάτων.

23 T AGS - POSITIVE FACTORS 2) τα περισσότερα tags ήταν κρίθηκαν σχετικά και αντικειμενικά από χρήστες Υπήρχε η ανησυχία ότι τα tags θα ήταν χαμηλής ποιότητας, δηλαδή οι χρήστες θα έδιναν όρους χωρίς νόημα(«g1») ή υποκειμενικούς όρους («καλόοοο») Μόνο 7% θεωρήθηκαν άσχετα με το περιεχόμενο

24 T AGS - NEGATIVE FACTORS 1) Τα tags βρίσκονται στο στο περιεχόμενο των σελίδων με 50% πιθανότητα και στον τίτλο με 16%. Οπότε μια μηχανή αναζήτησης που ψάχνει το κείμενο ή ειδικότερα τον τίτλο θα βρίσκει αυτές τις σελίδες.

25 T AGS - NEGATIVE FACTORS 2)Τα domains πολύ συχνά σχετίζονται με tags και αντίστροφα Θα ήταν πιο αποδοτικό ειδικοί να χαρακτηρίζουν τα domains, παρά να το κάνουν οι χρήστες.

26 T AGS - NEGATIVE FACTORS

27

28

29 Π ΛΕΟΝΕΚΤΗΜΑΤΑ Η Στρατηγική αυτή δείχνει να βοηθά της μηχανές αναζήτησης σαν πηγή νέων σελίδων. Με αυτό το τρόπο δεν υπάρχει το δίλλημα ανάμεσα στην εύρεση νέων σελίδων ή στην ανανέωση των ήδη ευρετηριοποιημένων. Υπάρχει μια καλή πηγή, με ενδιαφέρουσες, νέες ή ανανεωμένες σελίδες Σιγουρα τέτοιες προσεγγίσεις αποτελούν σύμμαχο της προσπάθειας που γίνεται για αποδοτικότερη αναζήτηση στο διαδίκτυο, τα περισσότερα πειράματα είναι ενθαρρυντικά και αν οι συγκρίσεις γίνονταν σε ίδια σύνολα δεδομένων, πχ και οι όροι ερωτημάτων( AOL queries), αλλά και οι δημοσιεύσεις και τα tags να γίνονταν από ίδια άτομα. Τότε σίγουρα τα αποτελέσματα θα ήταν ακόμα καλύτερα. Τελος ο χρήστης με αυτόν τον τρόπο δημιουργεί δικά του μονοπάτια αναζήτησης, έχει τη δυνατότητα να οργανώσει όπως θέλει αυτός το σχετικό περιεχόμενο και να ανατρέξει σύντομα όποτε το χρειαστεί.

30 ΜΕΙΟΝΕΚΤΗΜΑΤΑ Όχι διαδεδομένη τεχνική, είναι ακόμα αρκετά νεα και αυτό έχει κακό αντίκτυπο στα πειράματα Τα δείγματα για τα πειράματα δεν είναι απολύτως αντιπροσωπευτικά, αυτό βέβαια είναι αποτέλεσμα του παραπάνω μειονεκτήματος. Έντονο το στοιχείο της υποκειμενικότητας

31 ΑΣΚΗΣΗ Σε 5 όρους που θα αντιμετωπιστούν σαν ερωτήματα στο Google και σαν tags στο del.ici.us να συγκριθούν τα 5πρώτα αποτελέσματα και να χαρακτηριστούν σαν σχετικά ή μή σχετικά τα αποτελέσματα του del.icio.us. Επίσης να ελεγχθεί αν υπήρχαν ιδιες σελίδες στα αποτελέσματα. Θεωρείτε αξιόπιστο το περιεχόμενο που επιστρέφεται απο το del.icio.us σε σχεση με το Google;


Κατέβασμα ppt "C AN S OCIAL B OOKMARKING I MPROVE W EB S EARCH ? Μίσκος Γιώργος Α. Μ. 196."

Παρόμοιες παρουσιάσεις


Διαφημίσεις Google