C AN S OCIAL B OOKMARKING I MPROVE W EB S EARCH ? Μίσκος Γιώργος Α. Μ. 196.

Slides:



Advertisements
Παρόμοιες παρουσιάσεις
GB ( ) 5 1 ( ) ( ) ( /cm 2 ) 0.2 /30min·φ90 (5 /m 3 ) 0.4 /30min·φ90 (10 /m 3 ) /30min·φ90 (25 /m 3 )
Advertisements

1 Έρευνα 16-19/5/05 Πανελλαδική πολιτική έρευνα κοινής γνώμης ΠΕΙΡΑΙΑΣ Μάιος 2005.
Μέτρηση στο διαδίκτυο για μικρές επιχειρήσεις Μέτρηση στο διαδίκτυο για μικρές επιχειρήσεις Βελτιώστε το μάρκετίνγκ σας με πολύτιμες πληροφορίες σχετικά.
Τεχνολογίες Web Απαραίτητες γνώσεις για την υλοποίηση της άσκησης.
Indexing.
Κατασκευή & Προώθηση Ιστοσελίδων
Πρωτογενής έρευνα Hi5, μία μόδα για νέους;. Μεθοδολογία - εργαλεία Η έρευνα διενεργήθηκε με την μέθοδο της συλλογής ερωτηματολογίων, τα οποία και συμπληρώνονταν.
ΑΝΑΛΥΣΗ ΚΙΝΔΥΝΟΥ ΕΠΕΝΔΥΤΙΚΩΝ ΣΧΕΔΙΩΝ
€ $500,000 $250,000 $125,000 $64,000 $32,000 $16,000 $8,000 $4,000 $2,000 $1,000 $500 $300 $200 $100 Καλωσορίσατε.
ΟΜΑΔΑ 55: Σωτήρης Κυριάκου Ιάκωβος Κουμίδης Λουκάς Λουκαϊδης ΠΑΝΕΠΙΣΤHΜΙΟ ΜΑΚΕΔOΝΙΑΣ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΠΛΗΡΟΦΟΡΙΑΚΑ ΣΥΣΤΗΜΑΤΑ ΜΑΡΚΕΤΙΝΓΚ.
Διαδίκτυο.
Case Study: Philly Dentistry Αποστολέρη Η., Ιωαννίδης Α., Ναζίρη Μ., Πεχλιβάνη Ε. S.E.M. & S.E.O.
Optimizing Web Search Using Social Annotations Παρουσίαση: Λάζος Άγγελος.
Οδηγός δημιουργίας ιστολογίου στο blogger.com
Ανάλυση Πολλαπλής Παλινδρόμησης
1 Μηχανές αναζήτησης στον Παγκόσμιο Ιστό Search Engines.
Διαχείριση πληροφοριών και επικοινωνίες Ονομ/νυμο Επιμορφωτή Επιμορφωτής: Ονομ/νυμο Επιμορφωτή ΥΠΕΠΘ ΠΑΙΔΑΓΩΓΙΚΟ ΙΝΣΤΙΤΟΥΤΟ ΠΡΟΓΡΑΜΜΑ «ΚΟΙΝΩΝΙΑ ΤΗΣ ΠΛΗΡΟΦΟΡΙΑΣ»
3.0 ΠΑΘΗΤΙΚΑ ΣΤΟΙΧΕΙΑ 3.2 ΠΥΚΝΩΤΕΣ ΑΞΙΟΛΟΓΗΣΗ.
ΚΑΤΑΓΡΑΦΗ ΗΜΕΡΗΣΙΑΣ ΑΠΑΣΧΟΛΗΣΗΣ ΦΟΙΤΗΤΩΝ. Παρατηρήσεις Δείγμα 10 φοιτητών – Καταγραφή για 19 εβδομάδες 5 κύριες κατηγορίες (22 υποκατηγορίες): - Υπνος.
Μεθοδολογία αναζήτησης. Χαρακτηριστικά των ερευνητών του διαδικτύου.
Οι ιστοσελίδες ως πηγές πληροφόρησης και η αξιοπιστία τους
EDUC 612 Ανωτερες μορφες στατιστικης αναλυσησ
Πρόσληψη και δαπάνη ενέργειας
ΚΑΠΟΙΟΣ ΜΟΥ ΚΛΕΒΕΙ ΤΙΣ ΦΩΤΟΓΡΑΦΙΕΣ ΚΑΙ ΤΙΣ ΧΡΗΣΙΜΟΠΟΙΕΙ ΑΛΛΟΥ Πρόκειται για παραβίαση προσωπικών δεδομένων. Αυτό από μόνο του αρκεί για να κινηθεί κάποιος.
Αναπληρωτής Καθηγητής Ανδρέας Βέγλης Διευθυντής Εργαστηρίου Εφαρμογών Πληροφορικής στα ΜΜΕ Τμήμα Δημοσιογραφίας & ΜΜΕ Αριστοτέλειο Πανεπιστήμιο Θεσσαλονίκης.
1. Πιστεύετε ότι υπάρχουν διακρίσεις σε σχέση με:.
Αναγνώριση Προτύπων.
Πληροφορίες στο διαδίκτυο. Δραστηριότητα: Ας βοηθήσουμε τη Γεωργία και τον Παντελή.
Εφαρμογές Πληροφορικής
Επιμέλεια: Δέγγλερη Σοφία
Heal Link Η HEAL Link (Hellenic Academic Libraries Link) είναι ο Σύνδεσμος Ελληνικών Ακαδημαϊκών Βιβλιοθηκών και λειτουργεί υπό.
Σχέση Απόδοσης- Κινδύνου στα Πλαίσια της Θεωρίας Χαρτοφυλακίου
1 Η ΣΗΜΑΣΙΑ ΤΗΣ ΔΙΑΤΗΡΗΣΗΣ ΤΟΥ ΑΣΤΙΚΟΥ ΠΡΑΣΙΝΟΥ ΣΕ ΠΕΡΙΟΔΟΥΣ ΞΗΡΑΣΙΑΣ Σήμερα έχουμε πρόβλημα ξηρασίας και ανομβρίας διότι έχουμε επέμβει στην βιολογική.
Title of the presentation | Date |1 Καταγραφή απαιτήσεων ερευνητών ανθρωπιστικών επιστημών για γλωσσικούς πόρους και εργαλεία Δρ Νίκος Χούσος Εθνικό Κέντρο.
ΕΡΕΥΝΑ 2010 ΕΚΤΙΜΗΣΗ ΤΑΣΕΩΝ ΣΤΗΝ ΑΓΟΡΑ ΤΗΣ ΤΡΙΠΟΛΗΣ.
Επιδημιολογικά Στοιχεία:
1 Α. Βαφειάδης Αναβάθμισης Προγράμματος Σπουδών Τμήματος Πληροφορικής Τ.Ε.Ι Θεσσαλονίκης Μάθημα Προηγμένες Αρχιτεκτονικές Υπολογιστών Κεφαλαίο Τρίτο Συστήματα.
ΕΣΔ 232: Οργάνωση δεδομένων στην Κοινωνία της Πληροφορίας © 2013 Nicolas Tsapatsoulis Φόρμες Δημιουργία Περιεχομένου Ι.
Ανάκτηση Πληροφορίας (Information Retrieval – IR) Πανεπιστήμιο Θεσσαλίας Πολυτεχνική Σχολή Τμήμα Μηχ. Η/Υ, Τηλ/νιών & Δικτύων Ακαδημαϊκό Έτος
Κάντε κλικ σε ένα από τα κεφάλαια παρακάτω για να πάρετε περισσότερες πληροφορίες ή κάντε κλικ στο κουμπί Επόμενο για να ξεκινήσει η ιστοσελίδα φροντιστήριο.
Μοντέλα Συστημάτων Παρουσιάσεις των συστημάτων των οποίων οι απαιτήσεις αναλύονται.
Συνολική Ζήτηση Εθνικό Εισόδημα Εθνικό Προϊόν Εθνική Δαπάνη
Στατιστική Ι Παράδοση 9 Ο Δείκτης Συσχέτισης.
Τα Διαδοχικά Φύλλα Στυλ CSS
Παράγοντες καρδιαγγειακού κινδύνου (ΠΚΚ) σε ηλικιωμένους και υπέργηρους με ισχαιμικό αγγειακό εγκεφαλικό επεισόδιο (ι-ΑΕΕ). Η θέση του σακχαρώδη διαβήτη.
1 Νέα Θεωρία Μεγέθυνσης Ενδογενής μεγέθυνση. 2 Συνάρτηση παραγωγής προϊόντος Υ t = Y(K, L, A) Y t = [(1-α k )·K t ] α · [(1-α L )·A t ·L t ] 1-α 0
Στατιστική I Χειμερινό Γ. Παπαγεωργίου
Οριζόντιο Έργο Υποστήριξης Σχολείων, Εκπαιδευτικών και Μαθητών στο Δρόμο για το ΨΗΦΙΑΚΟ ΣΧΟΛΕΙΟ, νέες υπηρεσίες Πανελλήνιου Σχολικού Δικτύου και Στήριξη.
Δομές Δεδομένων - Ισοζυγισμένα Δυαδικά Δένδρα (balanced binary trees)
Μέσα κοινωνικής δικτύωσης και Μάρκετινγκ Όνομα : Χατζηπαυλίδης Ανέστης
Ερευνητική Εργασία Β Λυκείου
ΤΟ ΔΙΑΔΙΚΤΥΟ, ΤΑ ΚΟΙΝΩΝΙΚΑ ΔΙΚΤΥΑ ΚΑΙ ΟΙ ΚΙΝΔΥΝΟΙ ΠΟΥ ΚΡΥΒΟΥΝ
Ηλεκτρονική Δημοσίευση The Goddard Library Web Capture Project Χριστιανούδης Ιωάννης Π.Μ.Σ. Κέρκυρας Μάιος 2005.
ΕΝΟΤΗΤΑ 3 – Κεφάλαιο 7: Υπηρεσίες Αναζήτησης στον Παγκόσμιο Ιστό Λέξεις Κλειδιά: Διεύθυνση Ιστοσελίδας (URL), Θεματικοί Κατάλογοι, Λέξεις Κλειδιά (Key.
Διαστήματα Εμπιστοσύνης α) για τη μέση τιμή β) για ένα ποσοστό.
Μέσα μαζικής ενημέρωσης Παναγιώτης, Τζέλο Δημήτρης, Άγγελος.
Χάρης Κονδυλάκης Σχεδιασμός Ιστοχώρων 1. Παραδείγματα ιστοχώρων del.icio.us europa.eu lufthansa.aero cnn.tv.
Καλώς ήλθατε, μαθητές! Όνομα δασκάλου. Πρόγραμμα τάξης 8:15 - 9:00Το σχολείο ξεκινά, παίρνουμε παρουσίες 9: :00Ανάγνωση και έκθεση 10: :00Ορθογραφία.
Τι είναι «διάστημα» (1). Διαστήματα Εμπιστοσύνης α) για τη μέση τιμή (ποσοτικά) β) για ένα ποσοστό (ποιοτικά)
ΚΑΡΑΓΚΙΟΖΗΣ Γνωρίσαμε τους ήρωες του ελληνικού θεάτρου σκιών καθώς και την ιστορία του Καραγκιόζη. πληροφορίες αντλήσαμε από το Σπαθάρειο μουσείο. Καραγκιοζοπαίχτης.
Όνομα σχολείου Ημερομηνία
Το Διαδίκτυο - Internet
Οδηγός δημιουργίας ιστολογίου στο blogger.com
ΚΑΘΟΔΟΣ ΤΩΝ ΠΕΛΟΠΟΝΝΗΣΟΣ ΕΙΛΩΤΕΣ-ΠΕΡΙΟΙΚΟΙ ΓΕΩΜΕΤΡΙΚΑ ΧΡΟΝΙΑ
Τι είναι «διάστημα» (1). Διαστήματα Εμπιστοσύνης α) για τη μέση τιμή (ποσοτικά) β) για ένα ποσοστό (ποιοτικά)
Οι ιστοσελίδες ως πηγές πληροφόρησης και η αξιοπιστία τους
ΤΙΤΛΟΣ ΤΗΣ ΕΚΔΗΛΩΣΗΣ ΣΑΣ
Καλώς ήλθατε, μαθητές! Όνομα δασκάλου.
Ηλεκτρονικές εφαρμογές Φορολογίας Κεφαλαίου
Παράδειγμα στόχος Έμπνευση Ενέργειες/εργασίες Πόροι Σκέψεις
Μεταγράφημα παρουσίασης:

C AN S OCIAL B OOKMARKING I MPROVE W EB S EARCH ? Μίσκος Γιώργος Α. Μ. 196

ΜΕΘΟΔΟΛΟΓΙΑ Συλλογή δεδομένων recent feed -real time data seeds-tags,url,users -adv. Unfiltered view of data -dis. Σχετικά μικρός το del.icious, οδηγεί σε προκατειλλημένα δεδομένα για δημοφιλής ετικέτες και διευθύνσεις

ΜΕΘΟΔΟΛΟΓΙΑ

Σ ΥΝΟΛΑ ΔΕΔΟΜΕΝΩΝ Dataset C(rawl): crawling σύμφωνα με τη διαδικασία που αναφέρθηκε. Το Seed έγινε με την ετικέτα(tag) “web”. 22,588,354 δημοσιεύσεις 1,371,941 μοναδικές διευθύνσεις Dataset R(ecent): 8μηνη συλλογή από το recent 11,613,913 δημοσιεύσεις 3,004,998 διευθύνσεις Dataset M(onth): 1μήνα συλλογή από recent, επίσης ενισχύθηκε με crawling για κάθε URL μέσα σε 2 ώρες από τη δημοσίευση του 3,630,250 δημοσιεύσεις 2,549,282 διευθύνσεις 301,495 χρήστες

TRADEOFFS

U RL -P OSITIVE FACTORS 1) Οι ιστοσελίδες που δημοσιεύονται στο delicious ειναι συνήθως πρόσφατα τροποποιημένες Οι χρήστες δημοσιεύουν ενδιαφέρουσες σελίδες που ανανεώνονται συχνά ή δημιουργήθηκαν πρόσφατα

U RL -P OSITIVE FACTORS

2) Περίπου το 25% των διευθύνσεων που δημοσιεύονται από χρήστες είναι νέες, που ακόμα δεν έχουν ευρετηριοποιηθεί Delicious μπορεί να αποτελέσει μια πηγή για νέες ιστοσελίδες και να βοηθήσει στο crawl ordering πρόβλημα

U RL -P OSITIVE FACTORS 3) Χονδρικά 9% των αποτελεσμάτων για τα search queries είναι ιστοσελίδες που είναι παρούσες στο delicious Καλύπτεται ένα σημαντίκό ποσοστό σε σχέση με το μέγεθος του και στο πρώτα 10 αποτελέσματα το ποσοστό ανεβαίνει στο 19%

U RL -P OSITIVE FACTORS 4) ενώ κάποιοι χρήστες φαίνεται να είναι πολύ παραγωγικοί, αφού το 10% των χρηστών ευθύνεται για το 56% των δημοσιεύσεων Δεν εξαρτάται άμεσα από μικρό αριθμό χρηστών

U RL -P OSITIVE FACTORS

5) 30-50% των διευθύνσεων και περίπου 1/8 domains που δημοσιεύτηκαν δεν ήταν πριν στο delicious, δηλαδή ήταν η πρώτη τους φορά στο διάστημα αυτό Μικρός πλεονασμός για τις πληροφορίες της σελίδας

U RL -P OSITIVE FACTORS

U RL -N EGATIVE FACTORS 1) Ο αριθμός των ημερήσιων δημοσιεύσεων είναι μικρός, αντιπροσωπεύει το 1/10 των blogs που δημοσιεύονται ημερησίως Ο ρυθμός της ημερήσιας αύξησης δείχνει να εξαρτάται απο εξωτερικούς παράγοντες και δε μπορεί να γίνει πρόβλεψη

U RL -N EGATIVE FACTORS

2) Ο συνολιγός αριθμός δημοσιεύσεων είναι σχετικά μικρός. (1/1000 of web) 117m δημοσιεύσεις, Web: hundreds of billions

T AGS - POSITIVE FACTORS 1) Δημοφιλείς όροι ερωτημάτων και tags πολύ συχνά συμπίπτουν. Αν τα metadata που επισυνάπτονται από το bookmarking είναι σχετικά με τις web αναζητήσεις, τότε τα tags μπορούν να βοηθήσουν τους χρήστες να πλοηγηθούν σε σχετικές σελίδες

T AGS - POSITIVE FACTORS

Ενώ υπάρχει σημαντικό ποσό επικάλυψης, δεν υπάρχει θετική συσχέτιση ανάμεσα σε δημοφιλή tags και όρους ερωτημάτων. Αυτό γιατί 21.9% AOL queries is navigational Μετά από αφαίρεση stopwords και των tags<3 Ένα τουλάχιστον tag από τα 100, 500 και 1000 πιο δημοφιλή, ήταν αντίστοιχα στο 8,6%, 25,3% και 36,8% στους όρους ερωτημάτων.

T AGS - POSITIVE FACTORS 2) τα περισσότερα tags ήταν κρίθηκαν σχετικά και αντικειμενικά από χρήστες Υπήρχε η ανησυχία ότι τα tags θα ήταν χαμηλής ποιότητας, δηλαδή οι χρήστες θα έδιναν όρους χωρίς νόημα(«g1») ή υποκειμενικούς όρους («καλόοοο») Μόνο 7% θεωρήθηκαν άσχετα με το περιεχόμενο

T AGS - NEGATIVE FACTORS 1) Τα tags βρίσκονται στο στο περιεχόμενο των σελίδων με 50% πιθανότητα και στον τίτλο με 16%. Οπότε μια μηχανή αναζήτησης που ψάχνει το κείμενο ή ειδικότερα τον τίτλο θα βρίσκει αυτές τις σελίδες.

T AGS - NEGATIVE FACTORS 2)Τα domains πολύ συχνά σχετίζονται με tags και αντίστροφα Θα ήταν πιο αποδοτικό ειδικοί να χαρακτηρίζουν τα domains, παρά να το κάνουν οι χρήστες.

T AGS - NEGATIVE FACTORS

Π ΛΕΟΝΕΚΤΗΜΑΤΑ Η Στρατηγική αυτή δείχνει να βοηθά της μηχανές αναζήτησης σαν πηγή νέων σελίδων. Με αυτό το τρόπο δεν υπάρχει το δίλλημα ανάμεσα στην εύρεση νέων σελίδων ή στην ανανέωση των ήδη ευρετηριοποιημένων. Υπάρχει μια καλή πηγή, με ενδιαφέρουσες, νέες ή ανανεωμένες σελίδες Σιγουρα τέτοιες προσεγγίσεις αποτελούν σύμμαχο της προσπάθειας που γίνεται για αποδοτικότερη αναζήτηση στο διαδίκτυο, τα περισσότερα πειράματα είναι ενθαρρυντικά και αν οι συγκρίσεις γίνονταν σε ίδια σύνολα δεδομένων, πχ και οι όροι ερωτημάτων( AOL queries), αλλά και οι δημοσιεύσεις και τα tags να γίνονταν από ίδια άτομα. Τότε σίγουρα τα αποτελέσματα θα ήταν ακόμα καλύτερα. Τελος ο χρήστης με αυτόν τον τρόπο δημιουργεί δικά του μονοπάτια αναζήτησης, έχει τη δυνατότητα να οργανώσει όπως θέλει αυτός το σχετικό περιεχόμενο και να ανατρέξει σύντομα όποτε το χρειαστεί.

ΜΕΙΟΝΕΚΤΗΜΑΤΑ Όχι διαδεδομένη τεχνική, είναι ακόμα αρκετά νεα και αυτό έχει κακό αντίκτυπο στα πειράματα Τα δείγματα για τα πειράματα δεν είναι απολύτως αντιπροσωπευτικά, αυτό βέβαια είναι αποτέλεσμα του παραπάνω μειονεκτήματος. Έντονο το στοιχείο της υποκειμενικότητας

ΑΣΚΗΣΗ Σε 5 όρους που θα αντιμετωπιστούν σαν ερωτήματα στο Google και σαν tags στο del.ici.us να συγκριθούν τα 5πρώτα αποτελέσματα και να χαρακτηριστούν σαν σχετικά ή μή σχετικά τα αποτελέσματα του del.icio.us. Επίσης να ελεγχθεί αν υπήρχαν ιδιες σελίδες στα αποτελέσματα. Θεωρείτε αξιόπιστο το περιεχόμενο που επιστρέφεται απο το del.icio.us σε σχεση με το Google;