Κατέβασμα παρουσίασης
Η παρουσίαση φορτώνεται. Παρακαλείστε να περιμένετε
ΔημοσίευσεἈλφαῖος Μελετόπουλος Τροποποιήθηκε πριν 6 χρόνια
1
Πώς γεννήθηκαν οι μεγάλες ιδέες της επιστήμης των υπολογιστών…
2
1930 1948 1956 1969 1974 1996 1930 πριν ακόμα κατασκευαστεί ο πρώτος ψηφιακός υπολογιστής, ένας μεγαλοφυής Βρετανός (Alan Turing) θεμελιώνει την επιστήμη των υπολογιστών αποδεικνύοντας ότι συγκεκριμένα προβλήματα δε μπορούν να λυθούν από κανέναν υπολογιστή που θα κατασκευαστεί ποτέ στο μέλλον, όσο γρήγορος, ισχυρός ή έξυπνα σχεδιασμένος κι αν είναι
3
1930 1948 1956 1969 1974 1996 1948 ένας επιστήμονας (Richard Hamming) εργαζόμενος σε τηλεφωνική εταιρεία (Bell) δημοσιεύει μια εργασία που θεμελιώνει το πεδίο της θεωρίας της πληροφορίας (information theory) η δουλειά του επιτρέπει στους υπολογιστές να μεταφέρουν μηνύματα με απόλυτη ακρίβεια ακόμα και όταν το μεγαλύτερο μέρος των δεδομένων είναι κατεστραμμένο/παραποιημένο λόγω παρεμβολών
4
1930 1948 1956 1969 1974 1996 1956 μια ομάδα ακαδημαϊκών συμμετέχουν σε συνέδριο στο Dartmouth με στόχο τη θεμελίωση του πεδίου της τεχνητής νοημοσύνης (artificial intelligence) …ακόμα, βέβαια, περιμένουμε τη δημιουργία ενός πραγματικά ευφυούς προγράμματος για υπολογιστή…
5
1930 1948 1956 1969 1974 1996 1969 ένας ερευνητής της IBM (Edgar Frank “Ted” Codd) ανακαλύπτει έναν κομψό τρόπο για να δομείται η πληροφορία σε μια βάση δεδομένων (database) η τεχνική του χρησιμοποιείται σήμερα για αποθήκευση και ανάκτηση πληροφοριών υποστηρίζοντας τις περισσότερες online συναλλαγές
6
1930 1948 1956 1969 1974 1996 1974 ερευνητές της βρετανικής κυβέρνησης για μυστικές επικοινωνίες ανακαλύπτουν έναν τρόπο με τον οποίο δύο υπολογιστές μπορούν να επικοινωνούν με ασφάλεια ακόμα κι όταν κάποιος άλλος υπολογιστής μπορεί να παρατηρεί οτιδήποτε μεταφέρεται μεταξύ τους oι ερευνητές δεσμεύονται λόγω κυβερνητικού απορρήτου αλλά ευτυχώς, Αμερικανοί καθηγητές (Diffie, Hellman & Shamir, Rivest, Adleman), ανεξάρτητα, ανακαλύπτουν και επεκτείνουν αυτή την εντυπωσιακή εφεύρεση που βρίσκεται πίσω από κάθε ασφαλή επικοινωνία στο Διαδίκτυο (internet)
7
1930 1948 1956 1969 1974 1996 1996 δύο υποψήφιοι διδάκτορες στο Πανεπιστήμιο Stanford (Page, Brin) αποφασίζουν να συνεργαστούν για τη δημιουργία μιας μηχανής αναζήτησης στον Παγκόσμιο Ιστό (Web) λίγα χρόνια μετά, ιδρύουν τη Google, τον πρώτο ψηφιακό γίγαντα στην περιοχή του Διαδικτύου
8
Τι, στα αλήθεια, είναι ένας αλγόριθμος;
Μέχρι τώρα αναφερόμαστε σε μεγάλες “ιδέες” της επιστήμης των υπολογιστών, αλλά οι σχετικοί επιστήμονες αποκαλούν αυτές τις σημαντικές ιδέες ως “αλγόριθμους” Ποια είναι η διαφορά μεταξύ μιας ιδέας και ενός αλγορίθμου; Η πιο απλή απάντηση είναι ότι ένας αλγόριθμος είναι μια ακριβής συνταγή που καθορίζει την ακριβή ακολουθία βημάτων που απαιτούνται για να λυθεί ένα πρόβλημα
9
Ο αλγόριθμος περιλαμβάνει μια ακολουθία βημάτων που ξεκινά ως εξής:
Ένα χαρακτηριστικό παράδειγμα είναι ένας αλγόριθμος που μάθαμε στο σχολείο: ο αλγόριθμος για να προσθέτουμε δύο μεγάλους αριθμούς Ο αλγόριθμος περιλαμβάνει μια ακολουθία βημάτων που ξεκινά ως εξής: Αρχικά, πρόσθεσε τα τελικά ψηφία των δύο αριθμών, γράψε το τελικό ψηφίο του αποτελέσματος, και μετάφερε τα υπόλοιπα ψηφία του αποτελέσματος στην επόμενη στήλη προς τα αριστερά Στη συνέχεια, πρόσθεσε τα ψηφία στην επόμενη στήλη, πρόσθεσε και ψηφία από προηγούμενες στήλες, κ.ο.κ.
11
Χαρακτηριστικά αλγορίθμων
σχεδόν μηχανικός χαρακτήρας: κάθε βήμα πρέπει να είναι απόλυτα ακριβές και να μην απαιτεί καμία ανθρώπινη διαίσθηση ή μαντεψιά, ώστε να μπορεί να προγραμματιστεί σε έναν υπολογιστή δουλεύει πάντα, ανεξάρτητα από τα δεδομένα εισόδου. Ο αλγόριθμος της πρόσθεσης που μάθαμε στο σχολείο έχει αυτή την ιδιότητα: όποιοι κι αν είναι οι δύο αριθμοί που πρέπει να αθροιστούν, ο αλγόριθμος τελικά θα δώσει τη σωστή απάντηση. Για παράδειγμα, αν και θα απαιτούταν αρκετός χρόνος, σίγουρα θα μπορούσατε να χρησιμοποιήσετε τον αλγόριθμο αυτό για να αθροίσετε δύο αριθμούς των 1000 ψηφίων ο καθένας… Αφού ο αλγόριθμος περιγράφηκε σα μια ακριβής, μηχανική συνταγή, πόσο ακριβής πρέπει να είναι η συνταγή αυτή; Ποιες βασικές λειτουργίες επιτρέπονται; Για παράδειγμα, στο αλγόριθμο της πρόσθεσης, είναι αρκετό να πούμε μόνο “πρόσθεσε τα δύο ψηφία” ή πρέπει κάπως να διασαφηνίσουμε όλο το σύνολο των αποτελεσμάτων άθροισης μονοψήφιων αριθμών; Τέτοιες λεπτομέρειες μπορεί να φαίνονται ακίνδυνες ή σχολαστικές αλλά τελικά τα πράγματα δεν είναι έτσι: οι πραγματικές απαντήσεις βρίσκονται στην καρδιά της επιστήμης των υπολογιστών και συνδέονται σε φιλοσοφία, φυσική, επιστήμη μελέτης νευρικού συστήματος και γενετική
12
Ορισμός αλγορίθμου Οι πολύ σημαντικές ερωτήσεις σχετικά με το τι στα αλήθεια είναι ένας αλγόριθμος συνοψίζονται σε μία πρόταση γνωστή σαν θέση των Church-Turing Εμείς θα χρησιμοποιούμε στη συνέχεια για τον αλγόριθμο τον ανεπίσημο ορισμό του: μία πολύ ακριβής συνταγή
13
Πώς συνδέονται οι αλγόριθμοι με τους υπολογιστές;
Το βασικό σημείο είναι ότι οι υπολογιστές πρέπει να προγραμματιστούν με πολύ ακριβείς/σαφείς εντολές Επομένως, πριν να χρησιμοποιήσουμε έναν υπολογιστή για να μας λύσει ένα συγκεκριμένο πρόβλημα, πρέπει να αναπτύξουμε έναν αλγόριθμο για το πρόβλημα αυτό Σε άλλες επιστήμες, όπως τα μαθηματικά και η φυσική, σημαντικά αποτελέσματα συνήθως συλλαμβάνονται από έναν τύπο Πολύ γνωστά παραδείγματα περιλαμβάνουν το Πυθαγόρειο θεώρημα, a2+b2=c2, ή τον τύπο του Einstein E = mc2 Αντίθετα, οι μεγάλες ιδέες στην επιστήμη των υπολογιστών περιγράφουν πώς να λυθεί ένα πρόβλημα χρησιμοποιώντας φυσικά έναν αλγόριθμο Επομένως, ο βασικός στόχος του μαθήματος είναι να εξηγήσει πώς ο υπολογιστής μας μετατρέπεται σε προσωπική μας μεγαλοφυΐα: εξαιτίας των σπουδαίων αλγορίθμων που χρησιμοποιεί καθημερινά…
14
Τι κάνει σπουδαίο έναν αλγόριθμο;
Τα κριτήρια που έχουμε χρησιμοποιήσει προκειμένου να επιλέξουμε τους αλγόριθμους που θα μελετήσουμε στo πλαίσιo του μαθήματος είναι τα εξής: Κριτήριο 1: καθημερινή χρήση οι αλγόριθμοι να χρησιμοποιούνται από συνηθισμένους υπολογιστές σε καθημερινή βάση Κριτήριο 2: πραγματικά προβλήματα οι αλγόριθμοι θα πρέπει να αντιμετωπίζουν διακριτά, πραγματικά προβλήματα- όπως η συμπίεση ενός αρχείου ή η μετάδοσή του παρουσία παρεμβολών πάνω από ένα σύνδεσμο Κριτήριο 3: θεωρητική πλευρά της επιστήμης των υπολογιστών οι αλγόριθμοι πρέπει να σχετίζονται κυρίως με τη θεωρητική πλευρά της επιστήμης των υπολογιστών. Δε θα ασχοληθούμε με τεχνικές που δίνουν έμφαση στο υλικό των υπολογιστών (hardware) όπως CPU, οθόνη και δίκτυα ούτε με το σχεδιασμό υποδομών όπως το Διαδίκτυο
15
Πώς «βρίσκουν» οι Μηχανές Αναζήτησης…;
…ψάχνοντας ψύλλους στο μεγαλύτερο αχυρώνα του κόσμου…
16
Το πρόβλημα Δεδομένα: Ζητούμενο:
WEB και η πληροφορία που περιέχεται σε αυτό Ερώτηση για αναζήτηση συγκεκριμένης πληροφορίας στο WEB Ζητούμενο: Γρήγορη επιστροφή λίστας με απαντήσεις ταξινομημένες ως προς το πόσο σχετικές είναι με την ερώτηση…
17
Μηχανές αναζήτησης Οι μηχανές αναζήτησης (search engines) έχουν μεγάλη επίδραση στην καθημερινή μας ζωή και δραστηριότητα Ο τεράστιος όγκος διαθέσιμης πληροφορίας και η εξαιρετική ταχύτητα και ποιότητα των αποτελεσμάτων της αναζήτησης δε μάς κάνει πλέον εντύπωση (πολλές φορές είναι «εκνευριστική» ακόμα και η ελάχιστη καθυστέρηση…) Αλλά ξεχνάμε ότι οι πληροφορίες που ζητάμε βρίσκονται τελικά σαν ψύλλοι σε έναν τεράστιο αχυρώνα: τον Παγκόσμιο Ιστό (World Wide Web) Υπάρχει τεράστιος όγκος πληροφορίας αποθηκευμένος σε ισχυρότατα μηχανήματα (υπολογιστές) παγκοσμίως που όμως δεν θα είχε πρακτικά καμία χρησιμότητα αν δεν υπήρχαν έξυπνοι αλγόριθμοι που οργανώνουν και βρίσκουν το ζητούμενο κάθε φορά
18
Μηχανές αναζήτησης Οι μηχανές αναζήτησης κάνουν 2 βασικές δουλειές: ταίριασμα/εντοπισμό (matching) και κατάταξη (ranking) Σκεφτείτε ότι δίνουμε στο google την εξής ερώτηση: «Δρομολόγια ΚΤΕΛ Αιτωλοακαρνανίας» Κατά τη φάση ταιριάσματος (matching) εντοπίζονται όλες οι σελίδες που αναφέρουν τη ζητούμενη φράση (που ανάλογα με την ερώτηση μπορεί να είναι χιλιάδες…) Συνήθως προτιμάμε να ασχολούμαστε με τις πρώτες 5-10 απαντήσεις Οπότε η μηχανή αναζήτησης θα πρέπει να μπορεί να επιλέξει λίγες και μάλιστα τις καλύτερες απαντήσεις από ένα μεγάλος πλήθος απαντήσεων… Μια καλή μηχανή αναζήτησης, δεν θα επιλέξει μόνο τις καλύτερες απαντήσεις αλλά επιπλέον θα τις εμφανίσει και με την πιο κατάλληλη σειρά… Η εργασία της επιλογής των καλύτερων απαντήσεων και της εμφάνισής τους με τη «σωστή» σειρά αποτελεί τη φάση της κατάταξης (ranking)
19
... ... σελίδες που ταιριάζουν σελίδες σε κατάταξη 1 ερώτηση 2
Δρομολόγια ΚΤΕΛ Αιτωλοακαρνανίας ταίριασμα κατάταξη 3 4 ... ...
21
Στην παγκόσμια βιομηχανία, οι μηχανές αναζήτησης ζουν ή πεθαίνουν ανάλογα με την ποιότητα των συστημάτων κατάταξης που χρησιμοποιούν… 2002: στις ΗΠΑ, η αγορά είναι εξίσου μοιρασμένη σε Google, Yahoo και MSN (MSN μετονομάστηκε σε Live Search και μετά σε Bing) κάθε μία είχε περίπου το 30% των αναζητήσεων που γίνονταν στις ΗΠΑ Στα επόμενα χρόνια, η Google συνέτριψε τις δύο άλλες εταιρείες (σε ποσοστά κάτω από 20%)… Αυτό συνέβη λόγω των αλγορίθμων κατάταξης της Google
22
Στην παγκόσμια βιομηχανία, οι μηχανές αναζήτησης ζουν ή πεθαίνουν ανάλογα με την ποιότητα των συστημάτων κατάταξης που χρησιμοποιούν… 2002: στις ΗΠΑ, η αγορά είναι εξίσου μοιρασμένη σε Google, Yahoo και MSN (MSN μετονομάστηκε σε Live Search και μετά σε Bing) κάθε μία είχε περίπου το 30% των αναζητήσεων που γίνονταν στις ΗΠΑ Στα επόμενα χρόνια, η Google συνέτριψε τις δύο άλλες εταιρείες (σε ποσοστά κάτω από 20%)… Αυτό συνέβη λόγω των αλγορίθμων κατάταξης της Google H Google (ένας από τους κολοσσούς του 21ου αιώνα) ξεκίνησε σαν εργασία που εκπόνησαν δύο μεταπτυχιακοί φοιτητές – οι Larry Page και Sergey Brin – στο Πανεπιστήμιο Stanford (ΗΠΑ) το 1998
24
Σύνοψη Δημιουργία ευρετηρίου (AltaVista, 1995)
Θέση της λέξης Λέξεις πληροφορίας Αλγόριθμος PageRank (Google, 1998): Υπερσύνδεσμοι Εγκυρότητα = πόσο δημοφιλής είναι μια ιστοσελίδα Τυχαίος περιηγητής (surfer)
25
Σύνοψη Δημιουργία ευρετηρίου (AltaVista, 1995)
Θέση της λέξης Λέξεις πληροφορίας Αλγόριθμος PageRank (Google, 1998): Υπερσύνδεσμοι Εγκυρότητα = πόσο δημοφιλής είναι μια ιστοσελίδα Τυχαίος περιηγητής (surfer)
26
ALTAVISTA: Ο πρώτος αλγόριθμος ταιριάσματος στο WEB
Οι Infoseek και Lycos (και οι δύο εμφανίστηκαν το 1994) είναι οι παλαιότερες μηχανές αναζήτησης μαζί με την AltaVista (που εμφανίστηκε το 1995) Στα μέσα της δεκαετίας του 1990, για κάποια χρόνια, η AltaVista κυριαρχούσε στις μηχανές αναζήτησης… αφού είχε φτιάξει ευρετήριο (index) για κάθε κείμενο στο WEB και επέστρεφε αποτελέσματα σε κλάσματα δευτερολέπτου
27
Δημιουργία ευρετηρίου (INDEXING)
Η δημιουργία ευρετηρίου αποτελεί την πιο θεμελιώδη έννοια πίσω από τις μηχανές αναζήτησης Η ιδέα είναι πολύ παλιά: αρχαιολόγοι ανακάλυψαν βιβλιοθήκη 5000 ετών σε Βαβυλώνιο ναό στην οποία υπήρχε ευρετήριο των περιεχομένων της με βάση το θέμα Η λέξη ευρετήριο συνήθως μας παραπέμπει στις τελευταίες σελίδες βιβλίων όπου όλοι οι όροι αναφέρονται σε λίστα πλήρως ταξινομημένοι (συνήθως αλφαβητικά) και κάτω από κάθε όρο υπάρχει μία λίστα από περιοχές (συνήθως αριθμοί σελίδων) στις οποίες αναφέρεται ο όρος… Το ευρετήριο των μηχανών αναζήτησης λειτουργεί όπως αυτό των βιβλίων Σελίδες βιβλίου: Ιστοσελίδες/Web σελίδες σε κάθε μία από τις οποίες οι μηχανές αναζήτησης αναθέτουν ένα διαφορετικό αριθμό
28
Δημιουργία ευρετηρίου (INDEXING)
Η δημιουργία ευρετηρίου αποτελεί την πιο θεμελιώδη έννοια πίσω από τις μηχανές αναζήτησης Η ιδέα είναι πολύ παλιά: αρχαιολόγοι ανακάλυψαν βιβλιοθήκη 5000 ετών σε Βαβυλώνιο ναό στην οποία υπήρχε ευρετήριο των περιεχομένων της με βάση το θέμα Η λέξη ευρετήριο συνήθως μας παραπέμπει στις τελευταίες σελίδες βιβλίων όπου όλοι οι όροι αναφέρονται σε λίστα πλήρως ταξινομημένοι (συνήθως αλφαβητικά) και κάτω από κάθε όρο υπάρχει μία λίστα από περιοχές (συνήθως αριθμοί σελίδων) στις οποίες αναφέρεται ο όρος… Το ευρετήριο των μηχανών αναζήτησης λειτουργεί όπως αυτό των βιβλίων Σελίδες βιβλίου: Ιστοσελίδες/Web σελίδες σε κάθε μία από τις οποίες οι μηχανές αναζήτησης αναθέτουν ένα διαφορετικό αριθμό
29
Δημιουργία ευρετηρίου (INDEXING)
Η δημιουργία ευρετηρίου αποτελεί την πιο θεμελιώδη έννοια πίσω από τις μηχανές αναζήτησης Η ιδέα είναι πολύ παλιά: αρχαιολόγοι ανακάλυψαν βιβλιοθήκη 5000 ετών σε Βαβυλώνιο ναό στην οποία υπήρχε ευρετήριο των περιεχομένων της με βάση το θέμα Η λέξη ευρετήριο συνήθως μας παραπέμπει στις τελευταίες σελίδες βιβλίων όπου όλοι οι όροι αναφέρονται σε λίστα πλήρως ταξινομημένοι (συνήθως αλφαβητικά) και κάτω από κάθε όρο υπάρχει μία λίστα από περιοχές (συνήθως αριθμοί σελίδων) στις οποίες αναφέρεται ο όρος… Το ευρετήριο των μηχανών αναζήτησης λειτουργεί όπως αυτό των βιβλίων Σελίδες βιβλίου: Ιστοσελίδες/Web σελίδες σε κάθε μία από τις οποίες οι μηχανές αναζήτησης αναθέτουν ένα διαφορετικό αριθμό
30
Πώς θα έφτιαχνε Ευρετήριο ένας υπολογιστής;
Ένας φανταστικός Παγκόσμιος Ιστός που αποτελείται από 3 σελίδες με αριθμούς 1,2,3 1 Μια γάτα έκατσε στο πεζούλι 2 Ένας σκύλος είναι πάνω στο πεζούλι 3 Η γάτα έφυγε όταν έκατσε ο σκύλος Γάτα 1,3 Είναι 2 Έκατσε Ένας Έφυγε 3 Η Μια 1 ο Όταν Πάνω Πεζούλι 1,2 Σκύλος 2,3 Στο Πώς θα έφτιαχνε Ευρετήριο ένας υπολογιστής;
31
Πώς θα έφτιαχνε Ευρετήριο ένας υπολογιστής;
Ένας φανταστικός Παγκόσμιος Ιστός που αποτελείται από 3 σελίδες με αριθμούς 1,2,3 1 Μια γάτα έκατσε στο πεζούλι 2 Ένας σκύλος είναι πάνω στο πεζούλι 3 Η γάτα έφυγε όταν έκατσε ο σκύλος Γάτα 1,3 Είναι 2 Έκατσε Ένας Έφυγε 3 Η Μια 1 ο Όταν Πάνω Πεζούλι 1,2 Σκύλος 2,3 Στο Πώς θα έφτιαχνε Ευρετήριο ένας υπολογιστής; Πώς το χρησιμοποιεί μια μηχανή αναζήτησης για να απαντήσει στην ερώτηση Γάτα;
32
Πώς θα έφτιαχνε Ευρετήριο ένας υπολογιστής;
Ένας φανταστικός Παγκόσμιος Ιστός που αποτελείται από 3 σελίδες με αριθμούς 1,2,3 1 Μια γάτα έκατσε στο πεζούλι 2 Ένας σκύλος είναι πάνω στο πεζούλι 3 Η γάτα έφυγε όταν έκατσε ο σκύλος Γάτα 1,3 Είναι 2 Έκατσε Ένας Έφυγε 3 Η Μια 1 ο Όταν Πάνω Πεζούλι 1,2 Σκύλος 2,3 Στο Πώς θα έφτιαχνε Ευρετήριο ένας υπολογιστής; Πώς το χρησιμοποιεί μια μηχανή αναζήτησης για να απαντήσει στην ερώτηση Σκύλος; 1. Γρήγορη αναζήτηση στην ταξινομημένη λίστα 2. Επιστροφή των σελίδων 2 και 3 που περιέχουν τη ζητούμενη λέξη
33
Νέα ερώτηση με πολλές λέξεις: Γάτα Σκύλος Η μηχανή αναζήτησης:
Ένας φανταστικός Παγκόσμιος Ιστός που αποτελείται από 3 σελίδες με αριθμούς 1,2,3 1 Μια γάτα έκατσε στο πεζούλι 2 Ένας σκύλος είναι πάνω στο πεζούλι 3 Η γάτα έφυγε όταν έκατσε ο σκύλος Νέα ερώτηση με πολλές λέξεις: Γάτα Σκύλος Η μηχανή αναζήτησης: Ψάχνει κάθε λέξη ανεξάρτητα Γάτα: 1,3 Σκύλος: 2,3 Ελέγχει ποιοι αριθμοί υπάρχουν και στις 2 λίστες και τους επιστρέφει σαν απάντηση (εδώ: 3) Γάτα 1,3 Είναι 2 Έκατσε Ένας Έφυγε 3 Η Μια 1 ο Όταν Πάνω Πεζούλι 1,2 Σκύλος 2,3 Στο
34
Νέα ερώτηση με πολλές λέξεις: Γάτα Σκύλος Έκατσε Η μηχανή αναζήτησης:
Ένας φανταστικός Παγκόσμιος Ιστός που αποτελείται από 3 σελίδες με αριθμούς 1,2,3 1 Μια γάτα έκατσε στο πεζούλι 2 Ένας σκύλος είναι πάνω στο πεζούλι 3 Η γάτα έφυγε όταν έκατσε ο σκύλος Νέα ερώτηση με πολλές λέξεις: Γάτα Σκύλος Έκατσε Η μηχανή αναζήτησης: Ψάχνει κάθε λέξη ανεξάρτητα Γάτα: 1,3 Σκύλος: 2,3 Έκατσε: 1,3 Ελέγχει ποιοι αριθμοί υπάρχουν και στις 3 λίστες και τους επιστρέφει σαν απάντηση (εδώ: 3) Γάτα 1,3 Είναι 2 Έκατσε Ένας Έφυγε 3 Η Μια 1 ο Όταν Πάνω Πεζούλι 1,2 Σκύλος 2,3 Στο
35
Πρόβλημα… Τι γίνεται όταν η ερώτηση είναι «φράση» κι επομένως έχει σημασία η σειρά με την οποία εμφανίζονται οι λέξεις… (δεν αρκεί απλά να βρεθούν σκόρπιες οι λέξεις της ζητούμενης φράσης) Η φράση «έφυγε όταν» έχει διαφορετικό νόημα από τη φράση «όταν έφυγε»… Η ερώτηση έφυγε όταν ψάχνει σελίδες που περιέχουν και τις 2 λέξεις με οποιαδήποτε σειρά Η ερώτηση «έφυγε όταν» ψάχνει σελίδες που περιέχουν και τις 2 λέξεις με τη συγκεκριμένη σειρά (δηλ., ψάχνουν για σελίδες που περιέχουν τη λέξη έφυγε ακολουθούμενη από τη λέξη όταν)
36
Η μηχανή αναζήτησης πρέπει να απαντήσει: σελίδα 3
Ένας φανταστικός Παγκόσμιος Ιστός που αποτελείται από 3 σελίδες με αριθμούς 1,2,3 1 Μια γάτα έκατσε στο πεζούλι 2 Ένας σκύλος είναι πάνω στο πεζούλι 3 Η γάτα έφυγε όταν έκατσε ο σκύλος Ερώτηση: «έφυγε όταν» Η μηχανή αναζήτησης πρέπει να απαντήσει: σελίδα 3 ΑΛΛΑ ΠΩΣ θα το πετύχει αυτό; Αν ψάξει τις λέξεις της φράσης ανεξάρτητα θα βρει ότι η σελίδα 3 περιέχει και τις δύο λέξεις αλλά θα κολλήσει αφού δε θα μπορεί να αποφασίσει για τη σειρά εμφάνισης των λέξεων… ??? Η λεπτομερής «ανάγνωση» της σελίδας 3 είναι αναποδοτική λύση… Γάτα 1,3 Είναι 2 Έκατσε Ένας Έφυγε 3 Η Μια 1 ο Όταν Πάνω Πεζούλι 1,2 Σκύλος 2,3 Στο
37
Σύνοψη Δημιουργία ευρετηρίου (AltaVista, 1995)
Θέση της λέξης Λέξεις πληροφορίας Αλγόριθμος PageRank (Google, 1998): Υπερσύνδεσμοι Εγκυρότητα = πόσο δημοφιλής είναι μια ιστοσελίδα Τυχαίος περιηγητής (surfer)
38
Ιδέα: «θέση της λέξης» (word-location trick)
Το ευρετήριο δεν πρέπει να περιέχει μόνο αριθμούς σελίδων αλλά και θέσεις μέσα στις σελίδες που να υποδεικνύουν τη σειρά των λέξεων στις σελίδες…
39
Το Ευρετήριο με την ιδέα «θέση της λέξης»
Ένας φανταστικός Παγκόσμιος Ιστός που αποτελείται από 3 σελίδες με αριθμούς 1,2,3 1 Μια γάτα έκατσε στο πεζούλι 2 Ένας σκύλος είναι πάνω στο πεζούλι 3 Η γάτα έφυγε όταν έκατσε ο σκύλος Το Ευρετήριο με την ιδέα «θέση της λέξης» Γάτα 1-2,3-2 Είναι 2-3 Έκατσε 1-3,3-5 Ένας 2-1 Έφυγε 3-3 Η 3-1 Μια 1-1 ο 3-6 Όταν 3-4 Πάνω 2-4 Πεζούλι 1-5,2-6 Σκύλος 2-2,3-7 Στο 1-4,2-5
40
Το Ευρετήριο με την ιδέα «θέση της λέξης»
Ένας φανταστικός Παγκόσμιος Ιστός που αποτελείται από 3 σελίδες με αριθμούς 1,2,3 1 Μια γάτα έκατσε στο πεζούλι 2 Ένας σκύλος είναι πάνω στο πεζούλι 3 Η γάτα έφυγε όταν έκατσε ο σκύλος Το Ευρετήριο με την ιδέα «θέση της λέξης» Γάτα 1-2,3-2 Είναι 2-3 Έκατσε 1-3,3-5 Ένας 2-1 Έφυγε 3-3 Η 3-1 Μια 1-1 ο 3-6 Όταν 3-4 Πάνω 2-4 Πεζούλι 1-5,2-6 Σκύλος 2-2,3-7 Στο 1-4,2-5 Ερώτηση: «έφυγε όταν» Η μηχανή αναζήτησης: Ψάχνει κάθε λέξη ανεξάρτητα Έφυγε: 3-3 Όταν: 3-4 Για τις κοινές σελίδες στην παραπάνω λίστα, ελέγχει τις θέσεις των λέξεων
41
Ιδέα: «θέση της λέξης» (word-location trick)
Δεν είναι χρήσιμη μόνο για ερωτήσεις με τη μορφή φράσης αλλά και για την εύρεση «κοντινών» λέξεων… Τη δυνατότητα αυτή την πρόσφερε η μηχανή αναζήτησης AltaVista ΠΩΣ; Από το Ευρετήριο υπολογίζουμε την απόσταση λέξεων στην ίδια σελίδα…
42
Το Ευρετήριο με την ιδέα «θέση της λέξης»
Ένας φανταστικός Παγκόσμιος Ιστός που αποτελείται από 3 σελίδες με αριθμούς 1,2,3 1 Μια γάτα έκατσε στο πεζούλι 2 Ένας σκύλος είναι πάνω στο πεζούλι 3 Η γάτα έφυγε όταν έκατσε ο σκύλος Το Ευρετήριο με την ιδέα «θέση της λέξης» Γάτα 1-2,3-2 Είναι 2-3 Έκατσε 1-3,3-5 Ένας 2-1 Έφυγε 3-3 Η 3-1 Μια 1-1 ο 3-6 Όταν 3-4 Πάνω 2-4 Πεζούλι 1-5,2-6 Σκύλος 2-2,3-7 Στο 1-4,2-5 Ερώτηση: γάτα ΚΟΝΤΑ σκύλος Η μηχανή αναζήτησης: Ψάχνει κάθε λέξη ανεξάρτητα Γάτα: 1-2,3-2 Σκύλος: 2-2,3-7 Για τις κοινές σελίδες στην παραπάνω λίστα (δηλ., τη σελίδα 3) ελέγχει την απόσταση των λέξεων που είναι 7-2=5
43
Ερωτήσεις εγγύτητας Φαίνεται ότι οι ερωτήσεις εγγύτητας λέξεων τελικά δεν είναι σημαντικές για τους χρήστες των μηχανών αναζήτησης… ΑΛΛΑ ο τρόπος που τις χειρίζονται οι μηχανές αναζήτησης είναι εξαιρετικά κρίσιμος για την ύπαρξη τους… ΑΦΟΥ οι μηχανές αναζήτησης χρησιμοποιούν οι ίδιες πολύ συχνά ερωτήσεις εγγύτητας χωρίς καν να το αντιλαμβάνεται ο χρήστης… ΓΙΑΤΙ … Θα απαντήσουμε αφού μελετήσουμε ένα άλλο σημαντικό πρόβλημα για τις μηχανές αναζήτησης: το πρόβλημα της κατάταξης (ranking)
44
Κατάταξη και Εγγύτητα Κατάταξη: η μηχανή αναζήτησης επιλέγει λίγες κορυφαίες απαντήσεις και τις εμφανίζει στο χρήστη Από τι εξαρτάται η κατάταξη μιας ιστοσελίδας; Όχι από το αν η ιστοσελίδα περιέχει τη ζητούμενη ερώτηση, ΑΛΛΑ Από το αν η ιστοσελίδα είναι ΣΧΕΤΙΚΗ με τη ζητούμενη ερώτηση Σενάριο: ενδιαφερόμαστε για το ποια αιτία προκαλεί ελονοσία οπότε γράφουμε την ερώτηση αιτία ελονοσία π.χ., στο google Υποθέτοντας ότι επιστρέφονται μόνο δύο ιστοσελίδες, σε έναν άνθρωπο είναι σαφές ότι η σελίδα 1 είναι πράγματι σχετική με την ερώτηση ενώ η σελίδα 2 αναφέρεται σε κάτι άσχετο με την ερώτηση και απλά περιέχει τις λέξεις αιτία και ελονοσία Αυτό το συμπέρασμα δεν είναι προφανές για έναν υπολογιστή…
45
και άλλες γενεσιουργές αιτίες. 2
1 Η πιο συχνά εμφανιζόμενη αιτία που προκαλεί την ελονοσία είναι τσίμπημα από μολυσμένο κουνούπι, αλλά υπάρχουν και άλλες γενεσιουργές αιτίες. 2 Η αιτία που μας έφερε στο μέρος καθόλου δεν υποστηρίχθηκε λόγω της φυσικής αδυναμίας των στρατιωτών που έπασχαν από ελονοσία και άλλες τροπικές ασθένειες. … Αιτία 1-5, 2-2 Ελονοσία 1-9, 2-20
46
Κατάταξη και Εγγύτητα Ιστοσελίδες στις οποίες οι αναζητούμενες λέξεις μιας φράσης εμφανίζονται κοντά η μία στην άλλη είναι πιθανότερο να είναι πιο σχετικές με την ερώτηση από άλλες στις οποίες οι λέξεις της ζητούμενης φράσης έχουν μεγαλύτερη απόσταση μεταξύ τους
47
και άλλες γενεσιουργές αιτίες. 2
1 Η πιο συχνά εμφανιζόμενη αιτία που προκαλεί την ελονοσία είναι τσίμπημα από μολυσμένο κουνούπι, αλλά υπάρχουν και άλλες γενεσιουργές αιτίες. 2 Η αιτία που μας έφερε στο μέρος καθόλου δεν υποστηρίχθηκε λόγω της φυσικής αδυναμίας των στρατιωτών που έπασχαν από ελονοσία και άλλες τροπικές ασθένειες. Μηχανή αναζήτησης: Απόσταση λέξεων στη σελίδα 1: 4 Απόσταση λέξεων στη σελίδα 2: 18 Συμπέρασμα: η σελίδα 1 είναι πιο σχετική με την ερώτηση … Αιτία 1-5, 2-2 Ελονοσία 1-9, 2-20
48
Σύνοψη Δημιουργία ευρετηρίου (AltaVista, 1995)
Θέση της λέξης Λέξεις πληροφορίας Αλγόριθμος PageRank (Google, 1998): Υπερσύνδεσμοι Εγκυρότητα = πόσο δημοφιλής είναι μια ιστοσελίδα Τυχαίος περιηγητής (surfer)
49
Ιδέα: «λέξεις πληροφορίας» (The metaword trick)
τίτλος Γάτα Σκύλος Κατοικίδια 1 Μια γάτα έκατσε στο πεζούλι 2 Ένας σκύλος είναι πάνω στο πεζούλι 3 Η γάτα έφυγε όταν έκατσε ο σκύλος σώμα Μια έξυπνη τεχνική ταιριάσματος που απογείωσε την AltaVista στα τέλη της δεκαετίας του 90…
50
Ιδέα: «λέξεις πληροφορίας» (The metaword trick)
Οι ιστοσελίδες έχουν πολλά δομικά στοιχεία όπως τίτλους, επικεφαλίδες, συνδέσμους, εικόνες και μέχρι τώρα τις αντιμετωπίζαμε μόνο σαν ακολουθίες λέξεων Πώς οι μηχανές αναζήτησης εκμεταλλεύονται τη δομή των ιστοσελίδων; Υποθέτουμε ότι οι ιστοσελίδες έχουν μόνο έναν τίτλο που ακολουθείται από ένα σώμα
51
Ιδέα: «λέξεις πληροφορίας» (The metaword trick)
Οι ιστοσελίδες έχουν πολλά δομικά στοιχεία όπως τίτλους, επικεφαλίδες, συνδέσμους, εικόνες και μέχρι τώρα τις αντιμετωπίζαμε μόνο σαν ακολουθίες λέξεων Πώς οι μηχανές αναζήτησης εκμεταλλεύονται τη δομή των ιστοσελίδων; Υποθέτουμε ότι οι ιστοσελίδες έχουν μόνο έναν τίτλο που ακολουθείται από ένα σώμα Οι ιστοσελίδες γράφονται σε ειδική γλώσσα (η πιο συνήθης είναι η HTML) που επιτρέπει στους web browsers να τις εμφανίζουν όμορφα. Οι οδηγίες σχετικά με την εμφάνιση επικεφαλίδων, τίτλων, συνδέσμων, εικόνων, κτλ γράφονται με χρήση ειδικών λέξεων που καλούνται λέξεις πληροφορίας (metawords). Π.χ., η λέξη πληροφορίας που δηλώνει ότι ξεκινάει τίτλος μπορεί να είναι <τίτλοςΈναρξη>, η λέξη πληροφορίας που δηλώνει ότι τελειώνει τίτλος μπορεί να είναι <τίτλοςΛήξη>. Όμοια, το σώμα μιας ιστοσελίδας μπορεί να ξεκινάει με <σώμαΈναρξη> και να τελειώνει με <σώμαΛήξη>. Τα σύμβολα “<” και “>” χρησιμοποιούνται για να δηλώσουμε ότι κάποια λέξη είναι λέξη πληροφορίας και όχι κανονική λέξη μέσα στο κείμενο μιας ιστοσελίδας.
54
1 2 3 <τίτλοςΈναρξη>Γάτα <τίτλοςΛήξη><σώμαΈναρξη>
Μια γάτα έκατσε στο πεζούλι<σώμαΛήξη> 2 <τίτλοςΈναρξη>Σκύλος <τίτλοςΛήξη><σώμαΈναρξη> Ένας σκύλος είναι πάνω στο πεζούλι <σώμαΛήξη> 3 <τίτλοςΈναρξη>Κατοικίδια <τίτλοςΛήξη><σώμαΈναρξη> Η γάτα έφυγε όταν έκατσε ο σκύλος <σώμαΛήξη>
55
Ιδέα: «λέξεις πληροφορίας» (The metaword trick)
Στην προηγούμενη διαφάνεια φαίνεται πώς είναι γραμμένες οι ιστοσελίδες, όχι πώς θα εμφανίζονται σε έναν web browser Οι περισσότεροι browsers μας επιτρέπουν να δούμε πώς είναι γραμμένες οι ιστοσελίδες μέσω της επιλογής “view source”: οι λέξεις πληροφορίας (metawords) <τίτλοςΈναρξη> και <τίτλοςΛήξη> δεν είναι αυτές που χρησιμοποιούνται στην πράξη. Στην HTML, οι λέξεις πληροφορίας λέγονται ετικέτες (tags) και αυτές που χρησιμοποιούνται για έναρξη και λήξη τίτλων είναι οι <title> και </title> Μπορεί εύκολα να κατασκευαστεί ευρετήριο με όλες τις λέξεις πληροφορίας απλά αποθηκεύοντας τη θέση τους όπως γίνεται και για τις κανονικές λέξεις (δείτε σχήμα στην επόμενη διαφάνεια): αυτό είναι η ιδέα «λέξεις πληροφορίας» Μπορεί να φαίνεται εξαιρετικά απλό αλλά παίζει πολύ σημαντικό ρόλο για να μπορούν οι μηχανές αναζήτησης να πραγματοποιούν ακριβείς αναζητήσεις και κατατάξεις υψηλής ποιότητας
56
Ευρετήριο που περιέχει και λέξεις πληροφορίας (metawords)
1 <τίτλοςΈναρξη>Γάτα <τίτλοςΛήξη><σώμαΈναρξη> Μια γάτα έκατσε στο πεζούλι<σώμαΛήξη> γάτα είναι 2-7 έκατσε 2-5 ένας 3-7 έφυγε 3-5 η 1-5 μία 3-10 ο 3-8 όταν 2-8 πάνω πεζούλι 1-8 στο 2-9 <σώμαΈναρξη> <σώμαΛήξη> <τίτλοςΈναρξη> <τίτλοςΛήξη> 2 <τίτλοςΈναρξη>Σκύλος <τίτλοςΛήξη><σώμαΈναρξη> Ένας σκύλος είναι πάνω στο πεζούλι <σώμαΛήξη> 3 <τίτλοςΈναρξη>Κατοικίδια <τίτλοςΛήξη><σώμαΈναρξη> Η γάτα έφυγε όταν έκατσε ο σκύλος <σώμαΛήξη> Ευρετήριο που περιέχει και λέξεις πληροφορίας (metawords)
57
Ιδέα: «λέξεις πληροφορίας» (The metaword trick)
Υποθέστε ότι μια μηχανή αναζήτησης υποστηρίζει μια ειδική μορφή ερώτησης (query) με χρήση της λέξης-κλειδιού ΕΝΤΟΣ Η ερώτηση: γάτα ΕΝΤΟΣ ΤΙΤΛΟΥ επιστρέφει μόνο ιστοσελίδες που περιέχουν τη λέξη «γάτα» στο τίτλο τους Η ερώτηση: γάτα ΕΝΤΟΣ ΣΩΜΑΤΟΣ επιστρέφει μόνο ιστοσελίδες που περιέχουν τη λέξη «γάτα» στο κυρίως κείμενό τους Πολλές μηχανές αναζήτησης (όχι ακριβώς με τον παραπάνω απλοϊκό τρόπο) επιτρέπουν τέτοιου είδους αναζητήσεις μέσω της λειτουργίας «προχωρημένη αναζήτηση» (“advanced search”) όπου μπορούμε να ορίσουμε ότι η αναζητούμενη λέξη είναι σε τίτλο ή σε άλλο τμήμα του κειμένου π.χ., η μηχανή αναζήτησης Google επιτρέπει αναζήτηση σε τίτλους μέσω της λέξης κλειδί intitle: Αναζητώντας στην Google το intitle:πλοίο προσδιορίζονται ιστοσελίδες με τη λέξη «πλοίο» στον τίτλο τους…
58
Πώς απαντάει η μηχανή αναζήτησης την ερώτηση γάτα ΕΝΤΟΣ ΤΙΤΛΟΥ
1 <τίτλοςΈναρξη>Γάτα <τίτλοςΛήξη><σώμαΈναρξη> Μια γάτα έκατσε στο πεζούλι<σώμαΛήξη> γάτα είναι 2-7 έκατσε 2-5 ένας 3-7 έφυγε 3-5 η 1-5 μία 3-10 ο 3-8 όταν 2-8 πάνω πεζούλι 1-8 στο 2-9 <σώμαΈναρξη> <σώμαΛήξη> <τίτλοςΈναρξη> <τίτλοςΛήξη> 2 <τίτλοςΈναρξη>Σκύλος <τίτλοςΛήξη><σώμαΈναρξη> Ένας σκύλος είναι πάνω στο πεζούλι <σώμαΛήξη> 3 <τίτλοςΈναρξη>Κατοικίδια <τίτλοςΛήξη><σώμαΈναρξη> Η γάτα έφυγε όταν έκατσε ο σκύλος <σώμαΛήξη> Πώς απαντάει η μηχανή αναζήτησης την ερώτηση γάτα ΕΝΤΟΣ ΤΙΤΛΟΥ
59
Ιδέα: «λέξεις πληροφορίας» (The metaword trick)
…επιτρέπει στις μηχανές αναζήτησης να απαντούν με εξαιρετικά αποδοτικό τρόπο ερωτήσεις σχετικές με τη δομή ενός κειμένου …με παρόμοιο τρόπο με αυτό που ήδη περιγράψαμε, μπορεί να πραγματοποιηθεί πολύ αποδοτικά αναζήτηση σε υπερσυνδέσμους (hyperlinks), περιγραφές εικόνων καθώς και σε άλλα τμήματα ιστοσελίδων χωρίς να χρειαστεί να κάνει αναζήτηση στις αρχικές σελίδες κοιτώντας μόνο μια φορά ένα ευρετήριο με πολύ μικρό πλήθος περιεχομένων Αναζητήσεις σε τίτλους καθώς και άλλες δομικές αναζητήσεις που βασίζονται στη δομή των ιστοσελίδων μοιάζουν με τις ερωτήσεις εγγύτητας που συζητήσαμε ήδη με την έννοια ότι ένας άνθρωπος σπάνια πραγματοποιεί δομικές αναζητήσεις αλλά οι μηχανές αναζήτησης τις χρησιμοποιούν συνεχώς εσωτερικά για τον ίδιο λόγο όπως και πριν: η επιβίωση των μηχανών αναζήτησης εξαρτάται από τις κατατάξεις που πετυχαίνουν και οι κατατάξεις βελτιώνονται σημαντικά αν αξιοποιηθεί η δομή των ιστοσελίδων Π.χ., ιστοσελίδες με τη λέξη «γάτα» στον τίτλο τους είναι πολύ πιθανότερο να περιέχουν πληροφορίες για γάτες από ό,τι ιστοσελίδες που περιέχουν τη λέξη «γάτα» μόνο στο κυρίως μέρος τους: όταν ένας χρήστης θέτει την ερώτηση «γάτα», η μηχανή αναζήτησης μπορεί εσωτερικά να αναζητήσει τη λέξη «γάτα» ΕΝΤΟΣ ΤΙΤΛΟΥ ακόμα κι αν ο χρήστης δεν έκανε αυτή ακριβώς την ερώτηση για να βρει ιστοσελίδες που είναι πιθανότερο να αναφέρονται σε γάτες από το απλά να περιέχουν κάπου στο κυρίως μέρος τους τη λέξη «γάτα»
60
Έξυπνες ιδέες για δημιουργία ευρετηρίων (indexing) και ταίριασμα (matching) δεν είναι από μόνες τους αρκετές… Οι ιδέες «θέσεις λέξεων» και «λέξεων πληροφορίας» είναι σίγουρα ενδεικτικές για το πώς οι μηχανές αναζήτησης κατασκευάζουν και χρησιμοποιούν ευρετήρια, αλλά δεν είναι αρκετές από μόνες τους Οι «λέξεις πληροφορίας» πράγματι βοήθησαν την AltaVista να επιτύχει πραγματοποιώντας αποδοτικά ταιριάσματα στον Παγκόσμιο Ιστό αλλά η ιδέα δεν ήταν αρκετή για να την κρατήσει στην κορυφή η ιδέα με τις λέξεις πληροφορίας περιγράφθηκε το 1999 σε πατέντα της AltaVista με τίτλο “Αναζήτηση με περιορισμούς σε Ευρετήριο” (“Constrained Searching of an Index”) Είναι πλέον γνωστό ότι το αποδοτικό ταίριασμα βοηθάει μόνο κατά το ήμισυ στη δημιουργία μιας αποδοτικής μηχανής αναζήτησης: το άλλο μισό είναι η πρόκληση της κατάταξης των ιστοσελίδων που ταίριαξαν στην ερώτηση… Η σύλληψη ενός νέου αλγορίθμου κατάταξης ήταν αυτή που έβγαλε από το προσκήνιο την AltaVista και απογείωσε τη Google…
61
…επιστρέφουμε στη λειτουργία κατάταξης και παρουσιάζουμε το φημισμένο αλγόριθμο PageRank της Google…
62
Σύνοψη Δημιουργία ευρετηρίου (AltaVista, 1995)
Θέση της λέξης Λέξεις πληροφορίας Αλγόριθμος PageRank (Google, 1998): Υπερσύνδεσμοι Εγκυρότητα = πόσο δημοφιλής είναι μια ιστοσελίδα Τυχαίος περιηγητής (surfer)
63
PageRank: Η τεχνολογία που εκτόξευσε τη Google
Στη Silicon Valley, οι κλειστοί ιδιωτικοί χώροι στάθμευσης αυτοκινήτων (garages) έχουν αποτελέσει την αφετηρία για μεγάλες εταιρείες όπως: το 1939, η Hewlett-Packard ξεκίνησε στο garage του Dave Hewlett στο Palo Alto της California το 1976, οι Steve Jobs και Steve Wozniak ξεκίνησαν την εταιρεία Apple στο πάρκινγκ του Jobs στο Los Altos της California (είχαν στην πραγματικότητα ξεκινήσει από το υπνοδωμάτιο και λόγω έλλειψης χώρου μετέβησαν στο πάρκινγκ) Με παρόμοιο τρόπο ξεκίνησε μια μηχανή αναζήτησης - η πασίγνωστη πλέον Google – σε ένα χώρο στάθμευσης στο Menlo Park της California Έγινε εταιρεία το Σεπτέμβριο του 1998, ενώ για έναν περίπου χρόνο λειτουργούσε μέσω των εξυπηρετητών του Πανεπιστημίου Stanford όπου οι δύο συνιδρυτές της ήταν υποψήφιοι Διδάκτορες… Η μηχανή αναζήτησης γινόταν ολοένα και πιο δημοφιλής, το διαθέσιμο εύρος ζώνης του πανεπιστημίου δεν ήταν αρκετό και οι δύο μεταπτυχιακοί φοιτητές Larry Page και Sergey Brin μετέφεραν το σύστημά τους στο πλέον φημισμένο χώρο στάθμευσης στο Menlo Park Μόνο 3 μήνες από τη σύστασή της σαν εταιρεία, το περιοδικό PC Magazine ανέφερε τη Google σαν ένα από τα 100 δημοφιλέστερα websites του
64
PageRank: Η τεχνολογία που εκτόξευσε τη Google
Σύμφωνα με το PC Magazine, η τρομερή επιτυχία της Google οφειλόταν στο ότι επέστρεφε αποτελέσματα εξαιρετικά σχετικά με την εκάστοτε ερώτηση… Πώς ξεπέρασε η Google την αναποτελεσματικότητα 4 ολόκληρων ετών και εκτόπισε ήδη δημοφιλείς (ως προς την ποιότητα των αποτελεσμάτων) μηχανές αναζήτησης όπως οι Lycos και AltaVista;;; Αν και η απάντηση δεν είναι απλή, σίγουρα ένας καθοριστικός παράγοντας ήταν ένας νέος αλγόριθμος, ο PageRank, που χρησιμοποίησε η Google για κατάταξη των αποτελεσμάτων αναζήτησης Το όνομα “PageRank” είναι ένα λογοπαίγνιο: είναι ένας αλγόριθμος κατάταξης ιστοσελίδων αλλά και αλγόριθμος κατάταξης του Larry Page που τον εμπνεύστηκε Οι Page και Brin δημοσίευσαν τον αλγόριθμο το 1998 σε εργασία με τίτλο «Η ανατομία μιας μεγάλης κλίμακας μηχανής αναζήτησης υπερκειμένου στον παγκόσμιο ιστό» (“The Anatomy of a Large-scale Hypertextual Web Search Engine”) που περιέχει μια πλήρη περιγραφή του συστήματος Google στη μορφή που είχε το 1998 και του αλγορίθμου PageRank
65
Σύνοψη Δημιουργία ευρετηρίου (AltaVista, 1995)
Θέση της λέξης Λέξεις πληροφορίας Αλγόριθμος PageRank (Google, 1998): Υπερσύνδεσμοι Εγκυρότητα = πόσο δημοφιλής είναι μια ιστοσελίδα Τυχαίος περιηγητής (surfer)
66
Η ιδέα των υπερσυνδέσμων (The hyperlink trick)
Τι είναι υπερσύνδεσμος (hyperlink): είναι φράση σε μια ιστοσελίδα που όταν πατήσουμε πάνω της μάς μεταφέρει σε μια άλλη ιστοσελίδα (οι περισσότεροι web browsers εμφανίζουν τους υπερσυνδέσμους με μπλε χρώμα για να ξεχωρίζουν εύκολα) Οι υπερσύνδεσμοι είναι εκπληκτικά παλιά ιδέα… Το 1945 — όταν άρχισαν να αναπτύσσονται και οι ίδιοι οι Η/Υ— ο αμερικανός μηχανικός Vannevar Bush δημοσίευσε μια διορατική μελέτη με τίτλο “As We May Think” στην οποία περιέλαβε διάφορες νέες τεχνολογίες μεταξύ των οποίων και μια μηχανή που αποκάλεσε memex, η οποία θα αποθήκευε έγγραφα και αυτόματα θα δημιουργούσε σχετικό ευρετήριο (μεταξύ άλλων λειτουργιών) θα επέτρεπε τη «δημιουργία σχεσιακών ευρετηρίων …όπου κάθε αντικείμενο θα μπορεί να χρησιμοποιηθεί για την άμεση και αυτόματη επιλογή ενός άλλου» – περιέγραψε με άλλα λόγια μια στοιχειώδη μορφή υπερσυνδέσμου (hyperlink)!
67
Η ουσία της ιδέας των υπερσυνδέσμων
Η ουσία της ιδέας των υπερσυνδέσμων. Φαίνονται 6 ιστοσελίδες, μία σε κάθε παραλληλόγραμμο. 2 από τις ιστοσελίδες είναι συνταγές για στραπατσάδα, ενώ οι 4 άλλες περιέχουν υπερσυνδέσμους σε αυτές τις συνταγές. Με βάση την ιδέα των υπερσυνδέσμων, η σελίδα του Bert κατατάσσεται πάνω από αυτή του Ernie, γιατί η σελίδα του Bert έχει 3 εισερχόμενα βέλη ενώ του Ernie μόνο 1...
68
Η ιδέα των υπερσυνδέσμων (The hyperlink trick)
Ενδιαφερόμαστε να βρούμε συνταγές για στραπατσάδα και πραγματοποιούμε μια αναζήτηση στο web Υποθέτουμε ότι η αναζήτηση επιστρέφει μόνο τις εξής 2 ιστοσελίδες (στην πραγματικότητα θα επέστρεφε εκατομμύρια αποτελέσματα): “Ernie's scrambled egg recipe” “Bert's scrambled egg recipe” Υποθέτουμε ότι υπάρχουν μόνο 4 άλλες ιστοσελίδες που παραπέμπουν μέσω υπερσυνδέσμων σε αυτές Ερώτηση: ποια από τις 2 ιστοσελίδες πρέπει να καταταχθεί πρώτη, του Bert ή του Ernie; Ένας άνθρωπος θα διάβαζε τις σελίδες που αναφέρονται στις δύο συνταγές και θα αποφάσιζε ποια από τις 2 είναι η δημοφιλέστερη… φαίνεται ότι και οι 2 συνταγές είναι λογικές αλλά ο κόσμος προτιμάει αυτή του Bert κι επομένως, ελλείψει άλλης πληροφορίας, θα έπρεπε η ιστοσελίδα του Bert να καταταχθεί παραπάνω από του Ernie…
69
Η ιδέα των υπερσυνδέσμων (The hyperlink trick)
Μια τέτοια είδους «κατανόηση» δεν είναι εφικτή για έναν υπολογιστή… Όμως οι υπολογιστές είναι πολύ καλοί στο να μετράνε αντικείμενα… Οπότε, μια καλή προσέγγιση θα ήταν να μετρήσει ο υπολογιστής των πλήθος των ιστοσελίδων (υπερσυνδέσμων) που δείχνουν σε κάθε μία από τις συνταγές—που είναι 1 για τη συνταγή του Ernie και 3 για τη συνταγή του Bert—και να κατατάξει τις συνταγές με βάση τους εισερχόμενους υπερυνδέσμους τους Αποδεικνύεται ότι, ελλείψει άλλης πληροφορίας, το πλήθος των εισερχόμενων υπερσυνδέσμων σε μια ιστοσελίδα είναι άκρως ενδεικτικό για το πόσο χρήσιμη ή «έγκυρη» μπορεί να είναι η ιστοσελίδα Μια πιθανή αδυναμία της προσέγγισης αυτής θα μπορούσε να είναι το ότι μερικές φορές χρησιμοποιούνται σύνδεσμοι για να υποδείξουν κακές σελίδες κι όχι καλές: π.χ., κάποια από τις ιστοσελίδες που δείχνει στη συνταγή του Ernie μπορεί να λέει: “Δοκίμασα τη συνταγή και είναι απαίσια” και αυτό μπορεί να είναι παραπλανητικό όταν η κατάταξη βασίζεται σε απλή καταμέτρηση… Φαίνεται όμως ότι στην πράξη οι υπερσύνδεσμοι λειτουργούν περισσότερο σα συστάσεις παρά σαν κατακρίσεις
70
Σύνοψη Δημιουργία ευρετηρίου (AltaVista, 1995)
Θέση της λέξης Λέξεις πληροφορίας Αλγόριθμος PageRank (Google, 1998): Υπερσύνδεσμοι Εγκυρότητα = πόσο δημοφιλής είναι μια ιστοσελίδα Τυχαίος περιηγητής (surfer)
71
Η ιδέα της εγκυρότητας (The authority trick)
Παρατήρηση: όλοι οι εισερχόμενοι υπερσύνδεσμοι ίσως να μην πρέπει να έχουν την ίδια βαρύτητα μιας και η σύσταση από έναν «ειδικό» μετράει σίγουρα περισσότερο από την αντίστοιχη από έναν αρχάριο… Υποθέτουμε ότι οι συνταγές των Bert και Ernie έχουν τον ίδιο αριθμό εισερχόμενων υπερσυνδέσμων (1 η κάθε μία) αλλά, η παραπομπή στη συνταγή του Ernie είναι από την προσωπική ιστοσελίδα ενός χρήστη ενώ η παραπομπή στη συνταγή του Bert είναι από την ιστοσελίδα της φημισμένης chef Alice Waters Αν δεν είχαμε άλλη πληροφορία, ποια συνταγή θα επιλέγαμε; Προφανώς, αυτή που προτείνει μία φημισμένη chef κι όχι αυτή που προτείνει ένας τυχαίος (άσχετος ενδεχομένως) χρήστης… Αυτό αποτελεί τη βασική αρχή της ιδέας της εγκυρότητας:
72
Η ιδέα της εγκυρότητας (The authority trick)
Σύνδεσμοι από σελίδες με υψηλή εγκυρότητα θα πρέπει να οδηγούν σε υψηλότερη κατάταξη σε σύγκριση με συνδέσμους από σελίδες με χαμηλή εγκυρότητα Φυσικά, η αρχή, στην τρέχουσα μορφή της, είναι άχρηστη σε έναν υπολογιστή… Πώς μπορεί ένας υπολογιστής αυτόματα να καθορίσει ότι π.χ., η Alice Waters έχει εγκυρότερη άποψη για μία συνταγή από κάποιον τυχαίο χρήστη; ΙΔΕΑ: να συνδυάσουμε την ιδέα των υπερσυνδέσμων με αυτήν της εγκυρότητας Σε όλες τις σελίδες ανατίθεται αρχικά τιμή εγκυρότητας 1 Αν κάποια σελίδα διαθέτει εισερχόμενους συνδέσμους, η τιμή εγκυρότητά της υπολογίζεται με άθροιση των τιμών εγκυρότητας όλων των σελίδων που δείχνουν σε αυτή Δηλ., αν οι σελίδες X και Y δείχνουν στη σελίδα Z, τότε η τιμή εγκυρότητας της σελίδας Z είναι το άθροισμα των τιμών εγκυρότητας των σελίδων X και Y
74
Απλός υπολογισμός των τιμών εγκυρότητας
(που φαίνονται σε κύκλους) για τις δύο συνταγές
75
Πρόβλημα: δημιουργία κύκλων
Στον τρόπο που περιγράψαμε για τον αυτόματο υπολογισμό των τιμών εγκυρότητας, υπάρχει η εξής εγγενής αδυναμία: είναι πιθανόν οι υπερσύνδεσμοι να δημιουργήσουν “κύκλο” Σχηματίζεται κύκλος αν μπορούμε να επιστρέψουμε στη σελίδα από την οποία ξεκινήσαμε χρησιμοποιώντας υπερσυνδέσμους (σχήμα στην επόμενη διαφάνεια) Στον τρέχοντα ορισμό της τιμής εγκυρότητας (με βάση συνδυασμό των τεχνασμάτων των υπερσυνδέσμων και της εγκυρότητας) υπάρχει πρόβλημα όποτε δημιουργείται κύκλος Π.χ., Οι σελίδες C και D δεν έχουν εισερχόμενες ακμές, κατά συνέπεια λαμβάνουν τιμή εγκυρότητας 1. Οι C και D δείχνουν και οι δύο στην A, οπότε η σελίδα A λαμβάνει τιμή εγκυρότητας ίση με το άθροισμα των τιμών του C και D, δηλ., = 2. Τότε η σελίδα B λαμβάνει τιμή εγκυρότητας 2 από την A, και η E λαμβάνει τιμή 2 από την B. Όμως τώρα η A είναι μη ενημερωμένη: λαμβάνει τιμή 1 από C και D, κι επίσης 2 από E, οπότε συνολικά έχει τιμή εγκυρότητας 4. Αλλά τώρα και η B είναι μη ενημερωμένη: λαμβάνει τιμή 4 από την A. Αλλά τότε και η E χρειάζεται ενημέρωση, αφού λαμβάνει 4 μονάδες από τη B Κτλ, οπότε: οι τιμές εγκυρότητας είναι για την A 6, για τη B 6, για την E 6, οπότε για την A είναι 8,…. Βλέπετε; Θα συνεχίζουμε ες αεί με τιμές εγκυρότητας που πάντα θα αυξάνονται καθώς διατρέχουμε τον κύκλο…
76
Παράδειγμα στο οποίο οι σύνδεσμοι σχηματίζουν κύκλο
Παράδειγμα στο οποίο οι σύνδεσμοι σχηματίζουν κύκλο. Οι σελίδες Α, Β και Ε δημιουργούν κύκλο αφού μπορούμε να ξεκινήσουμε στη σελίδα Α, να μεταβούμε στη Β, μετά στην Ε και μετά να επιστρέψουμε στην αφετηρία, δηλ., στη σελίδα Α…
77
Παράδειγμα στο οποίο οι σύνδεσμοι σχηματίζουν κύκλο
Παράδειγμα στο οποίο οι σύνδεσμοι σχηματίζουν κύκλο. Οι σελίδες Α, Β και Ε δημιουργούν κύκλο αφού μπορούμε να ξεκινήσουμε στη σελίδα Α, να μεταβούμε στη Β, μετά στην Ε και μετά να επιστρέψουμε στην αφετηρία, δηλ., στη σελίδα Α…
78
Υπολογισμός τιμών εγκυρότητας: Το πρόβλημα που προκαλούν οι κύκλοι είναι
ότι οι σελίδες A, B, και E είναι πάντα μη ενημερωμένες και τα αποτελέσματά τους αυξάνονται συνεχώς…
79
Σύνοψη Δημιουργία ευρετηρίου (AltaVista, 1995)
Θέση της λέξης Λέξεις πληροφορίας Αλγόριθμος PageRank (Google, 1998): Υπερσύνδεσμοι Εγκυρότητα = πόσο δημοφιλής είναι μια ιστοσελίδα Τυχαίος περιηγητής (surfer)
80
Η ιδέα του τυχαίου περιηγητή (The random surfer trick)
Αυτός ο υπολογισμός τιμών εγκυρότητας δημιουργεί πρόβλημα της μορφής «η κότα έκανε το αυγό ή το αυγό την κότα;»: Αν γνωρίζαμε την αληθινή τιμή εγκυρότητας για τη σελίδα A, θα μπορούσαμε να υπολογίσουμε τις τιμές εγκυρότητας για τις σελίδες B και E Αν γνωρίζαμε τις αληθινές τιμές εγκυρότητας για τις σελίδες B και E, θα μπορούσαμε να υπολογίσουμε την τιμή εγκυρότητας για τη σελίδα A Αλλά επειδή ο κάθε υπολογισμός εξαρτάται από τον άλλον, φαίνεται να μην είναι δυνατός ο υπολογισμός των συγκεκριμένων τιμών Το πρόβλημα λύνεται με μία τεχνική που καλείται «ιδέα του τυχαίου περιηγητή (surfer)» Προσοχή: η αρχική περιγραφή της ιδέας του τυχαίου περιηγητή δεν μοιάζει καθόλου με τις ιδέες των υπερσυνδέσμων και της εγκυρότητας Αφού περιγράψαμε το βασικό μηχανισμό της ιδέας του τυχαίου περιηγητή, θα προχωρήσουμε σε ανάλυση που θα αποκαλύψει σημαντικές ιδιότητές της Συνδυάζει τα επιθυμητά χαρακτηριστικά των ιδεών των υπερσυνδέσμων και της εγκυρότητας και, επιπλέον, δουλεύει ακόμα και όταν σχηματίζονται κύκλοι στην επιλογή των υπερσυνδέσμων
81
Η ιδέα του τυχαίου περιηγητή (The random surfer trick)
Φανταζόμαστε ένα άτομο που τυχαία περιηγείται στο internet, ξεκινώντας από κάποια ιστοσελίδα τυχαία επιλεγμένη από τον παγκόσμιο ιστό Ο περιηγητής εξετάζει όλους τους συνδέσμους της ιστοσελίδας, επιλέγει ένας από αυτούς τυχαία και τον ακολουθεί (πατάει click). Η νέα ιστοσελίδα εξετάζεται και ένας από τους συνδέσμους της επιλέγεται τυχαία Η διαδικασία αυτή συνεχίζεται, κάθε νέα ιστοσελίδα επιλέγεται τυχαία με επιλογή ενός συνδέσμου από την προηγούμενη σελίδα Οι ιστοσελίδες που έχει επισκεφτεί ο περιηγητής είναι οι σκούρες, οι σύνδεσμοι που ακολούθησε ο περιηγητής είναι μαύροι και τα διακεκομμένα βέλη δηλώνουν τυχαίες επανεκκινήσεις
82
Η ιδέα του τυχαίου περιηγητή (The random surfer trick)
Περιπλοκή: κάθε φορά που μια σελίδα δέχεται επίσκεψη, υπάρχει προκαθορισμένη πιθανότητα επανεκκίνησης (έστω, 15%) με την οποία ο περιηγητής δεν επιλέγει κάποιο διαθέσιμο σύνδεσμο αλλά ξαναξεκινάει τη διαδικασία διαλέγοντας τυχαία μια άλλη σελίδα από το web Φανταστείτε ότι ο περιηγητής έχει πιθανότητα 15% να βαρεθεί σε κάποια σελίδα και να ακολουθήσει μια νέα ακολουθία συνδέσμων Σχήμα: Ο περιηγητής ξεκίνησε στη σελίδα A και ακολούθησε 3 τυχαίους συνδέσμους πριν βαρεθεί από τη σελίδα B και ξαναξεκινήσει στη σελίδα C. Ακολούθησε τότε 2 ακόμα τυχαίους συνδέσμους πριν ξαναξεκινήσει σε άλλη σελίδα… Η πιθανότητα επανεκκίνησης 15% που χρησιμοποιούμε εδώ για παράδειγμα είναι ακριβώς αυτή που χρησιμοποίησαν οι συνιδρυτές της Google, Page και Brin, στην αρχική τους εργασία που περιέγραφαν τη μηχανή αναζήτησης που είχαν αναπτύξει…
83
Φανταζόμαστε ότι ο παγκόσμιος ιστός αποτελείται από 16 ιστοσελίδες.
Οι ιστοσελίδες είναι τα κουτιά και τα βέλη σημαίνουν συνδέσμους μεταξύ ιστοσελίδων. Το μοντέλο του τυχαίου περιηγητή (surfer): οι σελίδες που επισκέπτεται ο περιηγητής είναι οι σκούρες και οι διακεκομμένες γραμμές δείχνουν τυχαίες επανεκκινήσεις. Το ίχνος ξεκινάει στην ιστοσελίδα Α και ακολουθεί τυχαία επιλεγμένους συνδέσμους ενώ διακόπτεται από δύο τυχαίες επανεκκινήσεις.
84
Η ιδέα του τυχαίου περιηγητή (The random surfer trick)
Είναι εύκολο να εκτελέσουμε πείραμα στον υπολογιστή για επισκέψεις του περιηγητή σε 1000 ιστοσελίδες (μετράμε και πολλαπλές επισκέψεις στην ίδια ιστοσελίδα) Τα αποτελέσματα φαίνονται στην επόμενη διαφάνεια (πάνω μέρος): Η σελίδα D δέχτηκε συχνότερα επισκέψεις (συγκεκριμένα 144) Η βελτίωση της ακρίβειας των αποτελεσμάτων του πειράματος μπορεί να γίνει – όπως και στις δημοσκοπήσεις – με αύξηση του αριθμού των τυχαίων δειγμάτων (αύξηση του αριθμού των σελίδων που επισκέφθηκε ο περιηγητής) Εκτελούμε νέο πείραμα υποθέτοντας ότι ο περιηγητής επισκέφθηκε σελίδες (η εκτέλεση απαιτεί λιγότερο από μισό δευτερόλεπτο σε κοινό υπολογιστή) και τώρα παρουσιάζουμε τα αποτελέσματα (στο κάτω μέρος της επόμενης διαφάνειας) με τη μορφή ποσοστού (λόγω του μεγάλου αριθμού επισκέψεων) Ξανά, η σελίδα D δέχθηκε συχνότερα επισκέψεις (συγκεκριμένα, προσέλκυσε το 15% των επισκέψεων του περιηγητή)…
85
Πειράματα με χρήση του τυχαίου περιηγητή.
Πάνω: Αριθμός επισκέψεων σε κάθε ιστοσελίδα σε πείραμα με 1000 επισκέψεις Κάτω: Ποσοστό επισκέψεων σε κάθε ιστοσελίδα σε πείραμα με επισκέψεις
86
Τυχαίος περιηγητής και εγκυρότητα
Ποια είναι η σχέση μεταξύ της ιδέας του τυχαίου περιηγητή και της ιδέας της εγκυρότητας που χρησιμοποιούνται για την κατάταξη ιστοσελίδων-απαντήσεων σε κάποια αναζήτηση; Τα αποτελέσματα που υπολογίζονται από τα πειράματα με τον τυχαίο περιηγητή είναι ακριβώς αυτό που χρειαζόμαστε για να μετρήσουμε την εγκυρότητα των σελίδων Ορίζουμε επομένως την τιμή εγκυρότητας περιηγητή για μια σελίδα ως το ποσοστό του χρόνου που πέρασε ο περιηγητής επισκεπτόμενος τη συγκεκριμένη σελίδα Η τιμή εγκυρότητας περιηγητή ενσωματώνει και τις δύο ιδέες για κατάταξη των ιστοσελίδων με βάση το πόσο σημαντικές είναι… Ιδέα με υπερσυνδέσμους: μια σελίδα με πολλούς εισερχόμενους συνδέσμους πρέπει να καταταχθεί ψηλότερα, κάτι που ισχύει για το μοντέλο του τυχαίου περιηγητή, αφού μια σελίδα με πολλούς εισερχόμενους συνδέσμους έχει μεγάλη πιθανότητα να δεχθεί επίσκεψη Σελίδα D στο κάτω μέρος της επόμενης διαφάνειας: έχει 5 εισερχόμενους συνδέσμους παραπάνω από κάθε άλλη σελίδα στο πείραμα και τελικά λαμβάνει την υψηλότερη τιμή εγκυρότητας περιηγητή (15%) Ιδέα με εγκυρότητα: εισερχόμενος σύνδεσμος από σελίδα με υψηλή εγκυρότητα βελτιώνει την κατάταξη της σελίδας περισσότερο από κάποιον σύνδεσμο από σελίδα με μικρότερη εγκυρότητα, κάτι που λαμβάνει υπόψη και το μοντέλο του τυχαίου περιηγητή. ΓΙΑΤΙ; Εισερχόμενος σύνδεσμος από δημοφιλή σελίδα είναι πιθανότερο να ακολουθηθεί από ό,τι κάποιος από μη δημοφιλή σελίδα Στο παράδειγμα, συγκρίνετε τις σελίδες A και C στο κάτω μέρος: κάθε μία έχει έναν μόνο εισερχόμενο σύνδεσμο, αλλά η σελίδα A έχει πολύ υψηλότερη τιμή εγκυρότητας περιηγητή (13% έναντι 2%) λόγω της ποιότητας του εισερχόμενου συνδέσμου
87
Πειράματα με χρήση του τυχαίου περιηγητή.
Πάνω: Αριθμός επισκέψεων σε κάθε ιστοσελίδα σε πείραμα με 1000 επισκέψεις Κάτω: Ποσοστό επισκέψεων σε κάθε ιστοσελίδα σε πείραμα με επισκέψεις
88
Η ιδέα του τυχαίου περιηγητή (The random surfer trick)
Δείτε τη σελίδα B: λαμβάνει το σχετικά υψηλό της αποτέλεσμα (10%) λόγω των 3 εισερχόμενων συνδέσμων από σελίδες με μέτρια αποτελέσματα που κυμαίνονται μεταξύ του 4% και 7% Η ομορφιά της ιδέας του τυχαίου περιηγητή είναι ότι, αντίθετα με την ιδέα της εγκυρότητας, δουλεύει άψογα ανεξάρτητα από την ύπαρξη κύκλων στους συνδέσμους Εκτελούμε ένα πείραμα για εκατομμύρια επισκέψεις του τυχαίου περιηγητή για την ερώτηση περί συνταγής για στραπατσάδα Τα αποτελέσματα φαίνονται στην επόμενη διαφάνεια. Όπως και με χρήση της ιδέας της εγκυρότητας, η σελίδα του Bert λαμβάνει μεγαλύτερο αποτέλεσμα από αυτήν του Ernie (28% έναντι 1%, αντίστοιχα) παρά το ότι έχουν και οι δύο από έναν εισερχόμενο σύνδεσμο Επομένως, η σελίδα του Bert θα καταταχθεί ψηλότερα σε μια αναζήτηση για “στραπατσάδα” Τι συμβαίνει όταν υπάρχουν κύκλοι στους συνδέσμους; Εκτελούμε ένα πείραμα με τυχαίους περιηγητές που δίνει τα αποτελέσματα της επόμενης διαφάνειας τα οποία δείχνουν την τελική σειρά κατάταξης που θα επέστρεφε μία μηχανή αναζήτησης: η σελίδα A είναι ψηλότερα, ακολουθεί η B, η E, η C και η D μένει τελευταία...
89
Αποτελέσματα εγκυρότητας περιηγητή για την ιστοσελίδα με τη στραπατσάδα.
Και ο Bert και ο Ernie έχουν από ακριβώς έναν εισερχόμενο σύνδεσμο που δίνει εγκυρότητα στην ιστοσελίδα τους, αλλά η σελίδα του Bert θα καταταχθεί ψηλότερα σε μια αναζήτηση για “στραπατσάδα”…
90
Αποτελέσματα εγκυρότητας περιηγητή για το προηγούμενο παράδειγμα με κύκλο
στους συνδέσμους. Η ιδέα με τον τυχαίο περιηγητή μπορεί να υπολογίσει κατάλληλα αποτελέσματα παρά την ύπαρξη κύκλου (ABEA)…
91
Ο αλγόριθμος PAGERANK στην πράξη…
Η ιδέα του τυχαίου περιηγητή περιγράφθηκε από τους συνιδρυτές της Google στη πασίγνωστη πλέον εργασία που δημοσιεύθηκε το 1998 με τίτλο: “The Anatomy of a Large-scale Hypertextual Web Search Engine” Σε συνδυασμό με άλλες τεχνικές, παραλλαγές αυτής της ιδέας χρησιμοποιούνται ακόμα από τις σημαντικότερες μηχανές αναζήτησης
92
Ο αλγόριθμος PAGERANK στην πράξη…
Όμως, υπάρχουν διάφοροι παράγοντες που προκαλούν επιπλοκές, οπότε οι τεχνικές που χρησιμοποιούν οι σύγχρονες μηχανές αναζήτησης διαφέρουν κάπως από την ιδέα του τυχαίου περιηγητή που περιγράψαμε Ένας τέτοιος παράγοντας αγγίζει την καρδιά του PageRank: η υπόθεση ότι οι υπερσύνδεσμοι έχουν εγκυρότητα είναι αμφισβητήσιμη, αλλά αυτό (έστω κι αν οι σύνδεσμοι μπορεί να αντιπροσωπεύουν κριτική κι όχι σύσταση) στην πράξη δεν είναι σημαντικό πρόβλημα Ένα σημαντικότερο πρόβλημα είναι ότι άτομα μπορούν να παραποιήσουν την ιδέα των υπερσυνδέσμων για να επηρεάσουν τεχνητά την κατάταξη των δικών τους σελίδων Υποθέστε ότι έχετε ένα website που λέγεται BooksBooksBooks.com για πώληση βιβλίων Αυτόματα, είναι σχετικά εύκολο να δημιουργήσει κανείς έναν μεγάλο αριθμό (π.χ., 10,000) διαφορετικών σελίδων με συνδέσμους προς το BooksBooksBooks.com. Επομένως αν οι μηχανές αναζήτησης υπολόγιζαν τις τιμές που χρησιμοποιεί ο αλγόριθμος PageRank όπως ακριβώς περιγράψαμε εδώ, το BooksBooksBooks.com θα μπορούσε – χωρίς να το αξίζει – να λάβει αποτελέσματα πολύ υψηλότερα από τα άλλα δύο ηλεκτρονικά βιβλιοπωλεία, και συνεπώς υψηλότερη κατάταξη και περισσότερες πωλήσεις... Οι μηχανές αναζήτησης καλούν αυτού του είδους την κακόβουλη συμπεριφορά web spam (η ορολογία προέρχεται σε αναλογία με το spam: ανεπιθύμητα μηνύματα στα Εισερχόμενα μας είναι ίδια με ανεπιθύμητες ιστοσελίδες που ανακατεύουν τα αποτελέσματα μιας αναζήτησης στο web) Η ανίχνευση και εξουδετέρωση διάφορων τύπων web spam αποτελούν πολύ σημαντικές εργασίες για όλες τις μηχανές αναζήτησης
93
Ο αλγόριθμος PAGERANK στην πράξη…
Για παράδειγμα, το 2004, ερευνητές στη Microsoft βρήκαν πάνω από 300,000 websites να έχουν ακριβώς 1001 σελίδες που να δείχνουν σε αυτά και λογικά το θεώρησαν πολύ περίεργο… Έψαξαν αυτά τα websites λεπτομερώς και διαπίστωσαν ότι η πλειοψηφία των αυτών των εισερχόμενων συνδέσμων ήταν web spam.. Οι μηχανές αναζήτησης κάνουν μεγάλο αγώνα κατά των spammers και συνεχώς προσπαθούν να βελτιώσουν τους αλγορίθμους τους προκειμένου να επιστρέφουν ρεαλιστικές κατατάξεις Η συνεχής προσπάθεια βελτίωσης του αλγορίθμου PageRank έχει προκαλέσει εντατική ακαδημαϊκή και βιομηχανική έρευνα σχετικά με αλγόριθμους που χρησιμοποιούν τη δομή των υπερσυνδέσμων του web για να κατατάσσουν σελίδες (αλγόριθμοι κατάταξης που βασίζονται σε συνδέσμους - link-based ranking algs) Ένας άλλος ανασταλτικός παράγοντας σχετίζεται με την αποδοτικότητα των υπολογισμών του PageRank: Οι τιμές με βάση τον περιηγητή υπολογίζονται βάσει εξομοιώσεων, αλλά η εκτέλεση μιας εξομοίωσης για όλο το web θα διαρκούσε απαγορευτικά πολύ… Επομένως, οι μηχανές αναζήτησης δεν υπολογίζουν τις τιμές του PageRank μέσω εξομοιώσεων τυχαίων περιηγητών: χρησιμοποιούν μαθηματικές τεχνικές που δίνουν τις ίδιες απαντήσεις με τις εξομοιώσεις, αλλά με σημαντικά μικρότερο υπολογιστικό κόστος… Εμείς αναφερθήκαμε σε εξομοιώσεις για να περιγράψουμε έξυπνες ιδέες και τι ακριβώς υπολογίζουν οι μηχανές αναζήτησης, όχι πώς το υπολογίζουν…
94
Ο αλγόριθμος PAGERANK στην πράξη…
Οι εμπορικές μηχανές αναζήτησης καθορίζουν τις κατατάξεις τους χρησιμοποιώντας πολύ περισσότερα από έναν αλγόριθμο κατάταξης βασισμένο στους συνδέσμους (link-based ranking algorithm) όπως ο PageRank… Ακόμα και στην πρωτότυπη δημοσίευση για την περιγραφή της Google το 1998, αναφέρονταν πολλά άλλα χαρακτηριστικά που συνέβαλαν στην κατάταξη των αποτελεσμάτων της αναζήτησης Και προφανώς η τεχνολογία έχει προχωρήσει: ήδη η ίδια η Google δηλώνει ότι “πάνω από 200 σήματα” χρησιμοποιούνται για την εκτίμηση του πόσο σημαντική είναι μία σελίδα Παρά τη μεγάλη πολυπλοκότητα των σύγχρονων μηχανών αναζήτησης, η όμορφη ιδέα στην καρδιά του αλγορίθμου PageRank – ότι δηλ., δημοφιλείς σελίδες αυξάνουν την εγκυρότητα/δημοτικότητα άλλων σελίδων μέσω υπερσυνδέσμων – συνεχίζει να ισχύει… Αυτή ακριβώς η ιδέα βοήθησε τη Google να εκθρονίσει την AltaVista, μετατρέποντας τη Google από μια μικρή εταιρεία σε βασίλισσα της αναζήτησης μέσα σε λίγα χρόνια… Χωρίς τη βασική ιδέα του PageRank, οι περισσότερες αναζητήσεις στο web θα χάνονταν σε πέλαγος χιλιάδων ταιριασμάτων σε άσχετες web σελίδες… Ο PageRank είναι πράγματι ένας αλγόριθμος που επιτρέπει σε έναν «ψύλλο» να αναδυθεί χωρίς κόπο στην κορυφή από τα «άχυρα»…
95
Σύνοψη Δεδομένα: Ζητούμενο:
WEB και η πληροφορία που περιέχεται σε αυτό Ερώτηση για αναζήτηση συγκεκριμένης πληροφορίας στο WEB Ζητούμενο: Γρήγορη επιστροφή λίστας με απαντήσεις ταξινομημένες από τη σχετικότερη στη λιγότερη σχετική…
96
Σύνοψη Για να λάβουμε γρήγορα σωστές και σχετικές απαντήσεις σε ερωτήματα που θέτουμε, οι μηχανές αναζήτησης στο web προσπαθούν (α) να εντοπίσουν ιστοσελίδες που περιέχουν την ερώτησή μας (ταίριασμα-matching) μέσω δημιουργίας ευρετηρίου (indexing) με χρήση δύο επιπλέον τεχνικών: εντοπίζοντας τη θέση της λέξης-ερώτησης στην ιστοσελίδα εντοπίζοντας λέξεις πληροφορίας στην ιστοσελίδα και εξετάζοντας αν η λέξη-ερώτηση περιέχεται μεταξύ τους (β) να κατατάξουν τις ιστοσελίδες που περιέχουν τη λέξη-ερώτηση που θέσαμε με βάση τη σχετικότητά τους με την απάντηση στην ερώτησή μας (κατάταξη-ranking) η αποδοτικότερη τεχνική έχει αποδειχθεί ότι είναι ο αλγόριθμος PageRank της Google (1998) σύμφωνα με τον οποίο ψηλότερα στην κατάταξη πρέπει να βρίσκονται εκείνες οι ιστοσελίδες που περιέχουν τη λέξη-ερώτημα στις οποίες μπορούμε να οδηγηθούμε από πολλές δημοφιλείς ιστοσελίδες
97
Πρακτικές προεκτάσεις
Για να κατατάξω «οντότητες» με βάση το πόσο σημαντικές είναι, έχει νόημα να λαμβάνω υπόψη το πόσοι τις «ψηφίζουν» το πόσο «ειδικοί» είναι αυτοί που «ψηφίζουν» Οπότε, θα είχε νόημα: Σε μια συλλογή να τοποθετήσω στο προσκήνιο τα δημοφιλέστερα αντικείμενα Σε μια επίσκεψη να ξεκινήσω από τα δημοφιλέστερα μέρη Για να μελετήσω γλωσσικά φαινόμενα να ξεκινήσω από τις λέξεις που χρησιμοποιούνται περισσότερο Για να μελετήσω την εξέλιξη να εστιάσω στα είδη που επιβίωσαν …
98
Ενδιαφέρουσες αναφορές
How Google Works The Google Pagerank Algorithm and How It Works PageRank Algorithm - The Mathematics of Google Search
Παρόμοιες παρουσιάσεις
© 2024 SlidePlayer.gr Inc.
All rights reserved.