ΜΗΧΑΝΕΣ ΑΝΑΖΗΤΗΣΗΣ Βουχάρα Τάνια(6306Μ002) ΜΗΧΑΝΕΣ ΑΝΑΖΗΤΗΣΗΣ Βουχάρα Τάνια(6306Μ002) Εισαγωγικά Θέματα World Wide Web Χειμερινό εξάμηνο 2006-07
Εισαγωγικά Ραγδαία εξάπλωση Διαδικτύου > συνεχής μεταβολή και αύξηση του όγκου της πληροφορίας. Εμπορικές, εκπαιδευτικές, ενημερωτικές και ψυχαγωγικές χρήσεις. Αύξηση των χρηστών > πρόβλημα ευρέσεως της χρήσιμης ή επιθυμητής πληροφορίας. Μηχανές Αναζήτησης: εργαλεία για την αναζήτηση της πληροφορίας στον Ιστό. Ενδεικτικά: Google, Yahoo!, Ask.com, MSN Search, Robby, Anazitisis.
Ιστορική αναδρομή 1990 – 1992 > Archie, Gopher, Veronica. 1993 > WebCrawler. 1994 > Yahoo, Lycos. 1995 > AltaVista, Infoseek, Excite αλλά και οι πρώτες μετα-μηχανές MetaCrawler, SavvySearch. 1996 > Inktomi, HotBot. 1997 > AskJeeves (απ’ το 2005 Ask.com), Northern Light. 1998 > Google, MSN Search (Windows Live Search).
Λειτουργία Μ.Α. (1) Δομή Spider (ή Crawler ή Robot) > πρόγραμμα υπεύθυνο για τον εντοπισμό των ιστοσελίδων. Αφού τις «διαβάσει» ακολουθεί τους συνδέσμους (links) των ιστοσελίδων αυτών προς άλλες. Indexers > σαρώνουν τις ιστοσελίδες που εντοπίζουν οι spiders αξιολογώντας το κείμενο, τα links και άλλα στοιχεία και κρατούν ένα αντίγραφο στη βάση δεδομένων (index) της Μ.Α. Query processor > ψάχνει στη βάση δεδομένων της Μ.Α για να βρει ιστοσελίδες σχετικές με τις λέξεις – κλειδιά που πληκτρολόγησε ο χρήστης.
Λειτουργία Μ.Α.(2) Καταχώρηση ιστοσελίδων 4 τρόποι για την καταχώρηση ενός web site σε μία Μ.Α. «Χειρωνακτικά» από τον ιδιοκτήτη του δικτυακού τόπου. Με τη βοήθεια ειδικών προγραμμάτων (π.χ. SignPoster). Να βρει η Μ.Α. την ιστοσελίδα μόνη της μέσω συνδέσμων από άλλους δικτυακούς τόπους, που δείχνουν προς αυτήν. Να πληρώσει ο ιδιοκτήτης του web site την εταιρεία της Μ.Α. Ωστόσο, διαφορετικές προϋποθέσεις θέτει η εκάστοτε Μ.Α. για να συμπεριλάβει μία ιστοσελίδα στον κατάλογό της.
Λειτουργία Μ.Α.(3) Ο χρήστης πληκτρολογεί στο ενδεδειγμένο πεδίο λέξεις – κλειδιά. Δυνατότητα χρήσης τελεστών(Booleans): AND, OR, NOT, NEAR. Advanced Search. Η Μ.Α. δεν ψάχνει τον Ιστό αλλά τη δική της βάση δεδομένων. Τα αποτελέσματα επιστρέφονται στο χρήστη με τη μορφή μίας λίστας με links στις αντίστοιχες σελίδες.
Λειτουργία Μ.Α.(4) Κριτήρια ιεράρχησης αποτελεσμάτων Κάθε Μ.Α. χρησιμοποιεί αλγόριθμους ταξινόμησης. Ο ακριβής τρόπος λειτουργίας τους δεν είναι γνωστός. Γενικά, παίζουν ρόλο τα εξής: Συνάφεια (τοποθεσία και συχνότητα λέξεων – κλειδιών σε μία ιστοσελίδα) > φυσικά ή οργανικά αποτελέσματα. Ανάλυση υπερσυνδέσεων. Δημοτικότητα μιας ιστοσελίδας (link popularity). Ποιότητα περιεχομένου ιστοσελίδας. Πληρωμένη καταχώρηση (Paid Inclusion, Paid Search, Pay Per Click).
PageRank αλγόριθμος Αλγόριθμος με βάση τον οποίο το Google αναλύει τον τρόπο διασύνδεσης των ιστοσελίδων. Αξιολογεί τη σημαντικότητα μιας ιστοσελίδας με βάση τα inbound (τα links που κατευθύνονται προς μία ιστοσελίδα) και outbound (τα links μιας ιστοσελίδας που οδηγούν σε άλλες) links. Ευάλωτο σε έξωθεν χειρισμούς.
Search Engine Optimization S.E.O. τεχνικές: μέθοδοι προώθησης ιστοσελίδων μέσω της ευνοϊκής τους κατάταξης στις Μ.Α. White hat S.E.O. > αποδεκτές τεχνικές. Black hat S.E.O. Cloaking Τοποθέτηση κρυμμένου κειμένου Χρήση doorway ή gateway σελίδων Spamdexing (Link Farms, Page Hijacking) Google Bombing
Google Bombing
Το αόρατο διαδίκτυο (Deep Web) Deep Web ή Invisible Web ή Deepnet: περιεχόμενο του Ιστού που οι crawlers αδυνατούν να προσπελάσουν. 2 με 3 φορές μεγαλύτερο απ’ το «ορατό» Διαδίκτυο. Πηγές Deep Web Δυναμικές ιστοσελίδες. Ιστοσελίδες χωρίς inbound links. Περιεχόμενο περιορισμένης πρόσβασης. Μη-κειμενικό περιεχόμενο. JavaScript ή Flash περιεχόμενο.
Θεματικοί Κατάλογοι (Directories) Ο εντοπισμός, η αξιολόγηση και η κατάταξη των δικτυακών τόπων γίνεται από ομάδα ατόμων υπεύθυνη γι’ αυτή την εργασία. Δεν εγγράφουν όλες τις ιστοσελίδες στην ίδια βάση δεδομένων αλλά τις κατατάσσουν σε θεματικές κατηγορίες. Συνήθως, οι υπηρεσίες αναζήτησης είναι «υβριδικές» (hybrid) > μορφές μεταξύ Μ.Α. και Θ.Κ.
Μεταμηχανές Αναζήτησης Δεν διαθέτουν δικό τους ευρετήριο αλλά αντλούν τα αποτελέσματα τους από τα ευρετήρια άλλων μηχανών αναζήτησης. Παραδείγματα: DogPile, SavvySearch, MetaCrawler. Πλεονεκτήματα: ευρεία κάλυψη θέματος, επιστροφή απαντήσεων σε ασαφείς ερωτήσεις που μία απλή μηχανή μπορεί να «χάσει». Μειονεκτήματα: ενδείκνυνται για απλές αναζητήσεις.
Δημοφιλείς Μηχανές Αναζήτησης Συγκριτική Παρουσίαση Δημοφιλείς Μηχανές Αναζήτησης Συγκριτική Παρουσίαση
Popularity ranking using PageRank. S.E. Google Yahoo! Search Ask.com Size Huge. The biggest. Huge. 20 billion pages. Large. 2 billion pages. Features Popularity ranking using PageRank. Shortcuts give quick access to dictionary, synonyms etc. Subject-Specific Popularity ranking. Broader / narrower terms. Phrases Yes. Use " " Booleans Partial. AND assumed. Capitalize OR. AND, OR, NOT or AND NOT As in Google.
- excludes + retrieves “stop words" (e.g., +in) Google Yahoo! Search Ask.com +Requires/ -Excludes - excludes + retrieves “stop words" (e.g., +in) - excludes + searches common words As in Google. Sub-Searching Yes Results Ranking Link Popularity. Fuzzy AND. Automatic Fuzzy AND. ExpertRank Algorithm. Case sensitivity No. Language Yes.
Βελτιώσεις / Εξελίξεις Προσπάθεια σάρωσης του Deep Web > Yahoo! Subscriptions, Google’ s Sitemap Protocol. Δυνατότητα για προσωποποίηση των αποτελεσμάτων π.χ. Google Desktop. Προσπάθεια αντιμετώπισης του spamdexing > ομαδοποιημένα αποτελέσματα (clustered results), κριτήριο “nofollow” (Google, 2005). The Search Wikia Project: δεν θα στηρίζεται σε αλγόριθμους ταξινόμησης αλλά τα αποτελέσματα θα διαμορφώνονται από τους χρήστες.
Κριτική / Μειονεκτήματα(1) Μόνο ένα μικρό μέρος του Ιστού επισκέπτονται οι spiders. Δυσκολία στη διάκριση μεταξύ νέας και ήδη επεξεργασμένης πληροφορίας. Μέσος χρόνος επίσκεψης κάθε κόμβου μέχρι και 6 μήνες > broken links, χάνεται η νέα πληροφορία. Επικίνδυνες ιστοσελίδες στα αποτελέσματα (έρευνα McAfee). H ιεράρχηση των αποτελεσμάτων επηρεάζεται και από διαφημιστικές πρακτικές. Ποιότητα δεδομένων > η πληροφορία δεν ελέγχεται.
Κριτική / Μειονεκτήματα(2) Υπερβολική πρόσβαση στην πληροφορία (π.χ. πορνογραφικά sites). Ελλιπής πρόσβαση στην πληροφορία (π.χ. δυναμικές ιστοσελίδες, HTTPS URLs). Λογοκρισία (π.χ. Κίνα). Έλλειψη διαφάνειας – ο τρόπος λειτουργίας των αλγορίθμων είναι μυστικός. Καταπάτηση ατομικών ελευθεριών.
Κοινωνικές διαστάσεις Μ.Α > πρόσβαση στη γνώση και την πληροφορία. Δεν αποτελούν μόνο τεχνικά φαινόμενα, εμπλέκονται σε κοινωνικές διαδικασίες. «Βάσεις δεδομένων» που αντικατοπτρίζουν τις προθέσεις (“databases of intentions”) και την κουλτούρα των χρηστών. Επιπτώσεις στους τομείς της διαφήμισης και των επιχειρήσεων. (John Batelle, 2005). Η καταχώρηση ή μη ενός web site στο index μιας Μ.Α. και η θέση του στα αποτελέσματα > οικονομικές, κοινωνικές, πολιτικές και επιστημονικές επιπτώσεις.
Πηγές(1) Feldman S.,(2002). This is what I asked for? The searching quarmire. In Mintz A., Web of deception. Information Today, Inc. http://daphne.palomar.edu/TGSEARCH/ http://www.sciam.com/article.cfm?chanID=sa006&articleID=0006304A-37F4-11E8-B7F483414B7F0000 http://www.pandia.com/goalgetter/index.html http://www.searchenginehistory.com/ http://pacific.jour.auth.gr/totsidou/Search_Engines.htm http://www.searchenginemarketing.gr/search-engine-marketing-terms.htm http://www.go-online.gr/ebusiness/specials/article.html?article_id=231 http://www.inertia.gr/whatSE.html http://www.lib.berkeley.edu/TeachingLib/Guides/Internet/FindInfo.html
Πηγές(2) http://www.sciam.com/article.cfm?chanID=sa006&articleID=0006304A-37F4-11E8-B7F483414B7F0000&pageNumber=6&catID=2 http://www.imerisia.gr/article.asp?catid=4775&subid=2&pubid=274491 http://en.wikipedia.org/wiki/Search_engine http://en.wikipedia.org/wiki/Spamdexing http://jcmc.indiana.edu/vol12/issue3/hargittai.html http://jcmc.indiana.edu/vol12/issue3/vaughan.html http://jcmc.indiana.edu/vol12/issue3/vancouvering.html http://www.netmode.ntua.gr/courses/postgraduate/edi/ergasies2006/SEO.pdf http://e-rooster.gr/10/2006/350