T OPICAL CRAWLING FOR BUSINESS INTELLIGENCE Θ ΕΜΑΤΙΚΟ C RAWLING ΓΙΑ ΤΙΣ ΕΠΙΧΕΙΡΗΣΙΑΚΕΣ ΟΝΤΟΤΗΤΕΣ Μάθημα: Ηλεκτρονική Δημοσίευση Διδάσκων: Καπιδάκης Σαράντος.

T OPICAL CRAWLING FOR BUSINESS INTELLIGENCE Θ ΕΜΑΤΙΚΟ C RAWLING ΓΙΑ ΤΙΣ ΕΠΙΧΕΙΡΗΣΙΑΚΕΣ ΟΝΤΟΤΗΤΕΣ Μάθημα: Ηλεκτρονική Δημοσίευση Διδάσκων: Καπιδάκης Σαράντος Επιμέλεια: Σαββανή Λουίζα Κέρκυρα, 2007 ΙΟΝΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΤΜΗΜΑ ΑΡΧΕΙΟΝΟΜΙΑΣ & ΒΙΒΛΙΟΘΗΚΟΝΟΜΙΑΣ ΜΕΤΑΠΤΥΧΙΑΚΟ ΠΡΟΓΡΑΜΜΑ ΣΠΟΥΔΩΝ ΣΤΗΝ ΕΠΙΣΤΗΜΗ ΤΗΣ ΠΛΗΡΟΦΟΡΙΑΣ 1

Σ ΚΟΠΟΣ ΕΡΓΑΣΙΑΣ Να μελετήσει τη χρήση των θεματικών crawlers στη δημιουργία μικρών συλλογών εγγράφων που βοηθούν στην εύρεση επιχειρησιακών οντοτήτων η εύρεση τρόπων crawling και χτισίματος μιας μικρής και αποτελεσματικής συλλογής για την εύρεση επιχειρησιακών οντοτήτων Να μελετήσει και να αξιολογήσει τα αποτελέσματα 4 crawlers 2

B USINESS I NTELLIGENCE (BI) ένα δημοφιλές και δυνατό concept εφαρμογής πολλών τεχνολογιών μετατρέπει τα δεδομένα σε πληροφορία καλύπτει ένα ευρύ φάσμα των αναγκών των εταιρικών δεδομένων  Διαχείρηση προϋπολογισμού  Έξυπνες στρατηγικές 3

Μηχανές αναζήτησης  Περιορισμένο εύρος ζώνης  Περιορισμένη αποθήκευση  Περιορισμένοι υπολογιστικοί πόροι o Crawlers  Εξαγωγή κειμένου  Ευρετηρίαση  Αποφασίζουν για την καταλληλότητα των σελίδων  Είναι ιδανικοί για πολλές από τις εφαρμογές του Ιστού 4

C RAWLERS 1. Εξερευνούν τη δομή του ιστού για να ανακτήσουν καινούριες σελίδες, διασχίζοντας καινούρια links μέσω των προηγούμενων που έχουν ανακτήσει. 2. Όταν εξάγονται οι σελίδες, τα links τους προστίθενται σε μια λίστα με σελίδες τις οποίες δεν έχουν επισκεφθεί προηγουμένως 5

Θ ΕΜΑΤΙΚΟΙ C RAWLERS Καλύπτουν ειδικά θέματα σε μεγαλύτερο βάθος, τα οπόια ανανεώνονται συνεχώς καθώς κάθε crawler έχει μικρό τμήμα να καλύψει Αποτελούνται από έναν επιβλέποντα θεματικό ταξινομητή που ελέγχει την προτεραιότητα του link Στόχος: είναι να ξεκινήσει από κόμβους σχετικούς με το θέμα και να εξερευνήσει links ώστε να συλλέξει ιστοσελίδες για το θέμα 6

Τ Ο ΠΕΙΡΑΜΑ (1) Χρειάστηκε ένας αριθμός θεμάτων Χρειάστηκαν αντίστοιχες λίστες επιχειρήσεων Χρησιμοποίησαν τις ιεραρχικές κατηγορίες του Open Directory Project (ODP) 1. Οι σχεδιαστές βρήκαν κατηγορίες που τελειώνουν με μία από τις λέξεις: companies, consultants, manufacturers 2. συνέλεξαν μόνο τις κατηγορίες που έχουν πάνω από 20 URLs 3. προσπέρασαν τις κατηγορίες που είχαν σαν πρώτο επίπεδο ή σαν υποκατηγορία τις λέξεις «τοπικός», «κόσμος» ή «διεθνής». Βρέθηκαν 159 κατηγορίες. 4. χώρισαν τα URLs κάθε κατηγορίας σε 2 ομάδες: σε «σπόρους» (seeds) και σε «στόχους» (targets) 7

Τ Ο ΠΕΙΡΑΜΑ (2) 5. οι λέξεις-κλειδιά που καθοδηγούν τους crawlers δημιουργήθηκαν από την αλφαριθμητική αλληλουχία των συμβόλων στην ODP ιεραρχία 6. σε κάθε crawler έχει παραχθεί μια ομάδα λέξεων- κλειδιών και οι αντίστοιχοι «σπόροι» ώστε να ξεκινήσουν να ψάχνουν 7. κάθε crawler είναι ελεύθερος να βρει μέχρι 100.000 σελίδες, ξεκινώντας από τους «σπόρους» 8. η διαδικασία επαναλαμβάνεται για κάθε ένα από τα 159 θέματα του πειράματος 9. σαν αποτέλεσμα μπορούν να υπάρξουν πάνω από ενάμιση εκατομμύριο σελίδες μόνο για τον ένα crawler 8

Ο Ι 4 C RAWLERS 1. Breadth-First crawler  αποτελεί τη βάση για τα πειράματα με τους crawlers  κάθε υπολογισμός του crawler συλλέγει τα URLs που βρίσκονται πρώτα στην ουρά  προσθέτει καινούρια URLs που δεν έχει επισκεφθεί στο πίσω μέρος της ουράς  προσθέτει URLs που δεν έχει επισκεφθεί στην ουρά μόνο όταν το μέγεθος τους είναι μικρότερο από το ανώτερο επιτρεπτό 2. Naive Best-First crawler  τοποθετεί σε σειρά προτεραιότητας τα links  βασίζεται στην ομοιότητα μεταξύ των ερωτημάτων και της σελίδας όπου βρέθηκε το link  προσθέτει τα URLs με σειρά προτεραιότητας στην ουρά του crawler  εισάγει τα URLs που δεν έχει επισκεφθεί ο crawler στις κατάλληλες θέσεις στην ουρά προτεραιότητας FIFO 9

3. DOM (Document Object Model) crawler  χρησιμοποιεί τη δομή μιας HTML ιστοσελίδας, δηλ. τη δενδροειδή παρουσίασή της  το ένα link συνδέεται με το άλλο  ό,τι υπάρχει στη δενδροειδή μορφή κάτω από το link είναι περιεχόμενό του  ο crawler υπολογίζει την ομοιότητα μεταξύ όλου του περιβάλλοντος και των δοθέντων λέξεων-κλειδιών και βάζει τις σελίδες με σειρά προτεραιότητας 4. Hub seeking crawler  είναι επέκταση του DOM crawler  εξερευνά μελλοντικούς διανομείς  τα URL’s κρίνονται σύμφωνα με το περιεχόμενο τους ότι είναι σχετικά με το θέμα  ο crawler καθορίζει ότι μία σελίδα που συνδέεται με πολλά από τα παραπάνω URL’s είναι ένας καλός διανομέας 10

Α ΠΟΔΟΣΗ ΤΩΝ CRAWLERS 1 ος ο Hub seeking crawler 2 ος ο DOM crawler 3 ος ο Naive Best-First crawler 4 ος ο Breadth-First crawler 11

Β ΕΛΤΙΩΣΗ ΤΗΣ ΑΠΟΔΟΣΗΣ χρήση της υπηρεσίας API του google εντοπισμός μέσω μιας μηχανής αναζήτησης καλών διανομέων ώστε να βελτιώσουν το crawling βρέθηκαν διανομείς μόνο για τα 94 από τα 159 θέματα πειράματος χρησιμοποίησαν τους διανομείς που βρήκαν για να φτιάξουν μια αυξανόμενη σειρά από «σπόρους», που χρησιμοποιούνται για να ξεκινήσει το crawling για κάθε ένα από τα 94 θέματα  σαν αποτέλεσμα, όλοι οι crawlers καλυτερεύουν την απόδοσή τους  και οι μηχανές αναζήτησης βοηθούν τους crawlers στο να κάνουν μια καλή αρχή που επηρεάζει τη συνολική τους απόδοση. 12

Σ ΥΜΠΕΡΑΣΜΑΤΑ η διαθεσιμότητα των «καλών» διανομέων κατά τη διάρκεια του crawling βελτιώνει την απόδοση των crawlers παρέχοντας διανομείς, οι μηχανές αναζήτησης βοηθούν τους crawlers στο να κάνουν μια καλή αρχή που επηρεάζει τη συνολική τους απόδοση 13

Σ ΧΕΤΙΚΕΣ ΕΡΕΥΝΕΣ πραγματοποιούνται εδώ και 15 περίπου χρόνια οι ερευνητές χρησιμοποιούν ποικίλες μετρήσεις για να κατανοήσουν την απόδοση των τοπικών crawlers μια μελέτη του Menczer κ. ά. πάνω στην αξιολόγηση τοπικών crawlers ερευνά τον αριθμό των τρόπων σύγκρισης διαφορετικών crawlers ένα πιο γενικό πλαίσιο για την αξιολόγηση τοπικών crawlers παρουσιάζεται από τον Srinivasan κ.ά 14

Ε ΥΧΑΡΙΣΤΩ ! 15

T OPICAL CRAWLING FOR BUSINESS INTELLIGENCE Θ ΕΜΑΤΙΚΟ C RAWLING ΓΙΑ ΤΙΣ ΕΠΙΧΕΙΡΗΣΙΑΚΕΣ ΟΝΤΟΤΗΤΕΣ Μάθημα: Ηλεκτρονική Δημοσίευση Διδάσκων: Καπιδάκης Σαράντος.

Παρόμοιες παρουσιάσεις

Παρόμοιες παρουσιάσεις

Σχετικά με το έργο

Σχόλια

Είσοδος

Σύνδεση μέσω των κοινωνικών δικτύων:

T OPICAL CRAWLING FOR BUSINESS INTELLIGENCE Θ ΕΜΑΤΙΚΟ C RAWLING ΓΙΑ ΤΙΣ ΕΠΙΧΕΙΡΗΣΙΑΚΕΣ ΟΝΤΟΤΗΤΕΣ Μάθημα: Ηλεκτρονική Δημοσίευση Διδάσκων: Καπιδάκης Σαράντος.

Παρόμοιες παρουσιάσεις

Παρόμοιες παρουσιάσεις

Σχετικά με το έργο

Σχόλια