Web Mining. Στόχος: μελέτη της εφαρμογής τεχνικών Εξόρυξης Γνώσης στον Παγκόσμιο Ιστό Στόχος: μελέτη της εφαρμογής τεχνικών Εξόρυξης Γνώσης στον Παγκόσμιο.

Slides:



Advertisements
Παρόμοιες παρουσιάσεις
Τεχνολογίες Web Απαραίτητες γνώσεις για την υλοποίηση της άσκησης.
Advertisements

A Scalable Content- Addressable Network Sylvia Ratnasamy, Paul Francis, Mark Handley, Richard Karp, Scott Shenker Proceedings of ACM SIGCOMM ’01 Sections.
ΕΝΟΤΗΤΑ 4 – Κεφάλαιο 12: Ο Παγκόσμιος Ιστός – Εισαγωγή στην έννοια του Υπερκειμένου Λέξεις Κλειδιά: Διαδίκτυο, Παγκόσμιος Ιστός (World Wide Web), ιστοσελίδα.
Διαδίκτυο.
A Peer-to-peer Framework for Caching Range Queries O. D. Sahin A. Gupta D. Agrawal A. El Abbadi Παρουσίαση: Καραγιάννης Τάσος, Κρεμμυδάς Νίκος, Μαργαρίτη.
Optimizing Web Search Using Social Annotations Παρουσίαση: Λάζος Άγγελος.
Εξόρυξη Γνώσης Από Χρονικά Δεδομένα
1 Μηχανές αναζήτησης στον Παγκόσμιο Ιστό Search Engines.
ΟΡΟΛΟΓΙΑ Στην ΚτΠ: Χρησιμότητα στον Δημόσιο Τομέα ή Η σημασία της γνώσης των όρων για αποτελεσματική πρόσβαση στην πληροφορία Γ. Καραγιάννης Καθηγητής.
ΣΤΟΙΧΕΙΑ ΨΕΥΔΟΚΩΔΙΚΑ ΒΑΣΙΚΕΣ ΔΟΜΕΣ ΒΑΣΙΚΟΙ ΑΛΓΟΡΙΘΜΟΙ ΠΙΝΑΚΩΝ
Ολυμπία Νίκου Α.Μ. Μ956 Διπλωματική Εργασία
Semantic Overlay Networks in P2P systems A. Crespo, H. Garcia-Molina Κρεμμυδάς Νίκος Σκυβαλίδας Πάνος Παππάς Θεοχάρης.
Ο Αλγόριθμος FP-Growth. Αλγόριθμος FP-Growth Ο αλγόριθμος χρησιμοποιεί μια συμπιεσμένη αναπαράσταση της βάσης των συναλλαγών με τη μορφή ενός FP-δέντρου.
Ανάκτηση Πληροφορίας Το Boolean μοντέλο.
Combating Web Spam with TrustRank ΑΛΕΞΙΟΥ ΣΤΑΥΡΟΥΛΑΑΜ:199.
Resource Description Framework
Ανάκτηση Πληροφορίας στον Παγκόσμιο Ιστό (Web Information Retrieval)
1/23 DHTStrings: Συστήματα Δημοσιεύσεων/Συνδρομών σε DHT Δίκτυα με Υποστήριξη για Συμβολοσειρές Διανομή Περιεχομένου στο Διαδίκτυο Τμήμα ΜΗΥΠ Παν/μιο Πατρών.
Εισαγωγή στην Ανάκτηση Πληροφορίας και στις Εφαρμογές της.
Μηχανική Μάθηση και Εξόρυξη Γνώσης
Η μηχανική μάθηση στην αντιμετώπιση της Υπερπληροφόρησης
ΕΡΓΑΛΕΙΟ ΠΑΡΑΓΩΓΗΣ ΠΕΡΙΕΧΟΜΕΝΟΥ ΣΕ WEB SITE (CONTENT MANAGEMENT TOOL)
Θέματα Βάσεων Δεδομένων Αποθήκευση XML δεδομένων σε Σχεσιακή Βάση Δεδομένων Θέματα Βάσεων Δεδομένων Αποθήκευση XML δεδομένων σε Σχεσιακή Βάση Δεδομένων.
Αναγνώριση Προτύπων.
Εφαρμογές Πληροφορικής
Heal Link Η HEAL Link (Hellenic Academic Libraries Link) είναι ο Σύνδεσμος Ελληνικών Ακαδημαϊκών Βιβλιοθηκών και λειτουργεί υπό.
ΣΧΕΣΙΑΚΟ ΜΟΝΤΕΛΟ ΜΑΘΗΜΑ 3.
ΚΕΦΑΛΑΙΟ 3 ΒΑΣΙΚΕΣ ΕΝΝΟΙΕΣ ΤΩΝ Γ.Σ.Π.. ΟΡΙΣΜΟΙ Ένα σύστημα για τακτικό και συνηθισμένο τρόπο επεξεργασίας δεδομένων και για απάντηση προκαθορισμένων και.
1 Ενότητα 5.3.2: Ανάλυση δεδομένων επισκεψιμότητας ιστοτόπων Διδάσκων: Χρήστος Κατσάνος - Πανεπιστημιακό κέντρο εκπαίδευσης επιμορφωτών.
Μάθημα 2 ο : Βασικές έννοιες 1 Ακαδημαϊκό Έτος
ΕΝΟΤΗΤΑ 4 – Κεφάλαιο 12: Ο Παγκόσμιος Ιστός – Εισαγωγή στην έννοια του Υπερκειμένου Το 1989 ο Τιμ Μπέρνερς μέλος του κέντρου cern επινόησε τον παγκόσμιο.
Λάζαρος Πολυμενάκος, καθηγητής ΑΙΤ Ηρακλής Καπρίτσας, telia.co.gr
Οργάνωση πληροφοριών Ευρετηρίαση Μέρος Β Σχεδιασμός ευρετηρίων.
Ανάκτηση Πληροφορίας (Information Retrieval – IR) Πανεπιστήμιο Θεσσαλίας Πολυτεχνική Σχολή Τμήμα Μηχ. Η/Υ, Τηλ/νιών & Δικτύων Ακαδημαϊκό Έτος
ΕΙΣΑΓΩΓΗ ΣΤΑ ΓΕΩΓΡΑΦΙΚΑ ΣΥΣΤΗΜΑΤΑ ΠΛΗΡΟΦΟΡΙΩΝ
ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ Προεπεξεργασία Κειμένου.
Μοντέλα Συστημάτων Παρουσιάσεις των συστημάτων των οποίων οι απαιτήσεις αναλύονται.
Ουρά Προτεραιότητας: Heap
Σημασιολογική Ολοκλήρωση Δεδομένων με τη χρήση Οντολογιών Λίνα Μπουντούρη - Μανόλης Γεργατσούλης Ιόνιο Πανεπιστήμιο 15ο Πανελλήνιο Συνέδριο Ακαδημαϊκών.
ΤΙ ΕΙΝΑΙ TO ΔΙΑΔΙΚΤΥΟ; Δίκτυο υπολογιστών (γενική έννοια)
ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ Information Extraction.
Η επιστήμη του Web.
1 routing Δρομολόγηση (routing) σε δίκτυα Αυτοδύναμα Πακέτα (Datagrams): απόφαση δρομολόγησης για κάθε πακέτο. Εικονικά Κυκλώματα (Virtual Circuits): μία.
ΙΟΝΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΤΜΗΜΑ ΑΡΧΕΙΟΝΟΜΙΑΣ & ΒΙΒΛΙΟΘΗΚΟΝΟΜΙΑΣ ΠΜΣ: «ΕΠΙΣΤΗΜΗ ΤΗΣ ΠΛΗΡΟΦΟΡΙΑΣ» ΜΑΘΗΜΑ: ΗΛΕΚΤΡΟΝΙΚΗ ΔΗΜΟΣΙΕΥΣΗ ΕΡΓΑΣΙΑ: MULTI-DOCUMENT SUMMARIZATIONS.
ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ Μάθημα 1ο Εισαγωγή στη Γλωσσική Τεχνολογία
Αναζήτηση – Δέντρα (2 ο Μέρος) Advanced Data Indexing (Προηγμένη ευρετηρίαση δεδομένων)
T OPICAL CRAWLING FOR BUSINESS INTELLIGENCE Θ ΕΜΑΤΙΚΟ C RAWLING ΓΙΑ ΤΙΣ ΕΠΙΧΕΙΡΗΣΙΑΚΕΣ ΟΝΤΟΤΗΤΕΣ Μάθημα: Ηλεκτρονική Δημοσίευση Διδάσκων: Καπιδάκης Σαράντος.
Δομές Αναζήτησης TexPoint fonts used in EMF. Read the TexPoint manual before you delete this box.: AA A A A Θέλουμε να υποστηρίξουμε δύο βασικές λειτουργίες:
Λεξικό, Union – Find Διδάσκοντες: Σ. Ζάχος, Δ. Φωτάκης Επιμέλεια διαφανειών: Δ. Φωτάκης Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών Εθνικό Μετσόβιο.
Web Site Traffic Analysis Tools Θάνος Κουκουλής M.I.S. Μάιος 2002.
Θέματα σχετικά με Εξόρυξη από τον Παγκόσμιο Ιστό.
Θέματα σχετικά με Εξόρυξη από τον Παγκόσμιο Ιστό.
University of Crete HY566-Semantic Web CS566 – Semantic Web Computer Science Department - UoC Heraklion 1 April, 2003 Παπαγγελής Μάνος, Κοφφινά Ιωάννα,
Μαρία Λιάζη Βασίλης Ζησιμόπουλος Τμήμα Πληροφορικής και Τηλεπικοινωνιών Πανεπιστημίου Αθηνών Μαρία Λιάζη Βασίλης Ζησιμόπουλος Τμήμα Πληροφορικής και Τηλεπικοινωνιών.
Ιόνιο Πανεπιστήμιο Τμήμα Αρχειονομίας και Βιβλιοθηκονομίας Πρόγραμμα Μεταπτυχιακών Σπουδών στην Επιστήμη της Πληροφορίας «Διοίκηση & Οργάνωση Βιβλιοθηκών.
ΕΝΟΤΗΤΑ 4 – Κεφάλαιο 12: Ο Παγκόσμιος Ιστός – Εισαγωγή στην έννοια του Υπερκειμένου Λέξεις Κλειδιά: Λέξεις Κλειδιά: Διαδίκτυο, Παγκόσμιος Ιστός (World.
1 Διαχείριση Γνώσης Μ. Γεργατσούλης Χ. Παπαθεοδώρου.
 Κύριο αντικείμενο της μελέτης είναι ο καθορισμός της μεθοδολογίας, των προτύπων (standards) και των διαδικασιών (procedures) για τις πρώτες και πιο.
Δρ. Αλέξανδρος Βακαλούδης.  Εξόρυξη δεδομένων (Data Mining)  Association Rules  Clustering  Classification  Στάδια για εξόρυξη δεδομένων  Επανάληψη.
Δομές δεδομένων και Αλγόριθμοι Κεφάλαιο 3. Ανάπτυξη Εφαρμογών σε Προγραμματιστικό Περιβάλλον Δεδομένα Δεδομένα (data) Δεδομένα (data) –αφαιρετική αναπαράσταση.
Γράφημα Συνδυαστικό αντικείμενο που αποτελείται από 2 σύνολα:
ΤΙΤΛΟΣ ΕΡΓΑΣΙΑΣ ΒΑΣΕΙΣ ΔΕΔΟΜΕΝΩΝ Ανδρέου Βασίλης.
Τα καινοτόμα χαρακτηριστικά του Διαδικτύου και η ευρεία του αποδοχή από τις νεαρές ηλικίες καλλιέργησαν την ιδέα της αξιοποίησής του ως ένα εργαλείο στην.
Σημασιολογική Διαχείριση και Επεξεργασία Πολυμεσικών Μεταδεδομένων
MOODLE- assessment tools
Κεφάλαιο 7: Διαδικτύωση-Internet
Activity Diagrams.
Το Διαδίκτυο - Internet
ΕΝΟΤΗΤΑ 4 – Κεφάλαιο 12: Ο Παγκόσμιος Ιστός – Εισαγωγή στην έννοια του Υπερκειμένου Λέξεις Κλειδιά: Διαδίκτυο, Παγκόσμιος Ιστός (World Wide Web), ιστοσελίδα.
Σκοπός Η συνοπτική παρουσίαση
Μεταγράφημα παρουσίασης:

Web Mining

Στόχος: μελέτη της εφαρμογής τεχνικών Εξόρυξης Γνώσης στον Παγκόσμιο Ιστό Στόχος: μελέτη της εφαρμογής τεχνικών Εξόρυξης Γνώσης στον Παγκόσμιο Ιστό Εξόρυξη Γνώσης από το Περιεχόμενο του Παγκόσμιου Ιστού (Web Content Mining) Εξόρυξη Γνώσης από το Περιεχόμενο του Παγκόσμιου Ιστού (Web Content Mining) Εξόρυξη Γνώσης από τη Δομή του Παγκόσμιου Ιστού (Web Structure Mining) Εξόρυξη Γνώσης από τη Δομή του Παγκόσμιου Ιστού (Web Structure Mining) Εξόρυξη Γνώσης από τη Χρήση του Παγκόσμιου Ιστού (Web Usage Mining) Εξόρυξη Γνώσης από τη Χρήση του Παγκόσμιου Ιστού (Web Usage Mining)

Web Mining Εισαγωγή Τεράστιο μέγεθος Τεράστιο μέγεθος 2-10B στατικές σελίδες, διπλασιαζόμενες κάθε 8-12 μήνες 2-10B στατικές σελίδες, διπλασιαζόμενες κάθε 8-12 μήνες Μέγεθος Λεξικού: άδες εκατομμύρια λέξεις Μέγεθος Λεξικού: άδες εκατομμύρια λέξεις

Web Data No design/co-ordination No design/co-ordination Distributed content creation, linking, democratization of publishing Distributed content creation, linking, democratization of publishing Content includes truth, lies, obsolete information, contradictions … Content includes truth, lies, obsolete information, contradictions … Unstructured (text, html, …), semi-structured (XML, annotated photos), structured (Databases)… Unstructured (text, html, …), semi-structured (XML, annotated photos), structured (Databases)… Scale much larger than previous text corpora, and also corporate records are catching up. Scale much larger than previous text corpora, and also corporate records are catching up. Growth – slowed down from initial “volume doubling every few months” but still expanding Growth – slowed down from initial “volume doubling every few months” but still expanding Content can be dynamically generated Content can be dynamically generated The Web

Web Mining Taxonomy

Web Content Mining Βασικό συστατικό των μηχανών αναζήτησης Βασικό συστατικό των μηχανών αναζήτησης Εφαρμογές Εφαρμογές Ιεραρχίες εννοιών και συνώνυμα Ιεραρχίες εννοιών και συνώνυμα Προφίλ χρηστών Προφίλ χρηστών Ανάλυση συνδέσμου μεταξύ σελίδων Ανάλυση συνδέσμου μεταξύ σελίδων Τεχνικής περιληπτικής παρουσίασης πληροφορίας μέσω λέξεων κλειδιών Τεχνικής περιληπτικής παρουσίασης πληροφορίας μέσω λέξεων κλειδιών Δύο κατηγοριών (βασισμένή σε πράκτορες, βασισμένη σε συστήματα βάσεων δεδομένων) Δύο κατηγοριών (βασισμένή σε πράκτορες, βασισμένη σε συστήματα βάσεων δεδομένων)

Keyword Term Association Similarity Search ClassificationClustering Natural Language Processing

Crawlers Robot (spider) διαπερνά την υπερκειμενική δομή του παγκόσμιου ιστού, συλλέγοντας πληροφορίας Robot (spider) διαπερνά την υπερκειμενική δομή του παγκόσμιου ιστού, συλλέγοντας πληροφορίας Κλασσικός Crawler – επισκέπτεται ολόκληρο το παγκόσμιο ιστό και αντικαθιστά δεικτοδοτητή. Κλασσικός Crawler – επισκέπτεται ολόκληρο το παγκόσμιο ιστό και αντικαθιστά δεικτοδοτητή. Περιοδικός Crawler – επισκέπτεται τμήματα του παγκόσμιου ιστού και ενημερώνει υποσύνολα του δεικτοδοτητή. Περιοδικός Crawler – επισκέπτεται τμήματα του παγκόσμιου ιστού και ενημερώνει υποσύνολα του δεικτοδοτητή. Αυξητικός Crawler – επιλεκτικά ψάχνει το παγκόσμιο ιστό και αυξητικά ενημερώνει δεικτοδοτητή. Αυξητικός Crawler – επιλεκτικά ψάχνει το παγκόσμιο ιστό και αυξητικά ενημερώνει δεικτοδοτητή. Εστιασμένος Crawler – επισκέπτεται σελίδες σχετικές με ένα θεματικό αντικείμενο. Εστιασμένος Crawler – επισκέπτεται σελίδες σχετικές με ένα θεματικό αντικείμενο.

Διαπερνώντας το διαδίκτυο (Crawling) ποιες σελίδες πρέπει να προσπελαστούν ; τι γίνεται όταν το περιεχόμενο των σελίδων μεταβάλλεται ; (refresh policy) πως πραγματοποιείται εστιασμένη διαπέραση; Διαπερνώντας τον Παγκόσμιο Ιστό

URLs crawled and parsed Unseen Web Seed Pages URL frontier Crawling thread

Crawling - Επιλογή Σελίδων – Μετρικές Σημαντικότητας Searching the Web Interest Driven

Crawling - Επιλογή Σελίδων – Μετρικές Σπουδαιότητας Searching the Web Interest Driven & Ομοιότητα Κειμένων “A new approach to topic-specific web resource discovery” Chakrabarti et al. 8 th WWW conference 1999

Crawling - Επιλογή Σελίδων – Μετρικές Σπουδαιότητας Popularity Driven Location Driven

Crawling - Ανανέωση Σελίδων f=σταθερή f=F(λ i )

Focused Crawler Χρήση ιεραρχικής ταξινόμησης Χρήση ιεραρχικής ταξινόμησης Χρήση απλοϊκού κατηγοριοποιητή κατά Bayes Χρήση απλοϊκού κατηγοριοποιητή κατά Bayes Βασική ιδέα: o προκαθορισμός ορισμένων σελίδων ως σχετικές, η χρήση ιεραρχίας, η κατηγοριοποίηση, η επίσκεψη σε ένα κόμβο αν υπάρχει πρόγονος που είναι καλός Βασική ιδέα: o προκαθορισμός ορισμένων σελίδων ως σχετικές, η χρήση ιεραρχίας, η κατηγοριοποίηση, η επίσκεψη σε ένα κόμβο αν υπάρχει πρόγονος που είναι καλός

Context Focused Crawler (εστιασμένος σε συμφραζόμενα crawler) Γράφος Συμφραζομένων (Context Graph): Γράφος Συμφραζομένων (Context Graph): Δημιουργείται για κάθε γόνο (seed document) με ρίζα αυτόν Δημιουργείται για κάθε γόνο (seed document) με ρίζα αυτόν Κόμβοι σε κάθε επίπεδο επιδεικνύουν κείμενα με συνδέσμους σε κείμενα του επομένου επιπέδου Κόμβοι σε κάθε επίπεδο επιδεικνύουν κείμενα με συνδέσμους σε κείμενα του επομένου επιπέδου Ενημερώνεται κατά τη διάρκεια της διαπέρασης Ενημερώνεται κατά τη διάρκεια της διαπέρασης Συγχώνευσε και δημιούργησε ένα ενιαίο context graph Συγχώνευσε και δημιούργησε ένα ενιαίο context graph Πραγματοποίησε τη διαπέραση χρησιμοποιώντας τους classifiers και τον ενιαίο context graph Πραγματοποίησε τη διαπέραση χρησιμοποιώντας τους classifiers και τον ενιαίο context graph

Μπορεί να υπάρχουν σελίδες που είναι μη σχετικές αλλά έχουν συνδέσμους προς σχετικές σελίδες. Μπορεί να υπάρχουν σελίδες που είναι μη σχετικές αλλά έχουν συνδέσμους προς σχετικές σελίδες. Μπορεί να υπάρχουν σχετικές σελίδες, με χρήσιμους εξερχόμενους συνδέσμους χωρίς όμως να υπάρχουν σχετικές σελίδες που δείχνουν σε αυτές Μπορεί να υπάρχουν σχετικές σελίδες, με χρήσιμους εξερχόμενους συνδέσμους χωρίς όμως να υπάρχουν σχετικές σελίδες που δείχνουν σε αυτές Προβλήματα

Context Graph Χρήση tf-idf μετρικής

Υπερβατική όψη Παγκόσμιου Ιστού (προσέγγιση Β.Δ.) Πολλαπλών Επιπέδων Βάση Δεδομένων (MLDB) πάνω από τα δεδομένα του παγκόσμιου ιστού. Πολλαπλών Επιπέδων Βάση Δεδομένων (MLDB) πάνω από τα δεδομένα του παγκόσμιου ιστού. Κάθε επίπεδο είναι πιο γενικευμένο (και μικρότερο) και πιο κεντρικοποιημένο από το κάτω από αυτό (τελευταίο επίπεδο είναι ο παγκόσμιος ιστός). Κάθε επίπεδο είναι πιο γενικευμένο (και μικρότερο) και πιο κεντρικοποιημένο από το κάτω από αυτό (τελευταίο επίπεδο είναι ο παγκόσμιος ιστός). Τα ανωτέρω επίπεδα της MLDB είναι δομημένα και μπορούν να προσπελαστούν με SQL type queries. Τα ανωτέρω επίπεδα της MLDB είναι δομημένα και μπορούν να προσπελαστούν με SQL type queries. Δεν απαιτείται η χρήση spiders, υπεύθυνοι για ενημέρωση οι εξυπηρετητές Δεν απαιτείται η χρήση spiders, υπεύθυνοι για ενημέρωση οι εξυπηρετητές Εργαλεία μετάφρασης μετατρέπουν τα Web documents σε XML και στη συνέχεια εργαλεία εξαγωγής εξάγουν την απαραίτητη πληροφορία και την τοποθετούν στο πρώτο επίπεδο της Β.Δ. Εργαλεία μετάφρασης μετατρέπουν τα Web documents σε XML και στη συνέχεια εργαλεία εξαγωγής εξάγουν την απαραίτητη πληροφορία και την τοποθετούν στο πρώτο επίπεδο της Β.Δ. Υψηλότερα επίπεδα γίνονται λιγότερο κατανεμημένα και περισσότερο συνοπτικά. Προτείνονται εργαλεία γενίκευσης και χρησιμοποιούνται ιεραρχίες εννοιών (μπορούν να δημιουργηθούν χρησιμοποιώντας το Wordnet Semantic Network) – χρήση WebML. Υψηλότερα επίπεδα γίνονται λιγότερο κατανεμημένα και περισσότερο συνοπτικά. Προτείνονται εργαλεία γενίκευσης και χρησιμοποιούνται ιεραρχίες εννοιών (μπορούν να δημιουργηθούν χρησιμοποιώντας το Wordnet Semantic Network) – χρήση WebML.

Εξατομίκευση Η προσπέλαση σε δικτυακούς τόπους ή περιεχόμενα, ρυθμίζεται για να προσαρμόζεται στις προτιμήσεις του χρήστη. Η προσπέλαση σε δικτυακούς τόπους ή περιεχόμενα, ρυθμίζεται για να προσαρμόζεται στις προτιμήσεις του χρήστη. Μη αυτόματες τεχνικές εκτελούν εξατομίκευση μέσω της καταγραφής των προτιμήσεων των χρηστών ή μέσω της χρήσης κανόνων που χρησιμοποιούνται για την κατηγοριοποίηση των ανθρώπων με βάση τα προφίλ ή τα δημογραφικά. Μη αυτόματες τεχνικές εκτελούν εξατομίκευση μέσω της καταγραφής των προτιμήσεων των χρηστών ή μέσω της χρήσης κανόνων που χρησιμοποιούνται για την κατηγοριοποίηση των ανθρώπων με βάση τα προφίλ ή τα δημογραφικά. Το Συνεργατικό φιλτράρισμα επιτυγχάνει εξατομίκευση συνιστώντας την πληροφορία που έχει λάβει υψηλό βαθμό προτίμησης από άλλους χρήστες. Το Συνεργατικό φιλτράρισμα επιτυγχάνει εξατομίκευση συνιστώντας την πληροφορία που έχει λάβει υψηλό βαθμό προτίμησης από άλλους χρήστες. Το φιλτράρισμα με βάση το περιεχόμενο ανακτά σελίδες με βάση την ομοιότητα μεταξύ αυτών και των προφίλ των χρηστών. Το φιλτράρισμα με βάση το περιεχόμενο ανακτά σελίδες με βάση την ομοιότητα μεταξύ αυτών και των προφίλ των χρηστών.

Web Structure Mining Εξόρυξη Δομής (σύνδεσμοι, γράφημα) του παγκόσμιου ιστού Εξόρυξη Δομής (σύνδεσμοι, γράφημα) του παγκόσμιου ιστού Τεχνικές Τεχνικές PageRank PageRank CLEVER CLEVER Δημιουργία μοντέλου της οργάνωσης του Παγκόσμιου Ιστού. Δημιουργία μοντέλου της οργάνωσης του Παγκόσμιου Ιστού. Μπορεί να συνδυαστεί με εξόρυξη περιεχομένου για να ανακτήσει σημαντικές σελίδες. Μπορεί να συνδυαστεί με εξόρυξη περιεχομένου για να ανακτήσει σημαντικές σελίδες.

Ranking and Link Analysis Searching the Web O τρόπος διασύνδεσης των σελίδων μπορεί να μας δώσει σημαντική επιπλέον πληροφορία ! PageRank : “The pagerank citation ranking:Bringing order to the web”. Lawrence Page, Sergey Brin, Rajeev Motwani, and Terry Winograd. Technical report, Computer Science Department, Stanford University,1998. (Google) HITS: ”Authoritative sources in a hyperlinked environment”. Jon Kleinberg. Journal of the ACM, 46(5): , November (Clever – IBM).

PageRank Searching the Web Κάθε σελίδα λαμβάνει μία βαθμολογία που εκφράζει την «σημαντικότητα» της (αριθμό υπερδεσμών εισόδου ή συνολικό αριθμό υπερδεσμών εισόδου και εξόδου) #in_links=760 #in_links=

PageRank strongly connected graph

PageRank Searching the Web random surfer model

PageRank Searching the Web random surfer model

Λεπτομέρειες Υπολογισμού (1) Μία αλυσίδα Markov αποτελείται από n καταστάσεις, και ένα n  n πιθανοτικό πίνακα μεταβάσεων P. Μία αλυσίδα Markov αποτελείται από n καταστάσεις, και ένα n  n πιθανοτικό πίνακα μεταβάσεων P. Σε κάθε βήμα, είμαστε σε μία μόνο από τις καταστάσεις. Σε κάθε βήμα, είμαστε σε μία μόνο από τις καταστάσεις. Για 1  i,j  n, το στοιχείο Pij μας δίνει τη πιθανότητα το j να βρίσκεται στην επόμενη κατάσταση, υποθέτοντας ότι βρισκόμαστε στην κατάσταση i. Για 1  i,j  n, το στοιχείο Pij μας δίνει τη πιθανότητα το j να βρίσκεται στην επόμενη κατάσταση, υποθέτοντας ότι βρισκόμαστε στην κατάσταση i. Μία Markov chain είναι εργοδική εάν Μία Markov chain είναι εργοδική εάν Υπάρχει μονοπάτι από κάθε κατάσταση σε άλλη Υπάρχει μονοπάτι από κάθε κατάσταση σε άλλη Μπορούμε να βρισκόμαστε σε κάθε κατάσταση κάθε στιγμή με μη μηδενική πιθανότητα. Μπορούμε να βρισκόμαστε σε κάθε κατάσταση κάθε στιγμή με μη μηδενική πιθανότητα.

Λεπτομέρειες Υπολογισμού (2) Για κάθε εργοδική Markov αλυσίδα, υπάρχει μία Steady-state distribution. Για κάθε εργοδική Markov αλυσίδα, υπάρχει μία Steady-state distribution. Έστω a = (a 1, … a n ) το row vector με τις steady- state πιθανότητες. Έστω a = (a 1, … a n ) το row vector με τις steady- state πιθανότητες. Εάν η τρέχουσα θέση περιγράφεται με a, τότε η επόμενη περιγράφεται με aP. Εάν η τρέχουσα θέση περιγράφεται με a, τότε η επόμενη περιγράφεται με aP. Άρα a=aP, και συνεπώς Άρα a=aP, και συνεπώς το a είναι το (αριστερό) ιδιοδιάνυσμα του P. το a είναι το (αριστερό) ιδιοδιάνυσμα του P. (αντιστοιχεί στο “βασικό” ιδιοδιάνυσμα του P με τη μεγαλύτερη ιδιοτιμή.) (αντιστοιχεί στο “βασικό” ιδιοδιάνυσμα του P με τη μεγαλύτερη ιδιοτιμή.)

Hypertext Induced Topic Search (HITS) Searching the Web Χρησιμοποιεί μηχανισμό αξιολόγησης που εξαρτάται από ένα ερώτημα Q. authority hub Q=“greek university” Authority : students.ceid.upatras.gr/~antonid Hub: Universities Worldwide

Hypertext Induced Topic Search (HITS) Searching the Web Απάντηση στο Q R S : root set (~10 3 ) S: focused subgraph max{d}

Hypertext Induced Topic Search (HITS)

Searching the Web

Hypertext Induced Topic Search (HITS)

Searching the Web Graph structure in the Web, Computer Networks,2000. Andrei Broder, Ravi Kumar, et al.

Για τυχαίες σελίδες p1,p2: Για τυχαίες σελίδες p1,p2: Pr[p1 να προσπελαύνεται από p2] ~ 1/4 Pr[p1 να προσπελαύνεται από p2] ~ 1/4 Μέγιστη απόσταση μεταξύ 2 SCC κόμβων: >28 Μέγιστη απόσταση μεταξύ 2 SCC κόμβων: >28 Μέση κατευθυνόμενη απόσταση μεταξύ 2 κόμβων: ~16 Μέση κατευθυνόμενη απόσταση μεταξύ 2 κόμβων: ~16 Μέση μη κατευθυνόμενη απόσταση: ~7 Μέση μη κατευθυνόμενη απόσταση: ~7

Power Laws - Γενικά Δύο ποσότητες x και y συνδέονται με έναν power law όταν Δύο ποσότητες x και y συνδέονται με έναν power law όταν y  x-c  log y = -c*log x y  x-c  log y = -c*log x

Ένας γνωστός power law Κατανομή Zipf Κατανομή Zipf y : συχνότητα λέξης σε κείμενο y : συχνότητα λέξης σε κείμενο x : o x-οστός πιο συχνός όρος x : o x-οστός πιο συχνός όρος Power law για c=1 Power law για c=1 y  1/x y  1/x

Power laws και στο Web? Broder et. al Broder et. al y = #links που εισέρχονται σε σελίδα i y = #links που εισέρχονται σε σελίδα i x = #σελίδων με y εισερχόμενα links x = #σελίδων με y εισερχόμενα links y  x-2.09 y  x-2.09

Power laws και στο Web? (συνέχεια) (συνέχεια) y = #links που εξέρχονται από σελίδα i y = #links που εξέρχονται από σελίδα i x = #σελίδων με y εξερχόμενα links x = #σελίδων με y εξερχόμενα links y  x-2.72 y  x-2.72

Χρησιμότητα Παρατήρησης Βοηθάει στην κατανόηση και πρόβλεψη της εξέλιξης του Web Βοηθάει στην κατανόηση και πρόβλεψη της εξέλιξης του Web Βοηθάει στην κατασκευή νέων αλγορίθμων ταξινόμησης Βοηθάει στην κατασκευή νέων αλγορίθμων ταξινόμησης Εκτέλεση προσομοιώσεων σε σχέση με το Web Εκτέλεση προσομοιώσεων σε σχέση με το Web Μοντελοποίηση του Web Μοντελοποίηση του Web

Για τον t+1 φτιάξε d συνδέσμους d>1 Για τον t+1 φτιάξε d συνδέσμους d>1 Πως επιλέγεται ο ι-στος σύνδεσμος? Πως επιλέγεται ο ι-στος σύνδεσμος? v t+1 Πιθανότητα α μια τυχαία σελίδα Πιθανότητα 1-α ο i-στός σύνδεσμος του v

Γενικά Εφαρμογές: Εφαρμογές: σχεδιασμός web sites σχεδιασμός web sites υποστήριξη επιχειρηματικών αποφάσεων και αποφάσεων marketing υποστήριξη επιχειρηματικών αποφάσεων και αποφάσεων marketing εξατομίκευση εξατομίκευση μελέτες χρηστικότητας μελέτες χρηστικότητας ανάλυση της κίνησης του δικτύου ανάλυση της κίνησης του δικτύου ασφάλεια ασφάλεια Προκλήσεις: Προκλήσεις: προεπεξεργασία της ακατέργαστης πληροφορίας προεπεξεργασία της ακατέργαστης πληροφορίας φιλτράρισμα των αποτελεσμάτων των αλγορίθμων data mining φιλτράρισμα των αποτελεσμάτων των αλγορίθμων data mining Ορισμός: Ορισμός: Το Web Usage Mining είναι η εφαρμογή τεχνικών data mining σε δεδομένα Web με σκοπό την εξαγωγή προτύπων (patterns) που αφορούν τον τρόπο χρήσης του.

Web Usage Mining Activities Προπαρασκευή Web log (σύνολο τριπλετών (u i, p i, t i )) Προπαρασκευή Web log (σύνολο τριπλετών (u i, p i, t i )) Φιιλτράρισμα Φιιλτράρισμα Απομάκρυνση μη αξιοποιήσιμης πληροφορίας Απομάκρυνση μη αξιοποιήσιμης πληροφορίας Χωρισμός σε συνόδους (sessions) Χωρισμός σε συνόδους (sessions) Σύνοδος: ακολουθία σελίδων που αναφέρονται από ένα χρήστη κατά τη διάρκεια μίας λογικής περιόδου Σύνοδος: ακολουθία σελίδων που αναφέρονται από ένα χρήστη κατά τη διάρκεια μίας λογικής περιόδου Προβλήματα (χρήση cookies), δομές δεδομένων (tries, patricia tries) Προβλήματα (χρήση cookies), δομές δεδομένων (tries, patricia tries) Αναγνώριση προτύπων Αναγνώριση προτύπων Κατέγραψε πρότυπα που συμβαίνουν σε συνόδους. Κατέγραψε πρότυπα που συμβαίνουν σε συνόδους. Πρότυπο είναι μία ακολουθία σελίδων που αναφέρεται σε μία σύνοδο. Πρότυπο είναι μία ακολουθία σελίδων που αναφέρεται σε μία σύνοδο. Παρόμοιο με κανόνες συσχέτισης Παρόμοιο με κανόνες συσχέτισης Συναλλαγή: σύνοδος Συναλλαγή: σύνοδος Itemset: πρότυπο (ή υποσύνολο) Itemset: πρότυπο (ή υποσύνολο) Η σειρά είναι σημαντική Η σειρά είναι σημαντική Ανάλυση προτύπων Ανάλυση προτύπων

Web Log Cleansing Replace source IP address with unique but non-identifying ID. Replace source IP address with unique but non-identifying ID. Replace exact URL of pages referenced with unique but non-identifying ID. Replace exact URL of pages referenced with unique but non-identifying ID. Delete error records and records containing not page data (such as figures and code) Delete error records and records containing not page data (such as figures and code)

Sessionizing Divide Web log into sessions. Divide Web log into sessions. Two common techniques: Two common techniques: Number of consecutive page references from a source IP address occurring within a predefined time interval (e.g. 25 minutes). Number of consecutive page references from a source IP address occurring within a predefined time interval (e.g. 25 minutes). All consecutive page references from a source IP address where the interclick time is less than a predefined threshold. All consecutive page references from a source IP address where the interclick time is less than a predefined threshold.

Διάταξη Διπλο- αναφορές Συνεχόμενες Μέγιστο πρότυπο Υποστήριξη Κ.Σ.ΌΧΙΟΧΙΌΧΙΟΧΙ Freq(X)/#transacti ons ΕπεισόδιαΝΑΙΌΧΙΌΧΙΌΧΙ Freq(X)/#timewind ows Ακολουθιακά Πρότυπα ΝΑΙΌΧΙΌΧΙΝΑΙ Freq(X)/#customer s Μέγιστες Εμπρόσθιες Ακολουθίες ΝΑΙΟΧΙΝΑΙΝΑΙ Freq(X)/#forward sequences Μέγιστες Συχνές Ακολουθίες ΝΑΙΝΑΙΝΑΙΝΑΙFreq(X)/#clicks