Η παρουσίαση φορτώνεται. Παρακαλείστε να περιμένετε

Η παρουσίαση φορτώνεται. Παρακαλείστε να περιμένετε

Web Mining. Στόχος: μελέτη της εφαρμογής τεχνικών Εξόρυξης Γνώσης στον Παγκόσμιο Ιστό Στόχος: μελέτη της εφαρμογής τεχνικών Εξόρυξης Γνώσης στον Παγκόσμιο.

Παρόμοιες παρουσιάσεις


Παρουσίαση με θέμα: "Web Mining. Στόχος: μελέτη της εφαρμογής τεχνικών Εξόρυξης Γνώσης στον Παγκόσμιο Ιστό Στόχος: μελέτη της εφαρμογής τεχνικών Εξόρυξης Γνώσης στον Παγκόσμιο."— Μεταγράφημα παρουσίασης:

1 Web Mining

2 Στόχος: μελέτη της εφαρμογής τεχνικών Εξόρυξης Γνώσης στον Παγκόσμιο Ιστό Στόχος: μελέτη της εφαρμογής τεχνικών Εξόρυξης Γνώσης στον Παγκόσμιο Ιστό Εξόρυξη Γνώσης από το Περιεχόμενο του Παγκόσμιου Ιστού (Web Content Mining) Εξόρυξη Γνώσης από το Περιεχόμενο του Παγκόσμιου Ιστού (Web Content Mining) Εξόρυξη Γνώσης από τη Δομή του Παγκόσμιου Ιστού (Web Structure Mining) Εξόρυξη Γνώσης από τη Δομή του Παγκόσμιου Ιστού (Web Structure Mining) Εξόρυξη Γνώσης από τη Χρήση του Παγκόσμιου Ιστού (Web Usage Mining) Εξόρυξη Γνώσης από τη Χρήση του Παγκόσμιου Ιστού (Web Usage Mining)

3 Web Mining Εισαγωγή Τεράστιο μέγεθος Τεράστιο μέγεθος 2-10B στατικές σελίδες, διπλασιαζόμενες κάθε 8-12 μήνες 2-10B στατικές σελίδες, διπλασιαζόμενες κάθε 8-12 μήνες Μέγεθος Λεξικού: 10-100άδες εκατομμύρια λέξεις Μέγεθος Λεξικού: 10-100άδες εκατομμύρια λέξεις http://www.netcraft.com/Survey

4 Web Data No design/co-ordination No design/co-ordination Distributed content creation, linking, democratization of publishing Distributed content creation, linking, democratization of publishing Content includes truth, lies, obsolete information, contradictions … Content includes truth, lies, obsolete information, contradictions … Unstructured (text, html, …), semi-structured (XML, annotated photos), structured (Databases)… Unstructured (text, html, …), semi-structured (XML, annotated photos), structured (Databases)… Scale much larger than previous text corpora, and also corporate records are catching up. Scale much larger than previous text corpora, and also corporate records are catching up. Growth – slowed down from initial “volume doubling every few months” but still expanding Growth – slowed down from initial “volume doubling every few months” but still expanding Content can be dynamically generated Content can be dynamically generated The Web

5 Web Mining Taxonomy

6 Web Content Mining Βασικό συστατικό των μηχανών αναζήτησης Βασικό συστατικό των μηχανών αναζήτησης Εφαρμογές Εφαρμογές Ιεραρχίες εννοιών και συνώνυμα Ιεραρχίες εννοιών και συνώνυμα Προφίλ χρηστών Προφίλ χρηστών Ανάλυση συνδέσμου μεταξύ σελίδων Ανάλυση συνδέσμου μεταξύ σελίδων Τεχνικής περιληπτικής παρουσίασης πληροφορίας μέσω λέξεων κλειδιών Τεχνικής περιληπτικής παρουσίασης πληροφορίας μέσω λέξεων κλειδιών Δύο κατηγοριών (βασισμένή σε πράκτορες, βασισμένη σε συστήματα βάσεων δεδομένων) Δύο κατηγοριών (βασισμένή σε πράκτορες, βασισμένη σε συστήματα βάσεων δεδομένων)

7 Keyword Term Association Similarity Search ClassificationClustering Natural Language Processing

8 Crawlers Robot (spider) διαπερνά την υπερκειμενική δομή του παγκόσμιου ιστού, συλλέγοντας πληροφορίας Robot (spider) διαπερνά την υπερκειμενική δομή του παγκόσμιου ιστού, συλλέγοντας πληροφορίας Κλασσικός Crawler – επισκέπτεται ολόκληρο το παγκόσμιο ιστό και αντικαθιστά δεικτοδοτητή. Κλασσικός Crawler – επισκέπτεται ολόκληρο το παγκόσμιο ιστό και αντικαθιστά δεικτοδοτητή. Περιοδικός Crawler – επισκέπτεται τμήματα του παγκόσμιου ιστού και ενημερώνει υποσύνολα του δεικτοδοτητή. Περιοδικός Crawler – επισκέπτεται τμήματα του παγκόσμιου ιστού και ενημερώνει υποσύνολα του δεικτοδοτητή. Αυξητικός Crawler – επιλεκτικά ψάχνει το παγκόσμιο ιστό και αυξητικά ενημερώνει δεικτοδοτητή. Αυξητικός Crawler – επιλεκτικά ψάχνει το παγκόσμιο ιστό και αυξητικά ενημερώνει δεικτοδοτητή. Εστιασμένος Crawler – επισκέπτεται σελίδες σχετικές με ένα θεματικό αντικείμενο. Εστιασμένος Crawler – επισκέπτεται σελίδες σχετικές με ένα θεματικό αντικείμενο.

9 Διαπερνώντας το διαδίκτυο (Crawling) ποιες σελίδες πρέπει να προσπελαστούν ; τι γίνεται όταν το περιεχόμενο των σελίδων μεταβάλλεται ; (refresh policy) πως πραγματοποιείται εστιασμένη διαπέραση; Διαπερνώντας τον Παγκόσμιο Ιστό

10 URLs crawled and parsed Unseen Web Seed Pages URL frontier Crawling thread

11 Crawling - Επιλογή Σελίδων – Μετρικές Σημαντικότητας Searching the Web Interest Driven

12 Crawling - Επιλογή Σελίδων – Μετρικές Σπουδαιότητας Searching the Web Interest Driven & Ομοιότητα Κειμένων “A new approach to topic-specific web resource discovery” Chakrabarti et al. 8 th WWW conference 1999

13 Crawling - Επιλογή Σελίδων – Μετρικές Σπουδαιότητας Popularity Driven Location Driven

14 Crawling - Ανανέωση Σελίδων f=σταθερή f=F(λ i )

15 Focused Crawler Χρήση ιεραρχικής ταξινόμησης Χρήση ιεραρχικής ταξινόμησης Χρήση απλοϊκού κατηγοριοποιητή κατά Bayes Χρήση απλοϊκού κατηγοριοποιητή κατά Bayes Βασική ιδέα: o προκαθορισμός ορισμένων σελίδων ως σχετικές, η χρήση ιεραρχίας, η κατηγοριοποίηση, η επίσκεψη σε ένα κόμβο αν υπάρχει πρόγονος που είναι καλός Βασική ιδέα: o προκαθορισμός ορισμένων σελίδων ως σχετικές, η χρήση ιεραρχίας, η κατηγοριοποίηση, η επίσκεψη σε ένα κόμβο αν υπάρχει πρόγονος που είναι καλός

16 Context Focused Crawler (εστιασμένος σε συμφραζόμενα crawler) Γράφος Συμφραζομένων (Context Graph): Γράφος Συμφραζομένων (Context Graph): Δημιουργείται για κάθε γόνο (seed document) με ρίζα αυτόν Δημιουργείται για κάθε γόνο (seed document) με ρίζα αυτόν Κόμβοι σε κάθε επίπεδο επιδεικνύουν κείμενα με συνδέσμους σε κείμενα του επομένου επιπέδου Κόμβοι σε κάθε επίπεδο επιδεικνύουν κείμενα με συνδέσμους σε κείμενα του επομένου επιπέδου Ενημερώνεται κατά τη διάρκεια της διαπέρασης Ενημερώνεται κατά τη διάρκεια της διαπέρασης Συγχώνευσε και δημιούργησε ένα ενιαίο context graph Συγχώνευσε και δημιούργησε ένα ενιαίο context graph Πραγματοποίησε τη διαπέραση χρησιμοποιώντας τους classifiers και τον ενιαίο context graph Πραγματοποίησε τη διαπέραση χρησιμοποιώντας τους classifiers και τον ενιαίο context graph

17 Μπορεί να υπάρχουν σελίδες που είναι μη σχετικές αλλά έχουν συνδέσμους προς σχετικές σελίδες. Μπορεί να υπάρχουν σελίδες που είναι μη σχετικές αλλά έχουν συνδέσμους προς σχετικές σελίδες. Μπορεί να υπάρχουν σχετικές σελίδες, με χρήσιμους εξερχόμενους συνδέσμους χωρίς όμως να υπάρχουν σχετικές σελίδες που δείχνουν σε αυτές Μπορεί να υπάρχουν σχετικές σελίδες, με χρήσιμους εξερχόμενους συνδέσμους χωρίς όμως να υπάρχουν σχετικές σελίδες που δείχνουν σε αυτές Προβλήματα

18 Context Graph Χρήση tf-idf μετρικής

19 Υπερβατική όψη Παγκόσμιου Ιστού (προσέγγιση Β.Δ.) Πολλαπλών Επιπέδων Βάση Δεδομένων (MLDB) πάνω από τα δεδομένα του παγκόσμιου ιστού. Πολλαπλών Επιπέδων Βάση Δεδομένων (MLDB) πάνω από τα δεδομένα του παγκόσμιου ιστού. Κάθε επίπεδο είναι πιο γενικευμένο (και μικρότερο) και πιο κεντρικοποιημένο από το κάτω από αυτό (τελευταίο επίπεδο είναι ο παγκόσμιος ιστός). Κάθε επίπεδο είναι πιο γενικευμένο (και μικρότερο) και πιο κεντρικοποιημένο από το κάτω από αυτό (τελευταίο επίπεδο είναι ο παγκόσμιος ιστός). Τα ανωτέρω επίπεδα της MLDB είναι δομημένα και μπορούν να προσπελαστούν με SQL type queries. Τα ανωτέρω επίπεδα της MLDB είναι δομημένα και μπορούν να προσπελαστούν με SQL type queries. Δεν απαιτείται η χρήση spiders, υπεύθυνοι για ενημέρωση οι εξυπηρετητές Δεν απαιτείται η χρήση spiders, υπεύθυνοι για ενημέρωση οι εξυπηρετητές Εργαλεία μετάφρασης μετατρέπουν τα Web documents σε XML και στη συνέχεια εργαλεία εξαγωγής εξάγουν την απαραίτητη πληροφορία και την τοποθετούν στο πρώτο επίπεδο της Β.Δ. Εργαλεία μετάφρασης μετατρέπουν τα Web documents σε XML και στη συνέχεια εργαλεία εξαγωγής εξάγουν την απαραίτητη πληροφορία και την τοποθετούν στο πρώτο επίπεδο της Β.Δ. Υψηλότερα επίπεδα γίνονται λιγότερο κατανεμημένα και περισσότερο συνοπτικά. Προτείνονται εργαλεία γενίκευσης και χρησιμοποιούνται ιεραρχίες εννοιών (μπορούν να δημιουργηθούν χρησιμοποιώντας το Wordnet Semantic Network) – χρήση WebML. Υψηλότερα επίπεδα γίνονται λιγότερο κατανεμημένα και περισσότερο συνοπτικά. Προτείνονται εργαλεία γενίκευσης και χρησιμοποιούνται ιεραρχίες εννοιών (μπορούν να δημιουργηθούν χρησιμοποιώντας το Wordnet Semantic Network) – χρήση WebML.

20 Εξατομίκευση Η προσπέλαση σε δικτυακούς τόπους ή περιεχόμενα, ρυθμίζεται για να προσαρμόζεται στις προτιμήσεις του χρήστη. Η προσπέλαση σε δικτυακούς τόπους ή περιεχόμενα, ρυθμίζεται για να προσαρμόζεται στις προτιμήσεις του χρήστη. Μη αυτόματες τεχνικές εκτελούν εξατομίκευση μέσω της καταγραφής των προτιμήσεων των χρηστών ή μέσω της χρήσης κανόνων που χρησιμοποιούνται για την κατηγοριοποίηση των ανθρώπων με βάση τα προφίλ ή τα δημογραφικά. Μη αυτόματες τεχνικές εκτελούν εξατομίκευση μέσω της καταγραφής των προτιμήσεων των χρηστών ή μέσω της χρήσης κανόνων που χρησιμοποιούνται για την κατηγοριοποίηση των ανθρώπων με βάση τα προφίλ ή τα δημογραφικά. Το Συνεργατικό φιλτράρισμα επιτυγχάνει εξατομίκευση συνιστώντας την πληροφορία που έχει λάβει υψηλό βαθμό προτίμησης από άλλους χρήστες. Το Συνεργατικό φιλτράρισμα επιτυγχάνει εξατομίκευση συνιστώντας την πληροφορία που έχει λάβει υψηλό βαθμό προτίμησης από άλλους χρήστες. Το φιλτράρισμα με βάση το περιεχόμενο ανακτά σελίδες με βάση την ομοιότητα μεταξύ αυτών και των προφίλ των χρηστών. Το φιλτράρισμα με βάση το περιεχόμενο ανακτά σελίδες με βάση την ομοιότητα μεταξύ αυτών και των προφίλ των χρηστών.

21 Web Structure Mining Εξόρυξη Δομής (σύνδεσμοι, γράφημα) του παγκόσμιου ιστού Εξόρυξη Δομής (σύνδεσμοι, γράφημα) του παγκόσμιου ιστού Τεχνικές Τεχνικές PageRank PageRank CLEVER CLEVER Δημιουργία μοντέλου της οργάνωσης του Παγκόσμιου Ιστού. Δημιουργία μοντέλου της οργάνωσης του Παγκόσμιου Ιστού. Μπορεί να συνδυαστεί με εξόρυξη περιεχομένου για να ανακτήσει σημαντικές σελίδες. Μπορεί να συνδυαστεί με εξόρυξη περιεχομένου για να ανακτήσει σημαντικές σελίδες.

22 Ranking and Link Analysis Searching the Web O τρόπος διασύνδεσης των σελίδων μπορεί να μας δώσει σημαντική επιπλέον πληροφορία ! PageRank : “The pagerank citation ranking:Bringing order to the web”. Lawrence Page, Sergey Brin, Rajeev Motwani, and Terry Winograd. Technical report, Computer Science Department, Stanford University,1998. (Google) HITS: ”Authoritative sources in a hyperlinked environment”. Jon Kleinberg. Journal of the ACM, 46(5):604-632, November 1999. (Clever – IBM).

23 PageRank Searching the Web Κάθε σελίδα λαμβάνει μία βαθμολογία που εκφράζει την «σημαντικότητα» της (αριθμό υπερδεσμών εισόδου ή συνολικό αριθμό υπερδεσμών εισόδου και εξόδου) www.upatras.gr #in_links=760 www.stanford.edu #in_links=33600 www.upatras.gr www.stanford.edu

24 PageRank strongly connected graph

25 PageRank Searching the Web random surfer model

26 PageRank Searching the Web random surfer model

27 Λεπτομέρειες Υπολογισμού (1) Μία αλυσίδα Markov αποτελείται από n καταστάσεις, και ένα n  n πιθανοτικό πίνακα μεταβάσεων P. Μία αλυσίδα Markov αποτελείται από n καταστάσεις, και ένα n  n πιθανοτικό πίνακα μεταβάσεων P. Σε κάθε βήμα, είμαστε σε μία μόνο από τις καταστάσεις. Σε κάθε βήμα, είμαστε σε μία μόνο από τις καταστάσεις. Για 1  i,j  n, το στοιχείο Pij μας δίνει τη πιθανότητα το j να βρίσκεται στην επόμενη κατάσταση, υποθέτοντας ότι βρισκόμαστε στην κατάσταση i. Για 1  i,j  n, το στοιχείο Pij μας δίνει τη πιθανότητα το j να βρίσκεται στην επόμενη κατάσταση, υποθέτοντας ότι βρισκόμαστε στην κατάσταση i. Μία Markov chain είναι εργοδική εάν Μία Markov chain είναι εργοδική εάν Υπάρχει μονοπάτι από κάθε κατάσταση σε άλλη Υπάρχει μονοπάτι από κάθε κατάσταση σε άλλη Μπορούμε να βρισκόμαστε σε κάθε κατάσταση κάθε στιγμή με μη μηδενική πιθανότητα. Μπορούμε να βρισκόμαστε σε κάθε κατάσταση κάθε στιγμή με μη μηδενική πιθανότητα.

28 Λεπτομέρειες Υπολογισμού (2) Για κάθε εργοδική Markov αλυσίδα, υπάρχει μία Steady-state distribution. Για κάθε εργοδική Markov αλυσίδα, υπάρχει μία Steady-state distribution. Έστω a = (a 1, … a n ) το row vector με τις steady- state πιθανότητες. Έστω a = (a 1, … a n ) το row vector με τις steady- state πιθανότητες. Εάν η τρέχουσα θέση περιγράφεται με a, τότε η επόμενη περιγράφεται με aP. Εάν η τρέχουσα θέση περιγράφεται με a, τότε η επόμενη περιγράφεται με aP. Άρα a=aP, και συνεπώς Άρα a=aP, και συνεπώς το a είναι το (αριστερό) ιδιοδιάνυσμα του P. το a είναι το (αριστερό) ιδιοδιάνυσμα του P. (αντιστοιχεί στο “βασικό” ιδιοδιάνυσμα του P με τη μεγαλύτερη ιδιοτιμή.) (αντιστοιχεί στο “βασικό” ιδιοδιάνυσμα του P με τη μεγαλύτερη ιδιοτιμή.)

29 Hypertext Induced Topic Search (HITS) Searching the Web Χρησιμοποιεί μηχανισμό αξιολόγησης που εξαρτάται από ένα ερώτημα Q. authority hub Q=“greek university” Authority : www.upatras.gr www.auth.gr students.ceid.upatras.gr/~antonid Hub:www.gunet.gr Universities Worldwide http://geowww.uibk.ac.at/univ/world.html www.cti.gr

30 Hypertext Induced Topic Search (HITS) Searching the Web Απάντηση στο Q R S : root set (~10 3 ) S: focused subgraph max{d}

31 Hypertext Induced Topic Search (HITS)

32 Searching the Web

33 Hypertext Induced Topic Search (HITS)

34 Searching the Web Graph structure in the Web, Computer Networks,2000. Andrei Broder, Ravi Kumar, et al.

35 Για τυχαίες σελίδες p1,p2: Για τυχαίες σελίδες p1,p2: Pr[p1 να προσπελαύνεται από p2] ~ 1/4 Pr[p1 να προσπελαύνεται από p2] ~ 1/4 Μέγιστη απόσταση μεταξύ 2 SCC κόμβων: >28 Μέγιστη απόσταση μεταξύ 2 SCC κόμβων: >28 Μέση κατευθυνόμενη απόσταση μεταξύ 2 κόμβων: ~16 Μέση κατευθυνόμενη απόσταση μεταξύ 2 κόμβων: ~16 Μέση μη κατευθυνόμενη απόσταση: ~7 Μέση μη κατευθυνόμενη απόσταση: ~7

36 Power Laws - Γενικά Δύο ποσότητες x και y συνδέονται με έναν power law όταν Δύο ποσότητες x και y συνδέονται με έναν power law όταν y  x-c  log y = -c*log x y  x-c  log y = -c*log x

37 Ένας γνωστός power law Κατανομή Zipf Κατανομή Zipf y : συχνότητα λέξης σε κείμενο y : συχνότητα λέξης σε κείμενο x : o x-οστός πιο συχνός όρος x : o x-οστός πιο συχνός όρος Power law για c=1 Power law για c=1 y  1/x y  1/x

38 Power laws και στο Web? Broder et. al. 1999 Broder et. al. 1999 y = #links που εισέρχονται σε σελίδα i y = #links που εισέρχονται σε σελίδα i x = #σελίδων με y εισερχόμενα links x = #σελίδων με y εισερχόμενα links y  x-2.09 y  x-2.09

39 Power laws και στο Web? (συνέχεια) (συνέχεια) y = #links που εξέρχονται από σελίδα i y = #links που εξέρχονται από σελίδα i x = #σελίδων με y εξερχόμενα links x = #σελίδων με y εξερχόμενα links y  x-2.72 y  x-2.72

40 Χρησιμότητα Παρατήρησης Βοηθάει στην κατανόηση και πρόβλεψη της εξέλιξης του Web Βοηθάει στην κατανόηση και πρόβλεψη της εξέλιξης του Web Βοηθάει στην κατασκευή νέων αλγορίθμων ταξινόμησης Βοηθάει στην κατασκευή νέων αλγορίθμων ταξινόμησης Εκτέλεση προσομοιώσεων σε σχέση με το Web Εκτέλεση προσομοιώσεων σε σχέση με το Web Μοντελοποίηση του Web Μοντελοποίηση του Web

41 Για τον t+1 φτιάξε d συνδέσμους d>1 Για τον t+1 φτιάξε d συνδέσμους d>1 Πως επιλέγεται ο ι-στος σύνδεσμος? Πως επιλέγεται ο ι-στος σύνδεσμος? v t+1 Πιθανότητα α μια τυχαία σελίδα Πιθανότητα 1-α ο i-στός σύνδεσμος του v

42 Γενικά Εφαρμογές: Εφαρμογές: σχεδιασμός web sites σχεδιασμός web sites υποστήριξη επιχειρηματικών αποφάσεων και αποφάσεων marketing υποστήριξη επιχειρηματικών αποφάσεων και αποφάσεων marketing εξατομίκευση εξατομίκευση μελέτες χρηστικότητας μελέτες χρηστικότητας ανάλυση της κίνησης του δικτύου ανάλυση της κίνησης του δικτύου ασφάλεια ασφάλεια Προκλήσεις: Προκλήσεις: προεπεξεργασία της ακατέργαστης πληροφορίας προεπεξεργασία της ακατέργαστης πληροφορίας φιλτράρισμα των αποτελεσμάτων των αλγορίθμων data mining φιλτράρισμα των αποτελεσμάτων των αλγορίθμων data mining Ορισμός: Ορισμός: Το Web Usage Mining είναι η εφαρμογή τεχνικών data mining σε δεδομένα Web με σκοπό την εξαγωγή προτύπων (patterns) που αφορούν τον τρόπο χρήσης του.

43 Web Usage Mining Activities Προπαρασκευή Web log (σύνολο τριπλετών (u i, p i, t i )) Προπαρασκευή Web log (σύνολο τριπλετών (u i, p i, t i )) Φιιλτράρισμα Φιιλτράρισμα Απομάκρυνση μη αξιοποιήσιμης πληροφορίας Απομάκρυνση μη αξιοποιήσιμης πληροφορίας Χωρισμός σε συνόδους (sessions) Χωρισμός σε συνόδους (sessions) Σύνοδος: ακολουθία σελίδων που αναφέρονται από ένα χρήστη κατά τη διάρκεια μίας λογικής περιόδου Σύνοδος: ακολουθία σελίδων που αναφέρονται από ένα χρήστη κατά τη διάρκεια μίας λογικής περιόδου Προβλήματα (χρήση cookies), δομές δεδομένων (tries, patricia tries) Προβλήματα (χρήση cookies), δομές δεδομένων (tries, patricia tries) Αναγνώριση προτύπων Αναγνώριση προτύπων Κατέγραψε πρότυπα που συμβαίνουν σε συνόδους. Κατέγραψε πρότυπα που συμβαίνουν σε συνόδους. Πρότυπο είναι μία ακολουθία σελίδων που αναφέρεται σε μία σύνοδο. Πρότυπο είναι μία ακολουθία σελίδων που αναφέρεται σε μία σύνοδο. Παρόμοιο με κανόνες συσχέτισης Παρόμοιο με κανόνες συσχέτισης Συναλλαγή: σύνοδος Συναλλαγή: σύνοδος Itemset: πρότυπο (ή υποσύνολο) Itemset: πρότυπο (ή υποσύνολο) Η σειρά είναι σημαντική Η σειρά είναι σημαντική Ανάλυση προτύπων Ανάλυση προτύπων

44 Web Log Cleansing Replace source IP address with unique but non-identifying ID. Replace source IP address with unique but non-identifying ID. Replace exact URL of pages referenced with unique but non-identifying ID. Replace exact URL of pages referenced with unique but non-identifying ID. Delete error records and records containing not page data (such as figures and code) Delete error records and records containing not page data (such as figures and code)

45 Sessionizing Divide Web log into sessions. Divide Web log into sessions. Two common techniques: Two common techniques: Number of consecutive page references from a source IP address occurring within a predefined time interval (e.g. 25 minutes). Number of consecutive page references from a source IP address occurring within a predefined time interval (e.g. 25 minutes). All consecutive page references from a source IP address where the interclick time is less than a predefined threshold. All consecutive page references from a source IP address where the interclick time is less than a predefined threshold.

46 Διάταξη Διπλο- αναφορές Συνεχόμενες Μέγιστο πρότυπο Υποστήριξη Κ.Σ.ΌΧΙΟΧΙΌΧΙΟΧΙ Freq(X)/#transacti ons ΕπεισόδιαΝΑΙΌΧΙΌΧΙΌΧΙ Freq(X)/#timewind ows Ακολουθιακά Πρότυπα ΝΑΙΌΧΙΌΧΙΝΑΙ Freq(X)/#customer s Μέγιστες Εμπρόσθιες Ακολουθίες ΝΑΙΟΧΙΝΑΙΝΑΙ Freq(X)/#forward sequences Μέγιστες Συχνές Ακολουθίες ΝΑΙΝΑΙΝΑΙΝΑΙFreq(X)/#clicks


Κατέβασμα ppt "Web Mining. Στόχος: μελέτη της εφαρμογής τεχνικών Εξόρυξης Γνώσης στον Παγκόσμιο Ιστό Στόχος: μελέτη της εφαρμογής τεχνικών Εξόρυξης Γνώσης στον Παγκόσμιο."

Παρόμοιες παρουσιάσεις


Διαφημίσεις Google