Combating Web Spam with TrustRank ΑΛΕΞΙΟΥ ΣΤΑΥΡΟΥΛΑΑΜ:199.

Combating Web Spam with TrustRank ΑΛΕΞΙΟΥ ΣΤΑΥΡΟΥΛΑΑΜ:199

Πρόβλημα Οι web spam σελίδες χρησιμοποιούν ποικίλες τεχνικές για να επιτύχουν υψηλότερη διάταξη στα αποτελέσματα μιας μηχανής αναζήτησης. Ένας ειδικός μπορεί να διακρίνει το spam, ωστόσο είναι πολύ ακριβό να εκτιμήσουμε ένα μεγάλο αριθμό από σελίδες.

Περιγραφή της λύσης Προτείνουμε τεχνικές που ημιαυτόματα ξεχωρίζουν τις καλές σελίδες από τις spam. Αρχικά επιλέγουμε ένα μικρό σύνολο από σελίδες (seed pages) για να εκτιμηθούν από έναν ειδικό. Χρησιμοποιούμε τη δομή link του web για να ανακαλύψουμε άλλες σελίδες που είναι πιθανό να είναι καλές. Εξετάζουμε πιθανούς τρόπους για να εφαρμόσουμε την επιλογή των σελίδων-σπόρων και την ανακάλυψη των καλών σελίδων. Τα αποτελέσματα δείχνουν ότι μπορούμε αποτελεσματικά να φιλτράρουμε το spam από ένα σημαντικό κομμάτι του web, βασιζόμενοι σε ένα καλό σύνολο σπόρων από λιγότερα από 200 sites.

Τι είναι το Web Spam; Αναφέρεται σε υπερ-συνδεδεμένες σελίδες στο web που δημιουργούνται με την πρόθεση να παραπλανήσουν τις μηχανές αναζήτησης. Συνήθως προσθέτουν χιλιάδες keywords στην αρχική τους σελίδα, κάνοντας συχνά το κείμενο αόρατο για τους χρήστες. Έτσι, εισάγοντας πολλαπλές φορές τα keywords σε μια σελίδα και μάλιστα στο ίδιο χρώμα με το background της web σελίδας, τότε η σελίδα ανεβαίνει στη διάταξη των αποτελεσμάτων.

Web Spamming (1) Μια άλλη τεχνική είναι η δημιουργία πολλών ψεύτικων web σελίδων που όλες δείχνουν σε μια απλή σελίδα- στόχο. Πολλές μηχανές αναζήτησης λαμβάνουν υπόψιν τον αριθμό των εισερχόμενων link στη ταξινόμηση σελίδων. Έτσι, η ταξινόμηση της σελίδας-στόχου είναι πιθανό να αυξάνεται και εμφανίζεται πιο ψηλά στο σύνολο αποτελεσμάτων της ερώτησης.

Web Spamming (2) Όπως και με το email spam, το να διαπιστώσουμε αν μια σελίδα ή ένα σύνολο από σελίδες είναι spam είναι υποκειμενικό. Για παράδειγμα, θεωρούμε μια ομάδα από web sites που συνδέονται το ένα με τις σελίδες του άλλου. Αυτές οι συνδέσεις μπορεί να αναπαριστούν χρήσιμες σχέσεις μεταξύ των sites ή μπορεί να έχουν δημιουργηθεί με τη ξεκάθαρη πρόθεση να ενισχύσουν τη ταξινόμηση των σελίδων η μια με την άλλη. Γενικά, είναι δύσκολο να επιλέξουμε μεταξύ των δύο σεναρίων.

Ανίχνευση Spam σελίδων Είναι δύσκολο για έναν υπολογιστή να εντοπίσει περιπτώσεις spam σελίδων. Ειδικοί ανιχνεύουν το web spam, σκανάρωντας συνεχώς το web ψάχνοντας για παραβάτες. Όταν μια σελίδα spam ανιχνεύεται, η μηχανή αναζήτησης σταματά να τη “σέρνει” και το περιεχόμενό της δεν ευρετηριοποιείται πλέον. Διαδικασία ανίχνευσης spam: πολύ ακριβή και αργή αλλά κρίσιμη για την επιτυχία των μηχανών αναζήτησης. Χωρίς την απομάκρυνση των παραβατών, η ποιότητα των μηχανών αναζήτησης θα χειροτέρευε αισθητά.

Το μοντέλο Web Μοντελοποιούμε το web σαν ένα γράφο G = (V,E) που αποτελείται από ένα σύνολο V από N σελίδες (κόμβοι) και ένα σύνολο Ε από κατευθυνόμενα links (ακμές) που συνδέουν τις σελίδες. Ένας απλός web γράφος 4 σελίδων με 4 links: Θα μπορούσαμε στη θέση των web σελίδων να είχαμε web sites ως κόμβους του γράφου.

Ορισμοί Κάθε σελίδα έχει μερικά εισερχόμενα links ή inlinks και μερικά εξερχόμενα links ή outlinks. Ο αριθμός των inlinks μιας σελίδας p είναι το indegree i(p), ενώ ο αριθμός των outlinks είναι το outdegree ω(p). Σελίδες που δεν έχουν inlinks ονομάζονται unreferenced σελίδες. Σελίδες που δεν έχουν outlinks ονομάζονται non-referencing σελίδες. Σελίδες που είναι ταυτόχρονα και unreferenced και non-referencing ονομάζονται isolated σελίδες. 1 2 3 4 indegree i(3)=1 outdegree ω(3)=2 unreferenced σελίδα  1 non-referencing σελίδα  4

Πίνακες του Web γράφου Εισάγουμε δύο αναπαραστάσεις πινάκων του web γράφου. Αρχικά έχουμε το πίνακα μετάβασης Τ: Ορίζουμε επίσης τον αντίστροφο πίνακα μετάβασης U: ΠΡΟΣΟΧΗ! U≠T T

Αλγόριθμος PageRank(1) Ο PageRank χρησιμοποιεί πληροφορία link για να αναθέσει βαθμούς σημαντικότητας σε όλες τις σελίδες στο web. Μια σελίδα web είναι σημαντική εαν πολλές άλλες σημαντικές web σελίδες δείχνουν σε αυτή. Ο PageRank βασίζεται σε μια αμοιβαία ενίσχυση μεταξύ των σελίδων: η σημαντικότητα μιας συγκεκριμένης σελίδας επηρεάζει και επηρεάζεται από τη σημαντικότητα κάποιων άλλων σελίδων. Ορίζουμε τον PageRank βαθμό r μιας σελίδας p ως: όπου α ένας φθίνων παράγοντας

Αλγόριθμος PageRank(2) Βαθμός σελίδας p = μέρος από το βαθμό που προέρχεται από σελίδες που δείχνουν στο p + μέρος του βαθμού ίσο για όλες τις web σελίδες. Ο κανονικός PageRank αλγόριθμος αναθέτει το ίδιο βαθμό σε κάθε σελίδα. Ωστόσο, υπάρχει και μια άλλη εκδοχή (biased PageRank). Η εξίσωση πινάκων τότε είναι: Το διάνυσμα d χρησιμοποιείται για να αναθέσουμε ένα μη- μηδενικό βαθμό σε ένα σύνολο από ειδικές σελίδες μόνο. Ο βαθμός αυτών των ειδικών σελίδων διανέμεται κατά τη διάρκεια των αναδρομών στις σελίδες που αυτές δείχνουν.

Συνάρτηση Oracle Το να καθορίσεις αν μια σελίδα είναι spam είναι υποκειμενικό και απαιτεί ανθρώπινη εκτίμηση. Για το σκοπό αυτό, εισάγουμε μια δυαδική συνάρτηση Oracle (O) για κάθε σελίδα p που ανήκει στο V: 0, εάν p είναι κακή 1, εάν p είναι καλή Οι κλήσεις της συνάρτησης Oracle είναι ακριβές και καταναλώνουν χρόνο. Επομένως, για να ανακαλύψουμε τις καλές σελίδες χωρίς να χρειαστεί να καλέσουμε την Oracle σε ολόκληρο το Web βασιζόμαστε στο εξής: καλές σελίδες σπάνια δείχνουν σε κακές. O(p)=

Spam σελίδες Οι κακές σελίδες κατασκευάζονται για να παραπλανήσουν τις μηχανές αναζήτησης, όχι για να παρέχουν χρήσιμη πληροφορία! Έτσι, άνθρωποι που φτιάχνουν καλές σελίδες δεν έχουν λόγους να δείχνουν σε κακές σελίδες. Ωστόσο, μερικές φορές οι δημιουργοί των καλών σελίδων μπορούν να ξεγελαστούν και τότε βρίσκουμε καλές-σε-κακές συνδέσεις. Μερικές φορές spam sites προσφέρουν honey pot: ένα σύνολο από σελίδες που παρέχουν μερικούς χρήσιμους πόρους, αλλά που έχουν επίσης κρυμμένα links στις spam σελίδες τους. To honey pot προσελκύει σελίδες να δείχνουν σε αυτό, ενισχύοντας τη ταξινόμηση των spam σελίδων.

Web γράφος 7 σελίδων 2 5 4 3 7 6 1 * καλή σελίδα κακή σελίδα Oracle(1)=1 Oracle(6)=0

Συνάρτηση εμπιστοσύνης(1) Καθορίζουμε μια συνάρτηση εμπιστοσύνης Τ που παράγει μια τιμή μεταξύ 0 (κακή) και 1 (καλή). Ιδανικά, για κάθε σελίδα p, η Τ(p) θα πρέπει να δίνει τη πιθανότητα η p να είναι καλή. Ιδανική ιδιότητα εμπιστοσύνης: T(p) = Pr [O(p) = 1] Στη πράξη είναι πολύ δύσκολο να βρούμε μια συνάρτηση Τ με τη προηγούμενη ιδιότητα. Όμως, ακόμα κι αν η Τ δε μετρά με ακρίβεια τη πιθανότητα μια σελίδα να είναι καλή, θα ήταν χρήσιμο αν η Τ μας βοηθούσε να διατάξουμε τις σελίδες με βάση την πιθανότητα να είναι καλές.

Συνάρτηση εμπιστοσύνης(2) Μια επιθυμητή ιδιότητα για τη συνάρτηση εμπιστοσύνης είναι: Διατεταγμένη ιδιότητα εμπιστοσύνης: T(p) < T(q)  Pr [O(p) = 1] < Pr [O(q) = 1], T(p) = T(q)  Pr [O(p) = 1] = Pr [O(q) = 1] Έστω ένα ζευγάρι από σελίδες p και q και η p έχει μικρότερο βαθμό εμπιστοσύνης από την q. Τότε η p είναι λιγότερο πιθανό να είναι καλή από την q. Επίσης, μπορούμε να εισάγουμε μια τιμή κατωφλίου δ. Τότε έχουμε: Ιδιότητα κατωφλίου εμπιστοσύνης: T(p) > δ  O(p) = 1 Αν μια σελίδα p λαμβάνει ένα βαθμό πάνω από δ, τότε είναι καλή. Διαφορετικά δε μπορούμε να πούμε τίποτα για την p.

Μέτρα αξιολόγησης Υπάρχουν 3 μέτρα που μας βοηθούν να εκτιμήσουμε αν μια συγκεκριμένη συνάρτηση Τ έχει μερικές από τις επιθυμητές ιδιότητες. Υποθέτουμε ότι έχουμε ένα σύνολο δειγμάτων Χ από τυχαίες web σελίδες για τις οποίες μπορούμε να καλέσουμε και την Τ (συνάρτηση εμπιστοσύνης) και την Ο (συνάρτηση Oracle). Το πρώτο μέτρο είναι η pairwise orderedness και σχετίζεται με την διατεταγμένη ιδιότητα εμπιστοσύνης. Εισάγουμε μια δυαδική συνάρτηση Ι(Τ, O, p, q) που δείχνει αν μια κακή σελίδα έλαβε ένα ίσο ή υψηλότερο βαθμό εμπιστοσύνης σε σχέση με μια καλή σελίδα.

Pairwise Orderedness Στη συνέχεια, παράγουμε από το δείγμα Χ ένα σύνολο P από διατεταγμένα ζευγάρια από σελίδες (p,q), p≠q και υπολογίζουμε το κλάσμα από τα ζευγάρια για τα οποία η Τ δεν έκανε λάθος: Pairwise Orderedness: Αν pairord=1, τότε δεν υπάρχουν περιπτώσεις που η Τ απέτυχε να κατατάξει ένα ζευγάρι. Αντίστοιχα, αν pairord=0, τότε η Τ αποτυγχάνει να κατατάξει όλα τα ζευγάρια.

Ακρίβεια & Ανάκτηση Τα επόμενα δύο μέτρα σχετίζονται με την ιδιότητα κατωφλίου εμπιστοσύνης. Ακρίβεια: είναι το κλάσμα των καλών ανάμεσα σε όλες τις σελίδες στο Χ που έχουν βαθμό εμπιστοσύνης πάνω από δ. Ανάκτηση: είναι η αναλογία μεταξύ του αριθμού των καλών σελίδων με ένα βαθμό εμπιστοσύνης πάνω από δ και του συνολικού αριθμού των καλών σελίδων στο Χ.

1η προσέγγιση για μια κατάλληλη συνάρτηση εμπιστοσύνης Έστω ότι έχουμε ένα περιορισμένο αριθμό L από κλήσεις της συνάρτησης Oracle. Τότε επιλέγουμε ένα τυχαίο σύνολο σπόρων S από L σελίδες και καλούμε την Oracle στα στοιχεία του. Δηλώνουμε τα υποσύνολα των καλών και κακών σελίδων- σπόρων με S + και S - αντίστοιχα. Επειδή οι υπόλοιπες σελίδες δεν ελέγχονται από κάποιο ειδικό, αναθέτουμε σ’ αυτές ένα βαθμό εμπιστοσύνης ½, δηλώνοντας έτσι την έλλειψη πληροφορίας. Προκύπτει η συνάρτηση αμαθούς εμπιστοσύνης Τ 0 που ορίζεται για κάθε p που ανήκει στο V.

2η προσέγγιση για μια κατάλληλη συνάρτηση εμπιστοσύνης Επιλέγουμε τυχαία το σύνολο S των L σελίδων πάνω στις οποίες καλούμε τη συνάρτηση Oracle. Βασιζόμενοι στην κατά προσέγγιση απομόνωση των καλών σελίδων, περιμένουμε ότι καλές σελίδες θα δείχνουν μόνο σε άλλες καλές σελίδες. Αναθέτουμε ένα βαθμό 1 σε εκείνες τις σελίδες στις οποίες μπορούμε να φτάσουμε ξεκινώντας από μια σελίδα στο S + με Μ ή περισσότερα βήματα. Η συνάρτηση εμπιστοσύνης Τ Μ ορίζεται ως:

Συνάρτηση εμπιστοσύνης Μ-βημάτων Περιμένουμε η T M να αποδίδει καλύτερα από τη Τ 0. Στον παρακάτω πίνακα παρατηρούμε ότι για Μ=1 και Μ=2 και η pairwise orderedness και η ανάκτηση αυξάνονται, ενώ η ακρίβεια παραμένει 1. Όμως, για Μ=3, παρατηρούμε μια πτώση στην απόδοση. Γιατί??? Μpairordprecrec 119/2113/4 2111 317/214/51 TMTM

Μείωση εμπιστοσύνης(1) Όσο πιο μακριά είμαστε από καλές σελίδες-σπόρους, τόσο λιγότερο σίγουροι είμαστε ότι μια σελίδα είναι καλή. Μπορούμε να μειώνουμε την εμπιστοσύνη καθώς μετακινούμαστε όλο και πιο μακριά από τις καλές σελίδες-σπόρους. Παρουσιάζουμε 2 τρόπους: 123 good seed t(1)=1t(2)=βt(3)=β 2 β β β β2β2 β2β2 trust dampeningtrust dampening Η σελίδα 2 είναι ένα link μακριά από τη καλή σελίδα- σπόρο 1, άρα αναθέτουμε σ’ αυτή βαθμό dampened trust β, όπου β<1. Η σελίδα 3 απέχει ένα βήμα από τη 2, άρα λαμβάνει dampened βαθμό β ·β. Αν η σελίδα 1 συνδέεται με τη σελίδα 3, τότε μπορούσαμε να αναθέσουμε στη σελίδα 3 είτε το μέγιστο βαθμό εμπιστοσύνης (β), είτε το μέσο βαθμό [(β+β ·β)/2].

Μείωση εμπιστοσύνης(2) trust splitting: trust splitting: Αν μια καλή σελίδα έχει λίγα outlinks, τότε είναι πιθανό ότι οι σελίδες στις οποίες δείχνει να είναι επίσης καλές. Όμως, αν μια καλή σελίδα έχει εκατοντάδες outlinks, είναι πιο πιθανό ότι μερικά από αυτά θα δείχνουν σε κακές σελίδες. 1 2 3 t(3)=5/6 1/2 5/12 good seed good seed t(1)=1 t(2)=1 5/12 1/3 H καλή σελίδα-σπόρος 1 έχει δύο outlinks, έτσι κατανέμει μισό από το βαθμό της (1) και στις δύο σελίδες στις οποίες δείχνει. Όμοια, η καλή σελίδα-σπόρος 2 έχει τρία outlinks, έτσι κάθε σελίδα στην οποία δείχνει λαμβάνει το 1/3 του βαθμού. Ο βαθμός της σελίδας 3 θα είναι τότε: 1/2+1/3=5/6

Αλγόριθμος TrustRank(1) Η συνάρτηση TrustRank υπολογίζει τους βαθμούς εμπιστοσύνης ενός Web γράφου.

Αλγόριθμος TrustRank(2) Βασιζόμαστε στο κώδικα του PageRank για να υπολογίσουμε τους βαθμούς εμπιστοσύνης. Είσοδος: ο γράφος (ο πίνακας μετάβασης Τ και ο αριθμός Ν των web σελίδων) και κάποιες παράμετροι που ελέγχουν την εκτέλεση(L, M B, α Β ). Βήμα 1: Ο αλγόριθμος καλεί τη συνάρτηση SelectSeed, η οποία επιστρέφει ένα διάνυσμα s. Το s αποτελείται από βαθμούς που αντιστοιχούν στη χρησιμότητα κάθε σελίδας ως σελίδα-σπόρο. πχs = [0.08, 0.13, 0.08, 0.10, 0.09, 0.06, 0.02] Βήμα 2: Η συνάρτηση Rank αναδιατάσσει τα στοιχεία του συνόλου που παίρνει ως όρισμα, σε φθίνουσα σειρά των s- βαθμών τους. πχσ = [2, 4, 5, 1, 3, 6, 7] Επομένως, η σελίδα 2 είναι η πιο επιθυμητή σελίδα-σπόρος.

Αλγόριθμος TrustRank(3) Βήμα 3: Καλείται η Oracle συνάρτηση στις L πιο επιθυμητές σελίδες-σπόρους. Γίνεται δηλαδή η επιλογή των καλών σπόρων. πχAν L = 3, τότε d = [0, 1, 0, 1, 0, 0, 0] Βήμα 4: Το διάνυσμα d κανονικοποιείται ώστε οι βαθμοί του να αθροίζονται στο 1. πχd = [0, ½, 0, ½, 0, 0, 0] Βήμα 5: Εκτιμά τους βαθμούς TrustRank χρησιμοποιώντας τον PageRank. Εφαρμόζει μια συγκεκριμένη εκδοχή του trust dampening και του splitting, ώστε σε κάθε επανάληψη ο βαθμός εμπιστοσύνης ενός κόμβου να διαχωρίζεται μεταξύ των γειτόνων του και να μειώνεται κατά ένα παράγοντα α Β. πχ Αν α Β = 0.85 και Μ Β = 20, τότε t* = [0, 0.18, 0.12, 0.15, 0.13, 0.05, 0.05]

Πλεονεκτήματα Ο TrustRank αλγόριθμος συνήθως δίνει υψηλότερο βαθμό στις καλές σελίδες. Ο αλγόριθμος δεν καλεί τη συνάρτηση Oracle για όλες τις web σελίδες, αλλά μόνο για L από αυτές, μειώνοντας το χρόνο και το υπολογιστικό κόστος. Δηλαδή, εκτιμά L από τις σελίδες αν είναι καλές ή όχι και οι υπόλοιπες υπολογίζονται με βάση τη σχέση τους με αυτές. Ο αλγόριθμος επεξεργάζεται τους βαθμούς της συνάρτησης Oracle, καθορίζοντας περισσότερα τεκμήρια για το αν μια σελίδα είναι καλή. (Για παράδειγμα, καθορίζει ότι υπάρχουν περισσότερες αποδείξεις ότι η σελίδα 2 είναι καλή καθώς συγκρίνεται με την 4.) Σε ένα πραγματικό web γράφο ο αλγόριθμος TrustRank είναι ικανός να αναγνωρίσει σωστά ένα σημαντικό αριθμό από καλές σελίδες. Εγγυάται ότι sites με κορυφαίους βαθμούς είναι καλά. Βασίζεται στο κώδικα του PageRank για να υπολογίσει τους βαθμούς εμπιστοσύνης, εκμεταλλευόμενος την αποδοτικότητα των PageRank υπολογισμών σε πολύ μεγάλα σύνολα δεδομένων.

Μειονεκτήματα Ο TrustRank αποτυγχάνει να αναθέσει επαρκής βαθμούς σε καλές unreferenced web σελίδες, ειδικά αν αυτές δεν επιλέγονται σαν σπόροι. Εφόσον δεν έχουν καθόλου inlinks και δεν επιλέγονται σαν σπόροι, τότε ο βαθμός τους παραμένει λανθασμένα στο 0. Όλες οι καλές unreferenced web σελίδες λαμβάνουν μια παρόμοια μεταχείριση, εκτός αν αυτές επιλέγονται σαν σπόροι. Ο αλγόριθμος μπορεί να δώσει υψηλούς βαθμούς σε κακές σελίδες οι οποίες συνδέονται με καλές σελίδες. Ο TrustRank δεν είναι ικανός να χωρίσει αποτελεσματικά καλά sites με χαμηλούς βαθμούς από τα κακά sites.

Επιλογή σπόρων Στόχος της συνάρτησης SelectSeed είναι να βρούμε σελίδες που θα ήταν περισσότερο χρήσιμες στην αναγνώριση περαιτέρω καλών σελίδων. Θα εξετάσουμε 2 στρατηγικές: Αντίστροφος PageRank Δίνουμε προτεραιότητα στις σελίδες από τις οποίες μπορούμε να φτάσουμε πολλές άλλες σελίδες, βασιζόμενοι στον αριθμό των outlinks. Υψηλός PageRank Δίνουμε προτεραιότητα σε σελίδες με υψηλό PageRank. Εφόσον σελίδες υψηλού PageRank είναι πιθανό να δείχνουν σε άλλες σελίδες υψηλού PageRank, τότε καλοί βαθμοί εμπιστοσύνης θα διασπείρονται επίσης σε σελίδες που είναι πιθανό να είναι στη κορυφή των αποτελεσμάτων.

Πειραματικά αποτελέσματα Εκτελέσαμε πειράματα χρησιμοποιώντας το πλήρες σύνολο από σελίδες που ευρετηριοποιούνται από τη μηχανή αναζήτησης Alta Vista, ομαδοποιώντας αυτές σε 31,003,946 sites. Μέσα από πειράματα αποδείχτηκε ότι ο αντίστροφος PageRank είναι ελάχιστα καλύτερος στην αναγνώριση των συνόλων σπόρων (με α Ι = 0.85 και Μ Ι = 20). Διατάξαμε τα sites βασιζόμενοι στους βαθμούς του αντίστροφου PageRank και επικεντρωθήκαμε στα κορυφαία 1,250 (σύνολο σπόρων S). Επιλέξαμε ως καλούς σπόρους (S + ) τα 178 sites. Με σκοπό να εκτιμήσουμε τα 3 μέτρα αξιολόγησης, χρησιμοποιήσαμε ένα σύνολο X από 1000 δείγματα sites (Χ≠S). Είναι πιο σημαντικό να ανιχνεύσουμε σωστά το spam σε υψηλού PageRank sites, γιατί αυτά θα εμφανίζονται πιο συχνά υψηλά στα αποτελέσματα της ερώτησης. Εκτελέσαμε Oracle εκτίμηση για τα δείγματα sites και τα αποτελέσματα φαίνονται στο παρακάτω διάγραμμα:

Διαγράμματα (1) Μπορέσαμε να χρησιμοποιήσουμε τα 748 sites από τα 1000 sites του δείγματος για τον υπολογισμό του TrustRank: Ονομαστά: 563 sites παρουσίασαν ποιοτικά περιεχόμενα με 0 ή ένα ασήμαντο αριθμό από links που δείχνουν σε spam sites. Web οργανισμός: 37 sites ανήκαν σε οργανισμούς που είτε είχαν ρόλο στη συντήρηση του web ή επιχειρήσεις που σχετίζονταν με υπηρεσίες Internet. Διαφήμιση: 13 sites παρουσίασαν έλλειψη πραγματικού χρήσιμου περιεχομένου. Ωστόσο θεωρήθηκαν ως καλά sites χωρίς κανένα σημάδι από spamming δραστηριότητα. Spam: 135 sites παρουσίασαν ποικίλους τύπους spam και θεωρήθηκαν κακά sites.

Διαγράμματα (2) Τα υπόλοιπα 252 sites θεωρήθηκαν άχρηστα για την εκτίμηση του TrustRank για ποικίλους λόγους: Personal page host: 22 sites. Alias: 35 sites ήταν απλά ψευδώνυμα από sites περισσότερο γνωστά με διαφορετικά ονόματα. Άδεια: 56 sites ήταν άδεια, αποτελούμενα από μια μονή σελίδα που δε παρείχε καθόλου χρήσιμη πληροφορία. Μη υπαρκτά: 96 sites δεν υπήρχαν. Άγνωστα: 43 sites δε μπορέσαμε να τα εκτιμήσουμε κατάλληλα βασιζόμενοι σε διαθέσιμη πληροφορία. Τέτοια sites ήταν κυρίως Ανατολικά Ασιατικά με έλλειψη αγγλικής μετάφρασης.

PageRank εναντίον TrustRank(1) Ο PageRank αλγόριθμος δε περιλαμβάνει καθόλου γνώση σχετικά με την ποιότητα ενός site. Έτσι, πολλές φορές sites που δημιουργούνται από ικανούς spammers λαμβάνουν υψηλό βαθμό PageRank. Αντίθετα, ο TrustRank προορίζεται να διαφοροποιήσει καλά και κακά sites, με τα spam sites να μην έχουν υψηλούς βαθμούς TrustRank. Συγκρίνοντας τους δύο αλγορίθμους προέκυψαν οι ακόλουθοι πίνακες:

PageRank εναντίον TrustRank(2)

PageRank εναντίον TrustRank(3) Οι οριζόντιοι άξονες σημειώνουν τους αριθμούς των κάδων PageRank και TrustRank αντίστοιχα. Ο κάθετος άξονας της πρώτης εικόνας αντιστοιχεί στο ποσοστό των καλών μέσα σε ένα συγκεκριμένο κάδο. Παρατηρήστε ότι ονομαστά sites, διαφημίσεις και sites web οργανισμών όλα θεωρούνται ως καλά και οι σχετικές κατανομές τους απεικονίζονται με λευκά, γκρί και σκούρα γκρί τμήματα αντίστοιχα. Ο κάθετος άξονας της δεύτερης εικόνας αντιστοιχεί στο ποσοστό των κακών μέσα σε ένα συγκεκριμένο κάδο. Ο TrustRank είναι ένα λογικό εργαλείο ανίχνευσης spam. Παρατηρήστε ότι δεν υπάρχει σχεδόν καθόλου spam στους 5 κορυφαίους TrustRank κάδους, ενώ η συγκέντρωση spam αυξάνεται σε χαμηλότερους κάδους. Την ίδια στιγμή, σχεδόν 20% του 2ου PageRank κάδου είναι κακό, ενώ στους κάδους 9 και 10 το ποσοστό των κακών sites φτάνει στην κορυφή(50% spam).

Υποβιβασμός & Προαγωγή Υποβιβασμός είναι το φαινόμενο κατά το οποίο ένα συγκεκριμένο site από ένα υψηλότερο PageRank κάδο εμφανίζεται σε χαμηλότερο TrustRank κάδο. Αντίθετα, η προαγωγή είναι η περίπτωση όπου ένα site από χαμηλότερο PageRank κάδο εμφανίζεται σε ένα υψηλότερο TrustRank κάδο. Ο μέσος υποβιβασμός των κακών sites είναι ένας σημαντικός τρόπος για να εκτιμήσεις τον TrustRank.

Πειραματικά αποτελέσματα Ο οριζόντιος άξονας αντιπροσωπεύει για τον PageRank τους κάδους. Ο κατακόρυφος άξονας δείχνει τον αριθμό των κάδων από τους οποίους sites από ένα συγκεκριμένο PageRank κάδο υποβιβάστηκαν στον TrustRank κατά μέσο όρο. Οι λευκές στήλες αντιπροσωπεύουν τα ονομαστά sites, ενώ οι μαύρες δηλώνουν spam. (Δεν έχουμε διαφημίσεις και sites web οργανισμών)

Μέτρα αξιολόγησης

Μελλοντικές επεκτάσεις Εκτέλεση πειραμάτων για να εξερευνηθεί περαιτέρω η αλληλεπίδραση μεταξύ dampening και splitting στη διάδοση της εμπιστοσύνης. Αντί για την επιλογή ολόκληρου του συνόλου σπόρων, θα μπορούσε κάποιος να σκεφτεί μια επαναληπτική διαδικασία: αφού η Oracle έχει εκτιμήσει κάποιες από τις σελίδες, θα μπορούσαμε να εξετάσουμε τι σελίδες θα πρέπει να εκτιμήσουμε στη συνέχεια, βασιζόμενοι στο προηγούμενο αποτέλεσμα.

Ερώτηση Χρησιμοποιώντας τα 3 μέτρα αξιολόγησης που παρουσιάστηκαν εκτιμήστε την απόδοση της συνάρτησης αμαθούς εμπιστοσύνης Τ 0 (Ignorant Trust Function) για το παράδειγμα της «Εικόνας 2». Συγκρίνετε τις τιμές που υπολογίσατε με την απόδοση της συνάρτησης εμπιστοσύνης Μ-βημάτων Τ Μ (Μ-step Trust Function) που φαίνεται στο παρακάτω πίνακα. Για ποιο λόγο η απόδοση της Τ Μ μειώνεται για Μ=3; Θεωρείστε ένα τυχαία επιλεγμένο σύνολο σπόρων S={1, 3, 6} (L=3) και υποθέστε ότι το κατώφλι εμπιστοσύνης είναι δ=1/2. Μpairordprecrec 119/2113/4 2111 317/214/51

ΤΕΛΟΣ

Combating Web Spam with TrustRank ΑΛΕΞΙΟΥ ΣΤΑΥΡΟΥΛΑΑΜ:199.

Παρόμοιες παρουσιάσεις

Παρουσίαση με θέμα: "Combating Web Spam with TrustRank ΑΛΕΞΙΟΥ ΣΤΑΥΡΟΥΛΑΑΜ:199."— Μεταγράφημα παρουσίασης:

Παρόμοιες παρουσιάσεις

Σχετικά με το έργο

Σχόλια

Είσοδος

Σύνδεση μέσω των κοινωνικών δικτύων:

Combating Web Spam with TrustRank ΑΛΕΞΙΟΥ ΣΤΑΥΡΟΥΛΑΑΜ:199.

Παρόμοιες παρουσιάσεις

Παρουσίαση με θέμα: "Combating Web Spam with TrustRank ΑΛΕΞΙΟΥ ΣΤΑΥΡΟΥΛΑΑΜ:199."— Μεταγράφημα παρουσίασης:

Παρόμοιες παρουσιάσεις

Σχετικά με το έργο

Σχόλια