ΑΥΤΟΜΑΤO ΦΙΛΤΡΑΡΙΣΜΑ ΑΝΕΠΙΘΥΜΗΤΗΣ ΗΛΕΚΤΡΟΝΙΚΗΣ ΑΛΛΗΛΟΓΡΑΦΙΑΣ ΜΕ ΧΡΗΣΗ ΜΕΘΟΔΩΝ ΜΗΧΑΝΙΚΗΣ MAΘΗΣΗΣ ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ ΜΕΤΑΠΤΥΧΙΑΚΟΥ «Ε ΠΙΣΤΗΜΗ ΚΑΙ Τ ΕΧΝΟΛΟΓΙΑ ΤΩΝ Υ ΠΟΛΟΓΙΣΤΩΝ » ΑΝΥΦΑΝΤΗΣ ΔΙΟΝΥΣΙΟΣ A.M 478 ΕΠΙΒΛΕΠΩΝ ΚΑΘΗΓΗΤΗΣ I. XATZΗΛYΓΕΡΟΥΔΗΣ ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΑΤΡΩΝ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ Η/Υ & ΠΛΗΡΟΦΟΡΙΚΗΣ
ΑΥΤΟΜΑΤO ΦΙΛΤΡΑΡΙΣΜΑ ΑΝΕΠΙΘΥΜΗΤΗΣ ΗΛΕΚΤΡΟΝΙΚΗΣ ΑΛΛΗΛΟΓΡΑΦΙΑΣ ΜΕ ΧΡΗΣΗ ΜΕΘΟΔΩΝ ΜΗΧΑΝΙΚΗΣ MAΘΗΣΗΣ 2 Εισαγωγή Αντικείμενο Εργασίας Ορισμός Spam
Προσεγγίσεις Προβλήματος ΑΥΤΟΜΑΤO ΦΙΛΤΡΑΡΙΣΜΑ ΑΝΕΠΙΘΥΜΗΤΗΣ ΗΛΕΚΤΡΟΝΙΚΗΣ ΑΛΛΗΛΟΓΡΑΦΙΑΣ ΜΕ ΧΡΗΣΗ ΜΕΘΟΔΩΝ ΜΗΧΑΝΙΚΗΣ MAΘΗΣΗΣ 3 Φιλτράρισμα με χρήση τεχνικών μηχανικής μάθησης RIPPER Φιλτράρισμα με βάση λίστες SpamHaus ORDB - mail-abuse - Φιλτράρισμα με βάση υπογραφές Vipul’s Razor ( Τεχνικές ανίχνευσης ιών Σύγκριση µέσω βάσης στατιστικών και τυχαίων υπογραφών που εντοπίζουν αποδοτικά διάφορα χαρακτηριστικά τµήµατα spam µηνυµάτων Φιλτράρισμα με συνδυασμό τεχνικών BrightMail ( Διευθύνσεις «παγίδες» σε στρατηγικά σηµεία του διαδικτύου Πράκτορας BrightMail ενηµερώνει τη βάση του µε νέους κανόνες φιλτραρίσµατος, τη στιγµή της δηµιουργίας τους Αποφυγή µαζικής αποστολής τους στους λογαριασµούς των χρηστών του εξυπηρετητή (Domain restriction) SpamAssassin ( Μηχανισµοί για την ανάλυση των επικεφαλίδων των µηνυµάτων Μηχανισµοί για την ανάλυση του περιεχοµένου των µηνυµάτων, µε τη βοήθεια ευριστικών κανόνων και της χρήσης γενετικών αλγορίθµων µάθησης. Μαύρες λίστες, που παρέχονται στο σύστηµα τόσο στατικά, υπό µορφή αρχείων, όσο και δυναµικά, µέσω της χρήσης on-line βάσεων δεδοµένων, όπως οι mail-abuse.org και η ordb.org. Χρήση Disposable Addresses – DEA Δεν επιδιώκει την αναγνώριση και κατά επέκταση το φιλτράρισµα των spam από το γραμματοκιβώτιο του χρήστη, αλλά αποσκοπεί στον έµµεσο περιορισµό τους Spamex ( ias ( (
Δυσκολία Προβλήματος ΑΥΤΟΜΑΤO ΦΙΛΤΡΑΡΙΣΜΑ ΑΝΕΠΙΘΥΜΗΤΗΣ ΗΛΕΚΤΡΟΝΙΚΗΣ ΑΛΛΗΛΟΓΡΑΦΙΑΣ ΜΕ ΧΡΗΣΗ ΜΕΘΟΔΩΝ ΜΗΧΑΝΙΚΗΣ MAΘΗΣΗΣ 4 Ενσωμάτωση Εικόνων σε HTML tags Xωρισμός Λέξεων με HTML tags Εισαγωγή Κενών χαρακτήρων/ειδικοί χαρακτήρες Τυχαίες ακολουθίες χαρακτήρων Ενσωμάτωση javascript Accented Χαρακτήρες-Αντικατάσταση Χαρακτήρων
Μηχανική Μάθηση ΑΥΤΟΜΑΤO ΦΙΛΤΡΑΡΙΣΜΑ ΑΝΕΠΙΘΥΜΗΤΗΣ ΗΛΕΚΤΡΟΝΙΚΗΣ ΑΛΛΗΛΟΓΡΑΦΙΑΣ ΜΕ ΧΡΗΣΗ ΜΕΘΟΔΩΝ ΜΗΧΑΝΙΚΗΣ MAΘΗΣΗΣ 5 Ένα πρόγραµµα µαθαίνει από την εµπειρία Ε που αποκτά κατά την εκτέλεση ενός συνόλου διεργασιών ∆, εφόσον η απόδοσή του Α βελτιώνεται µε την αξιοποίηση της εµπειρίας Ε. Επιτελούµενη ∆ιεργασία ∆: Αναγνώριση των spam µηνυµάτων από το γραμματοκιβώτιο ενός χρήστη και διαχωρισµός τους από τα προσωπικά του µηνύµατα (θεµιτά - legitimate). Μέτρο Απόδοσης Α: Το ποσοστό των µηνυµάτων που ταξινομούνται σωστά. Εµπειρία Ε: Ένα σώµα µηνυµάτων που έχει ήδη ταξινομηθεί. •Κατηγοριοποίηση s σε πραγ µ ατικό χρόνο. •Κατηγοριοποίηση αρχείων σε ιεραρχίες φακέλων. •Αναγνώριση θε µ άτων για την υποστήριξη διαδικασιών επεξεργασίας κει µ ένων συγκεκρι µ ένης θε µ ατολογίας. •Εύρεση εγγράφων που ταιριάζουν µ ε τα ενδιαφέροντα συγκεκρι µ ένων χρηστών.
Αρχιτεκτονική Συστήματος ΑΥΤΟΜΑΤO ΦΙΛΤΡΑΡΙΣΜΑ ΑΝΕΠΙΘΥΜΗΤΗΣ ΗΛΕΚΤΡΟΝΙΚΗΣ ΑΛΛΗΛΟΓΡΑΦΙΑΣ ΜΕ ΧΡΗΣΗ ΜΕΘΟΔΩΝ ΜΗΧΑΝΙΚΗΣ MAΘΗΣΗΣ 6
Βάσεις Ηλ. Μηνυμάτων Βάση ηλ. μηνυμάτων LING-SPAM Βάση ηλ. μηνυμάτων ENRON Βάση ηλ. μηνυμάτων SPAMASSASIN Χαρακτηριστικά Ηλ. μηνύματα spam : 1001 ηλ. μηνύματα spam από διάφορες πηγές. Ηλ. μηνύματα easy_ham : 5051 legitimate ηλ. μηνύματα τα οποία χαρακτηρίζονται ως εύκολα κατηγοριοποιήσιμα στην κατηγορία legitimate μιάς και δεν περιέχουν χαρακτηριστικά spam μηνυμάτων. Ηλ. μηνύματα hard_ham : 500 legitimate ηλ. μηνύματα τα οποία παρουσιάζουν χαρακτηριστικά παρόμοια με spam μηνύματα. Ηλ. μηνύματα easy_ham_2 : 1400 legitimate ηλ. μηνύματα. Ηλ. μηνύματα spam_2 : 1397 spam ηλ. μηνύματα. Σύνολο μηνυμάτων 9349, η αναλογία των spam Μηνυμάτων κυμαίνεται στο 35%. ΑΥΤΟΜΑΤO ΦΙΛΤΡΑΡΙΣΜΑ ΑΝΕΠΙΘΥΜΗΤΗΣ ΗΛΕΚΤΡΟΝΙΚΗΣ ΑΛΛΗΛΟΓΡΑΦΙΑΣ ΜΕ ΧΡΗΣΗ ΜΕΘΟΔΩΝ ΜΗΧΑΝΙΚΗΣ MAΘΗΣΗΣ 7 Χαρακτηριστικά Η αρχική βάση περιλαμβάνει ηλ. μηνύματα από 158 χρήστες. Μετά τον καθαρισμό της βάσης από διπλότυπα ηλ. μηνύματα, μιας και τα ηλ. μηνύματα υπήρχαν σε περισσότερους από 1 χρήστες, ο αριθμός περιορίστηκε σε Περίπου 757 μηνύματα ανά χρήστη κατά μέσο όρο 61.63% σε φακέλλους 13% Spam Χαρακτηριστικά Περιλαμβάνει 2893 ηλ. Μηνύματα 2412 είναι κανονικά ηλ. Μηνύματα 481 είναι spam
Εξαγωγή Παραμέτρων Δεδομένα Γνώση Επιλογή Εξ. Χαρακτηριστικών Εξόρυξη-Ανάκτηση Γνώσης Προεπεξεργασία Ερμηνεία ΑΥΤΟΜΑΤO ΦΙΛΤΡΑΡΙΣΜΑ ΑΝΕΠΙΘΥΜΗΤΗΣ ΗΛΕΚΤΡΟΝΙΚΗΣ ΑΛΛΗΛΟΓΡΑΦΙΑΣ ΜΕ ΧΡΗΣΗ ΜΕΘΟΔΩΝ ΜΗΧΑΝΙΚΗΣ MΑΘΗΣΗΣ 8 Προεπεξεργασία Βασίζεται στο γεγονός ότι ένα ηλ. μήνυμα παρουσιάζει συγκεκριμένη δομή (όπως επιβάλλεται με την χρήση των επικεφαλίδων). Αφαιρέθηκαν επίσης τα τμήματα από το κυρίως σώμα του ηλ. μήνυμα που παρέπεμπαν σε απάντηση προηγούμενου μηνύματος, πχ χρησιμοποίηση συμβόλων ‘ > ’, λέξεων ‘ Sender wrote ’, ’ original message ‘, κλπ. Έγινε επίσης αφαίρεση των επικεφαλίδων όπου ήταν ενσωματωμένες στα ηλ. μηνύματα, όπως Subject, Sender, To, From, Cc, Importance, κλπ. Εξαγωγή Χαρακτηριστικών • Απομάκρυνση των Ριζών Προέλευσης H συνηθέστερη προσέγγιση είναι η αφαίρεση επιθημάτων του τύπου – ED,-ING, -ION, -IONS, (Αλγόριθμος Porter) • Απομάκρυνση Λέξεων ιs, a, of, the, an, and, or, while, at Επιλογή Παραμέτρων (Mutual Information) Για κάθε ηλ. μήνυμα μετά τις προηγούμενες διαδικασίες αποθήκευση των Ν χαρακτηριστικών (λέξεων) : Για κάθε ηλ μήνυμα i δημιουργία χαρακτηριστικού Boolean διανύσματος V Υπολογισμός του ΜΙ για κάθε f m
Πειράματα Ling-Spam MultiLayerPerceptron Παράμετροι για το WEKA : MultilayerPerceptron -L 0.3 -M 0.2 -N 300 -V 0 -S 0 -E 20 -H a Vector F: 750 Type: BooleanVector F: 750 Type: Count LegitimateSpamLegitimateSpam Confusion Matrixes LegitimateType: BooleanType: Count Recall99,63%99,09% Precision99,46%96,92% Fallout2,70%15,80% Accuracy99,24%96,61% Error0,76%3,39% SpamType: BooleanType: Count Recall97,30%84,20% Precision98,11%94,85% Fallout0,37%0,91% Accuracy99,24%96,61% Error0,76%3,39% Average Precision98,79%95,88% Accuracy99,24%96,61% Error0,76%3,39% Μετρικές ΑΥΤΟΜΑΤO ΦΙΛΤΡΑΡΙΣΜΑ ΑΝΕΠΙΘΥΜΗΤΗΣ ΗΛΕΚΤΡΟΝΙΚΗΣ ΑΛΛΗΛΟΓΡΑΦΙΑΣ ΜΕ ΧΡΗΣΗ ΜΕΘΟΔΩΝ ΜΗΧΑΝΙΚΗΣ MAΘΗΣΗΣ 9 Enron-Spam Spam Assasin
Συμπεράσματα - Επεκτάσεις Επεκτάσεις – Βελτιώσεις : Βελτίωση του αλγόριθμου εξαγωγής παραμέτρων, με χρήση άλλων μετρικών για το χαρακτηριστικό διάνυσμα που χρησιμοποιήθηκε στους ταξινομητές. Επέκταση της µεθόδου με χρήση Ενεργούς Μηχανικής Μάθησης με αλληλεπίδραση του χρήστη Χρήση τεχνικών αναγνώρισης εικόνας προκειμένου για την αντιμετώπιση των ανεπιθύμητων ηλ. μηνυμάτων με επισυναπτόμενες εικόνες. Η διαδικασία εξαγωγής παραμέτρων δεν θα πρέπει να περιορίζεται μόνο σε λέξεις φυσικής γλώσσας αλλά να διαχειρίζεται HTML επικεφαλίδες. Χρήση ταξινομητών με λίστες ηλεκτρονικών διευθύνσεων, γνωστών spammers στην απλούστερή τους µορφή, ή ακόµα και DNS-based IP διευθύνσεων γνωστών συµµοριών spammers, δικτυακών υπηρεσιών µαζικής αποστολής µηνυµάτων (spam-for-hire sites), πρακτόρων µεταφοράς ταχυδροµείου (MTAs) και αναµεταδοτών (mail relays). Προυπόθεση η χρήση βέβαια και άλλων πεδίων του ηλ. μηνύματος εκτός του σώματος/θέματος ΑΥΤΟΜΑΤO ΦΙΛΤΡΑΡΙΣΜΑ ΑΝΕΠΙΘΥΜΗΤΗΣ ΗΛΕΚΤΡΟΝΙΚΗΣ ΑΛΛΗΛΟΓΡΑΦΙΑΣ ΜΕ ΧΡΗΣΗ ΜΕΘΟΔΩΝ ΜΗΧΑΝΙΚΗΣ MAΘΗΣΗΣ 10
Τέλος Παρουσίασης ΑΥΤΟΜΑΤO ΦΙΛΤΡΑΡΙΣΜΑ ΑΝΕΠΙΘΥΜΗΤΗΣ ΗΛΕΚΤΡΟΝΙΚΗΣ ΑΛΛΗΛΟΓΡΑΦΙΑΣ ΜΕ ΧΡΗΣΗ ΜΕΘΟΔΩΝ ΜΗΧΑΝΙΚΗΣ MAΘΗΣΗΣ