ΑΥΤΟΜΑΤO ΦΙΛΤΡΑΡΙΣΜΑ ΑΝΕΠΙΘΥΜΗΤΗΣ ΗΛΕΚΤΡΟΝΙΚΗΣ ΑΛΛΗΛΟΓΡΑΦΙΑΣ ΜΕ ΧΡΗΣΗ ΜΕΘΟΔΩΝ ΜΗΧΑΝΙΚΗΣ MAΘΗΣΗΣ ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ ΜΕΤΑΠΤΥΧΙΑΚΟΥ «Ε ΠΙΣΤΗΜΗ ΚΑΙ Τ ΕΧΝΟΛΟΓΙΑ.

Slides:



Advertisements
Παρόμοιες παρουσιάσεις
«Πρόγραμμα Αναμόρφωσης Προπτυχιακών Προγραμμάτων Σπουδών Γ.Π.Α.» Σεμινάριο Επιμόρφωσης Διδακτικού Προσωπικού Οι τεχνολογίες της Πληροφορικής και των Επικοινωνιών.
Advertisements

Τεχνολογίες Internet Υπηρεσίες & Εφαρμογές Τμήμα 1I-ΙΝΠ01 – Web Design / Development Κωνσταντίνος Σαπουντζής.
ΛΟΓΙΣΜΙΚΟ ΔΙΑΧΕΙΡΙΣΗΣ DATA, ΤΟΠΟΘΕΣΙΩΝ ΚΑΙ ΠΟΡΩΝ.
ΕΝΟΧΛΗΤΙΚΗ ΑΛΛΗΛΟΓΡΑΦΙΑ(SPAMING)
Δομές Δεδομένων και Αλγόριθμοι
ΕΞΟΡΥΞΗ ΓΝΩΣΗΣ ΑΠΟ ΕΙΚΟΝΕΣ
Α. Αναλυτικό Α’ Γυμνασίου
Πέτσας Δημήτριος Παρουσίαση στο μάθημα: Ψηφιακές Βιβλιοθήκες
Δήμος Καλαμαριάς Γεωργιάδης Γεώργιος Προϊστάμενος Τμήματος Πληροφορικής
Support.ebsco.com Εκπαιδευτικό μάθημα για τις αναφορές στατιστικών δεδομένων της EBSCOadmin.
Internet ‘Εκεί που η πληροφορία είναι το νόμισμα’ Παρουσιάζεται από τον Παναγιώτη Μιντόπουλο.
ANTISPAM ΓΙΩΡΓΟΣ ΙΣΑΡΗΣ.
Οδηγός δημιουργίας ιστολογίου στο blogger.com
Support.ebsco.com Εκπαιδευτικό μάθημα Ανάγνωση άρθρου στο EBSCOhost.
1 Α. Βαφειάδης Αναβάθμισης Προγράμματος Σπουδών Τμήματος Πληροφορικής Τ.Ε.Ι Θεσσαλονίκης Μάθημα Προηγμένες Αρχιτεκτονικές Υπολογιστών Κεφαλαίο Πρώτο Αρχιτεκτονική.
ΟΡΟΛΟΓΙΑ Στην ΚτΠ: Χρησιμότητα στον Δημόσιο Τομέα ή Η σημασία της γνώσης των όρων για αποτελεσματική πρόσβαση στην πληροφορία Γ. Καραγιάννης Καθηγητής.
1 Horizon List Μια δεύτερη ματιά... Κώστας Βίγλας ΥΚΒ.
Ανακτηση Πληροφοριασ σε νεφη Υπολογιστων
1 Horizon List Μια πρώτη γνωριμία Κώστας Βίγλας ΥΚΒ.
Εφαρμογή οnline υπηρεσιών πληροφόρησης στο Σύστημα Βιβλιοθηκών του ΑΠΘ Ξ. Αγορογιάννη, Ε. Κοσέογλου, Κ. Ξενίδου-Δέρβου 13ο Πανελλήνιο Συνέδριο Ακαδημαϊκών.
 Αυδίκου Χριστίνα  Γιουμούκης Παναγιώτης  Κιντσάκης Θάνος  Πάπιστας Γιάννης.
Εποπτεύων καθηγητής: Κος Σαράντος Καπιδάκης
Μηχανική Μάθηση και Εξόρυξη Γνώσης
Η μηχανική μάθηση στην αντιμετώπιση της Υπερπληροφόρησης
ΠΛΗΡΟΦΟΡΙΑΚΟ ΣΥΣΤΗΜΑ ΓΙΑ ΤΗΝ ΔΙΑΣΦΑΛΙΣΗ ΠΟΙΟΤΗΤΑΣ Γραφείο Ποιότητας Αλεξάνδρειο ΤΕΙ Θεσσαλονίκης.
Γυμνάσιο Νέας Κυδωνίας
ΕΡΓΑΛΕΙΟ ΠΑΡΑΓΩΓΗΣ ΠΕΡΙΕΧΟΜΕΝΟΥ ΣΕ WEB SITE (CONTENT MANAGEMENT TOOL)
Πρακτική Εκπαίδευση Εκπαιδευτικών Πληροφορικής Υπηρεσίες Επικοινωνίας.
ΕΘΝΙΚΟ ΚΑΙ ΚΑΠΟΔΙΣΤΡΙΑΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΘΗΝΩΝ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΤΗΛΕΠΙΚΟΙΝΩΝΙΩΝ Πρόγραμμα μεταπτυχιακών σπουδών Προσαρμοστικό σχήμα συμπίεσης δεδομένων.
Αναγνώριση Προτύπων.
Σύμφωνα με τον ΣΕΒ, αναμένεται να παρουσιάσουν ζήτηση μέχρι το 2020 Πηγή:
Google docs Google docs forms
Βαρόμετρο ΕΒΕΘ Μάρτιος “Η καθιέρωση ενός αξιόπιστου εργαλείου καταγραφής του οικονομικού, επιχειρηματικού και κοινωνικού γίγνεσθαι του Νομού Θεσσαλονίκης”
ΈΝΑ ΗΛΕΚΤΡΟΝΙΚΟ ΕΚΘΕΤΗΡΙΟ ΓΙΑ ΤΙΣ ΝΕΕΣ ΠΡΟΣΚΤΗΣΕΙΣ ΒΙΒΛΙΩΝ ΤΗΣ ΒΙΒΛΙΟΘΗΚΗΣ ΤΟΥ ΠΑΝΕΠΙΣΤΗΜΙΟΥ ΜΑΚΕΔΟΝΙΑΣ Κολοβός Φίλιππος Τσανακτσίδου ΕλισάβετΠαπαργύρη.
Βαρόμετρο ΕΒΕΘ Μάρτιος “Η καθιέρωση ενός αξιόπιστου εργαλείου καταγραφής του οικονομικού, επιχειρηματικού και κοινωνικού γίγνεσθαι του Νομού Θεσσαλονίκης”
διεύθυνση ηλεκτρονικού ταχυδρομείου
Διαχείριση πληροφοριών και επικοινωνίες Ονομ/νυμο Επιμορφωτή Επιμορφωτής: Ονομ/νυμο Επιμορφωτή ΥΠΕΠΘ ΠΑΙΔΑΓΩΓΙΚΟ ΙΝΣΤΙΤΟΥΤΟ ΠΡΟΓΡΑΜΜΑ «ΚΟΙΝΩΝΙΑ ΤΗΣ ΠΛΗΡΟΦΟΡΙΑΣ»
Διαδικτυακή εφαρμογή ανάλυσης και επεξεργασίας δεδομένων κυβερνητικών διαβουλεύσεωνgov.insight Η. Ζαβιτσάνος, Γ. Γιαννακόπουλος, Γ. Παλιούρας Ινστιτούτο.
ΕΚΕΦΕ «Δημόκριτος» Ινστιτούτο Πληροφορικής & Τηλεπικοινωνιών Κοινωνία της Πληροφορίας & Τεχνητή Νοημοσύνη Δρ. Κωνσταντίνος Δ. Σπυρόπουλος Δντής Έρευνας.
Ανάκτηση Πληροφορίας (Information Retrieval – IR) Πανεπιστήμιο Θεσσαλίας Πολυτεχνική Σχολή Τμήμα Μηχ. Η/Υ, Τηλ/νιών & Δικτύων Ακαδημαϊκό Έτος
ΕΙΣΑΓΩΓΗ ΣΤΑ ΓΕΩΓΡΑΦΙΚΑ ΣΥΣΤΗΜΑΤΑ ΠΛΗΡΟΦΟΡΙΩΝ
Η διδασκαλία των δικτύων στη δευτεροβάθμια εκπαίδευση με χρήση εικονικού περιβάλλοντος μάθησης Θ. Ζευγίτης Ημερίδα Καθηγητών Πληροφορικής.
ΗΥ302 Διδακτική της Πληροφορικής Η γλώσσα προγραμματισμού LOGO Writer Ομάδα Εργασία: Αλεβίζου Βασιλική (Α.Μ.:1029) Κοφφινά Ιωάννα (Α.Μ.:1035) Τριανταφυλλίδου.
Ανάπτυξη και εκπαίδευση ιεραρχίας ταξινομητών για την κατηγοριοποίηση κειμένων Αβραμίδη Γεωργία 719.
Μοντέλα Συστημάτων Παρουσιάσεις των συστημάτων των οποίων οι απαιτήσεις αναλύονται.
1 MedioVis- Ένας φυλλομετρητής μεταδεδομένων MedioVis – A user-centred Library Metadata Browser Μάθημα: Ψηφιακές Βιβλιοθήκες Διδάσκων: Καπιδάκης Σαράντος.
ΑΝΑΠΤΥΞΗ ΤΑΞΙΝΟΜΗΤΗ ΗΛΕΚΤΡΟΝΙΚΗΣ ΑΛΛΗΛΟΓΡΑΦΙΑΣ ΜΑΛΕΖΑ ΣΟΦΙΑ ΑΕΜ:765.
Β΄Γυμνασίου Κουτζαγιώτη Αγγέλα.  Το ηλεκτρονικό ταχυδρομείο, γνωστό και ως (electronic mail), είναι μια από τις σημαντικότερες υπηρεσίες του διαδικτύου.
Εκπαιδευτικό μάθημα Διεξαγωγή Προηγμένης αναζήτησης στο EBSCOhost Μοναδικό πεδίο εύρεσης
ΜΑΘΗΜΑ: ΜΕΤΑΓΛΩΤΤΙΣΤΕΣ ΔΙΔΑΣΚΟΝΤΕΣ: Π. ΚΑΤΣΑΡΟΣ Τρίτη, 31 Μαρτίου 2015Τρίτη, 31 Μαρτίου 2015Τρίτη, 31 Μαρτίου 2015Τρίτη, 31 Μαρτίου 2015Τμ. Πληροφορικής,
ΙΟΝΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΤΜΗΜΑ ΑΡΧΕΙΟΝΟΜΙΑΣ ΚΑΙ ΒΙΒΛΙΟΘΗΚΟΝΟΜΙΑΣ ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ ΣΤΗΝ ΕΠΙΣΤΗΜΗ ΤΗΣ ΠΛΗΡΟΦΟΡΙΑΣ " Διοίκηση και Οργάνωση Βιβλιοθηκών.
Αποτελέσματα Αξιολόγησης Προγράμματος Σπουδών Σπύρος Κοκολάκης Τμ. Μηχ/κών Πληροφοριακών και Επικοινωνιακών Συστημάτων.
ΜΑΘΗΜΑ: ΜΕΤΑΓΛΩΤΤΙΣΤΕΣ ΔΙΔΑΣΚΟΝΤΕΣ: Π. ΚΑΤΣΑΡΟΣ Τετάρτη, 1 Απριλίου 2015Τετάρτη, 1 Απριλίου 2015Τετάρτη, 1 Απριλίου 2015Τετάρτη, 1 Απριλίου 2015Τμ. Πληροφορικής,
ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ Μάθημα 1ο Εισαγωγή στη Γλωσσική Τεχνολογία
Εκπαιδευτικό μάθημα Διεξαγωγή Προηγμένης αναζήτησης στο EBSCOhost Πεδία εύρεσης βάσει οδηγιών
Προηγμένη Εφαρμογή Ιστού Διαχείρισης Δεδομένων Βιοεπιστημών Διπλωματική Εργασία του Γεωργίου Πρέκα ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΣΧΟΛΗ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ.
Πρόγραμμα Σπουδών ΤΠΕ-Τεχνολογίες Πληροφορίας Επικοινωνίας Δ’ τάξης.
Οδηγίες συμπλήρωσης της ηλεκτρονικής αίτησης για το πρόγραμμα Teachers 4 Europe
Βαρόμετρο ΕΒΕΘ Σεπτέμβριος “Η καθιέρωση ενός αξιόπιστου εργαλείου καταγραφής του οικονομικού, επιχειρηματικού και κοινωνικού γίγνεσθαι του Νομού.
ΜΑΘΗΜΑ: ΜΕΤΑΓΛΩΤΤΙΣΤΕΣ ΔΙΔΑΣΚΟΝΤΕΣ: Κ. ΛΑΖΟΣ - Π. ΚΑΤΣΑΡΟΣ Τρίτη, 14 Απριλίου 2015Τρίτη, 14 Απριλίου 2015Τρίτη, 14 Απριλίου 2015Τρίτη, 14 Απριλίου 2015Τμ.
IΟΝΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ ΣΤΗΝ ΕΠΙΣΤΗΜΗ ΤΗΣ ΠΛΗΡΟΦΟΡΙΑΣ: «ΔΙΟΙΚΗΣΗ & ΟΡΓΑΝΩΣΗ ΒΙΒΛΙΟΘΗΚΩΝ ΜΕ ΕΜΦΑΣΗ ΣΤΙΣ ΝΕΕΣ ΤΕΧΝΟΛΟΓΙΕΣ ΤΗΣ.
Διαδίκτυο Κίκα Χρυσοστόμου. Ταχύτητα Κόστος Παγκόσμια πρόσβαση Ευκολία ή Βολικότητα Ασφάλεια και Αξιοπιστία.
ΙΟΝΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΤΜΗΜΑ ΑΡΧΕΙΟΝΟΜΙΑΣ ΒΙΒΛΙΟΘΗΚΟΝΟΜΙΑΣ ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ ΣΤΗΝ ΕΠΙΣΤΗΜΗ ΤΗΣ ΠΛΗΡΟΦΟΡΙΑΣ Βρίσκοντας κατάλληλα αντικείμενα μάθησης:
Ιόνιο Πανεπιστήμιο Τμήμα Αρχειονομίας και Βιβλιοθηκονομίας Πρόγραμμα Μεταπτυχιακών Σπουδών στην Επιστήμη της Πληροφορίας «Διοίκηση & Οργάνωση Βιβλιοθηκών.
ΑΝΑΠΤΥΞΗ ΛΟΓΙΣΜΙΚΟΥ ΓΙΑ ΤΗΝ ΑΝΑΓΝΩΡΙΣΗ ΟΠΤΙΚΩΝ ΣΗΜΑΤΩΝ
Μπόλαρη Αγγελικη(1451) Επιβλέπων Βολογιαννίδης Σταύρος ΑΤΕΙ ΣΕΡΡΩΝ ΣΧΟΛΗ ΤΕΧΝΟΛΟΓΙΚΩΝ ΕΦΑΡΜΟΓΩΝ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ & ΕΠΙΚΟΙΝΩΝΙΩΝ Σέρρες 2013.
Δημιουργία Λιώτσιος, Κων/νος, B.Sc, Ph.D. (Τμήμα Πληροφορικής ΑΠΘ) ΑΕΝ Μακεδονίας 1 η /16Δρ.
Ε. Αλεξοπούλου, Ε.Π.ΠΑΙ.Κ., Α.Σ.ΠΑΙ.Τ.Ε. Εκπαιδευτική Τεχνολογία, Πολυμέσα.
Ανακαλυπτική μάθηση Γνώση προϊόν του μαθητή Διαδικασία ανακάλυψης η έρευνα για τον εντοπισμό του ακαθορίστου Μέσα από τα ερεθίσματα που του δίνει ο εκπαιδευτικός.
Google docs Google docs forms
Μεταγράφημα παρουσίασης:

ΑΥΤΟΜΑΤO ΦΙΛΤΡΑΡΙΣΜΑ ΑΝΕΠΙΘΥΜΗΤΗΣ ΗΛΕΚΤΡΟΝΙΚΗΣ ΑΛΛΗΛΟΓΡΑΦΙΑΣ ΜΕ ΧΡΗΣΗ ΜΕΘΟΔΩΝ ΜΗΧΑΝΙΚΗΣ MAΘΗΣΗΣ ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ ΜΕΤΑΠΤΥΧΙΑΚΟΥ «Ε ΠΙΣΤΗΜΗ ΚΑΙ Τ ΕΧΝΟΛΟΓΙΑ ΤΩΝ Υ ΠΟΛΟΓΙΣΤΩΝ » ΑΝΥΦΑΝΤΗΣ ΔΙΟΝΥΣΙΟΣ A.M 478 ΕΠΙΒΛΕΠΩΝ ΚΑΘΗΓΗΤΗΣ I. XATZΗΛYΓΕΡΟΥΔΗΣ ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΑΤΡΩΝ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ Η/Υ & ΠΛΗΡΟΦΟΡΙΚΗΣ

ΑΥΤΟΜΑΤO ΦΙΛΤΡΑΡΙΣΜΑ ΑΝΕΠΙΘΥΜΗΤΗΣ ΗΛΕΚΤΡΟΝΙΚΗΣ ΑΛΛΗΛΟΓΡΑΦΙΑΣ ΜΕ ΧΡΗΣΗ ΜΕΘΟΔΩΝ ΜΗΧΑΝΙΚΗΣ MAΘΗΣΗΣ 2 Εισαγωγή  Αντικείμενο Εργασίας  Ορισμός Spam

Προσεγγίσεις Προβλήματος ΑΥΤΟΜΑΤO ΦΙΛΤΡΑΡΙΣΜΑ ΑΝΕΠΙΘΥΜΗΤΗΣ ΗΛΕΚΤΡΟΝΙΚΗΣ ΑΛΛΗΛΟΓΡΑΦΙΑΣ ΜΕ ΧΡΗΣΗ ΜΕΘΟΔΩΝ ΜΗΧΑΝΙΚΗΣ MAΘΗΣΗΣ 3  Φιλτράρισμα με χρήση τεχνικών μηχανικής μάθησης  RIPPER  Φιλτράρισμα με βάση λίστες  SpamHaus ­ ORDB - mail-abuse -  Φιλτράρισμα με βάση υπογραφές  Vipul’s Razor (  Τεχνικές ανίχνευσης ιών  Σύγκριση µέσω βάσης στατιστικών και τυχαίων υπογραφών που εντοπίζουν αποδοτικά διάφορα χαρακτηριστικά τµήµατα spam µηνυµάτων  Φιλτράρισμα με συνδυασμό τεχνικών  BrightMail (  Διευθύνσεις «παγίδες» σε στρατηγικά σηµεία του διαδικτύου  Πράκτορας BrightMail ενηµερώνει τη βάση του µε νέους κανόνες φιλτραρίσµατος, τη στιγµή της δηµιουργίας τους  Αποφυγή µαζικής αποστολής τους στους λογαριασµούς των χρηστών του εξυπηρετητή (Domain restriction)  SpamAssassin (  Μηχανισµοί για την ανάλυση των επικεφαλίδων των µηνυµάτων  Μηχανισµοί για την ανάλυση του περιεχοµένου των µηνυµάτων, µε τη βοήθεια ευριστικών κανόνων και της χρήσης γενετικών αλγορίθµων µάθησης.  Μαύρες λίστες, που παρέχονται στο σύστηµα τόσο στατικά, υπό µορφή αρχείων, όσο και δυναµικά, µέσω της χρήσης on-line βάσεων δεδοµένων, όπως οι mail-abuse.org και η ordb.org.  Χρήση Disposable Addresses – DEA  Δεν επιδιώκει την αναγνώριση και κατά επέκταση το φιλτράρισµα των spam από το γραμματοκιβώτιο του χρήστη, αλλά αποσκοπεί στον έµµεσο περιορισµό τους Spamex ( ias ( (

Δυσκολία Προβλήματος ΑΥΤΟΜΑΤO ΦΙΛΤΡΑΡΙΣΜΑ ΑΝΕΠΙΘΥΜΗΤΗΣ ΗΛΕΚΤΡΟΝΙΚΗΣ ΑΛΛΗΛΟΓΡΑΦΙΑΣ ΜΕ ΧΡΗΣΗ ΜΕΘΟΔΩΝ ΜΗΧΑΝΙΚΗΣ MAΘΗΣΗΣ 4  Ενσωμάτωση Εικόνων σε HTML tags  Xωρισμός Λέξεων με HTML tags  Εισαγωγή Κενών χαρακτήρων/ειδικοί χαρακτήρες  Τυχαίες ακολουθίες χαρακτήρων  Ενσωμάτωση javascript  Accented Χαρακτήρες-Αντικατάσταση Χαρακτήρων

Μηχανική Μάθηση ΑΥΤΟΜΑΤO ΦΙΛΤΡΑΡΙΣΜΑ ΑΝΕΠΙΘΥΜΗΤΗΣ ΗΛΕΚΤΡΟΝΙΚΗΣ ΑΛΛΗΛΟΓΡΑΦΙΑΣ ΜΕ ΧΡΗΣΗ ΜΕΘΟΔΩΝ ΜΗΧΑΝΙΚΗΣ MAΘΗΣΗΣ 5  Ένα πρόγραµµα µαθαίνει από την εµπειρία Ε που αποκτά κατά την εκτέλεση ενός συνόλου διεργασιών ∆, εφόσον η απόδοσή του Α βελτιώνεται µε την αξιοποίηση της εµπειρίας Ε.  Επιτελούµενη ∆ιεργασία ∆: Αναγνώριση των spam µηνυµάτων από το γραμματοκιβώτιο ενός χρήστη και διαχωρισµός τους από τα προσωπικά του µηνύµατα (θεµιτά - legitimate).  Μέτρο Απόδοσης Α: Το ποσοστό των µηνυµάτων που ταξινομούνται σωστά.  Εµπειρία Ε: Ένα σώµα µηνυµάτων που έχει ήδη ταξινομηθεί. •Κατηγοριοποίηση s σε πραγ µ ατικό χρόνο. •Κατηγοριοποίηση αρχείων σε ιεραρχίες φακέλων. •Αναγνώριση θε µ άτων για την υποστήριξη διαδικασιών επεξεργασίας κει µ ένων συγκεκρι µ ένης θε µ ατολογίας. •Εύρεση εγγράφων που ταιριάζουν µ ε τα ενδιαφέροντα συγκεκρι µ ένων χρηστών.

Αρχιτεκτονική Συστήματος ΑΥΤΟΜΑΤO ΦΙΛΤΡΑΡΙΣΜΑ ΑΝΕΠΙΘΥΜΗΤΗΣ ΗΛΕΚΤΡΟΝΙΚΗΣ ΑΛΛΗΛΟΓΡΑΦΙΑΣ ΜΕ ΧΡΗΣΗ ΜΕΘΟΔΩΝ ΜΗΧΑΝΙΚΗΣ MAΘΗΣΗΣ 6

Βάσεις Ηλ. Μηνυμάτων  Βάση ηλ. μηνυμάτων LING-SPAM  Βάση ηλ. μηνυμάτων ENRON  Βάση ηλ. μηνυμάτων SPAMASSASIN  Χαρακτηριστικά Ηλ. μηνύματα spam : 1001 ηλ. μηνύματα spam από διάφορες πηγές. Ηλ. μηνύματα easy_ham : 5051 legitimate ηλ. μηνύματα τα οποία χαρακτηρίζονται ως εύκολα κατηγοριοποιήσιμα στην κατηγορία legitimate μιάς και δεν περιέχουν χαρακτηριστικά spam μηνυμάτων. Ηλ. μηνύματα hard_ham : 500 legitimate ηλ. μηνύματα τα οποία παρουσιάζουν χαρακτηριστικά παρόμοια με spam μηνύματα. Ηλ. μηνύματα easy_ham_2 : 1400 legitimate ηλ. μηνύματα. Ηλ. μηνύματα spam_2 : 1397 spam ηλ. μηνύματα. Σύνολο μηνυμάτων 9349, η αναλογία των spam Μηνυμάτων κυμαίνεται στο 35%. ΑΥΤΟΜΑΤO ΦΙΛΤΡΑΡΙΣΜΑ ΑΝΕΠΙΘΥΜΗΤΗΣ ΗΛΕΚΤΡΟΝΙΚΗΣ ΑΛΛΗΛΟΓΡΑΦΙΑΣ ΜΕ ΧΡΗΣΗ ΜΕΘΟΔΩΝ ΜΗΧΑΝΙΚΗΣ MAΘΗΣΗΣ 7  Χαρακτηριστικά Η αρχική βάση περιλαμβάνει ηλ. μηνύματα από 158 χρήστες. Μετά τον καθαρισμό της βάσης από διπλότυπα ηλ. μηνύματα, μιας και τα ηλ. μηνύματα υπήρχαν σε περισσότερους από 1 χρήστες, ο αριθμός περιορίστηκε σε Περίπου 757 μηνύματα ανά χρήστη κατά μέσο όρο 61.63% σε φακέλλους 13% Spam  Χαρακτηριστικά Περιλαμβάνει 2893 ηλ. Μηνύματα 2412 είναι κανονικά ηλ. Μηνύματα 481 είναι spam

Εξαγωγή Παραμέτρων Δεδομένα Γνώση Επιλογή Εξ. Χαρακτηριστικών Εξόρυξη-Ανάκτηση Γνώσης Προεπεξεργασία Ερμηνεία ΑΥΤΟΜΑΤO ΦΙΛΤΡΑΡΙΣΜΑ ΑΝΕΠΙΘΥΜΗΤΗΣ ΗΛΕΚΤΡΟΝΙΚΗΣ ΑΛΛΗΛΟΓΡΑΦΙΑΣ ΜΕ ΧΡΗΣΗ ΜΕΘΟΔΩΝ ΜΗΧΑΝΙΚΗΣ MΑΘΗΣΗΣ 8 Προεπεξεργασία Βασίζεται στο γεγονός ότι ένα ηλ. μήνυμα παρουσιάζει συγκεκριμένη δομή (όπως επιβάλλεται με την χρήση των επικεφαλίδων). Αφαιρέθηκαν επίσης τα τμήματα από το κυρίως σώμα του ηλ. μήνυμα που παρέπεμπαν σε απάντηση προηγούμενου μηνύματος, πχ χρησιμοποίηση συμβόλων ‘ > ’, λέξεων ‘ Sender wrote ’, ’ original message ‘, κλπ. Έγινε επίσης αφαίρεση των επικεφαλίδων όπου ήταν ενσωματωμένες στα ηλ. μηνύματα, όπως Subject, Sender, To, From, Cc, Importance, κλπ. Εξαγωγή Χαρακτηριστικών • Απομάκρυνση των Ριζών Προέλευσης H συνηθέστερη προσέγγιση είναι η αφαίρεση επιθημάτων του τύπου – ED,-ING, -ION, -IONS, (Αλγόριθμος Porter) • Απομάκρυνση Λέξεων ιs, a, of, the, an, and, or, while, at Επιλογή Παραμέτρων (Mutual Information) Για κάθε ηλ. μήνυμα μετά τις προηγούμενες διαδικασίες αποθήκευση των Ν χαρακτηριστικών (λέξεων) : Για κάθε ηλ μήνυμα i δημιουργία χαρακτηριστικού Boolean διανύσματος V Υπολογισμός του ΜΙ για κάθε f m

Πειράματα Ling-Spam MultiLayerPerceptron Παράμετροι για το WEKA : MultilayerPerceptron -L 0.3 -M 0.2 -N 300 -V 0 -S 0 -E 20 -H a Vector F: 750 Type: BooleanVector F: 750 Type: Count LegitimateSpamLegitimateSpam Confusion Matrixes LegitimateType: BooleanType: Count Recall99,63%99,09% Precision99,46%96,92% Fallout2,70%15,80% Accuracy99,24%96,61% Error0,76%3,39% SpamType: BooleanType: Count Recall97,30%84,20% Precision98,11%94,85% Fallout0,37%0,91% Accuracy99,24%96,61% Error0,76%3,39% Average Precision98,79%95,88% Accuracy99,24%96,61% Error0,76%3,39% Μετρικές ΑΥΤΟΜΑΤO ΦΙΛΤΡΑΡΙΣΜΑ ΑΝΕΠΙΘΥΜΗΤΗΣ ΗΛΕΚΤΡΟΝΙΚΗΣ ΑΛΛΗΛΟΓΡΑΦΙΑΣ ΜΕ ΧΡΗΣΗ ΜΕΘΟΔΩΝ ΜΗΧΑΝΙΚΗΣ MAΘΗΣΗΣ 9 Enron-Spam Spam Assasin

Συμπεράσματα - Επεκτάσεις Επεκτάσεις – Βελτιώσεις :  Βελτίωση του αλγόριθμου εξαγωγής παραμέτρων, με χρήση άλλων μετρικών για το χαρακτηριστικό διάνυσμα που χρησιμοποιήθηκε στους ταξινομητές.  Επέκταση της µεθόδου με χρήση Ενεργούς Μηχανικής Μάθησης με αλληλεπίδραση του χρήστη  Χρήση τεχνικών αναγνώρισης εικόνας προκειμένου για την αντιμετώπιση των ανεπιθύμητων ηλ. μηνυμάτων με επισυναπτόμενες εικόνες.  Η διαδικασία εξαγωγής παραμέτρων δεν θα πρέπει να περιορίζεται μόνο σε λέξεις φυσικής γλώσσας αλλά να διαχειρίζεται HTML επικεφαλίδες.  Χρήση ταξινομητών με λίστες ηλεκτρονικών διευθύνσεων, γνωστών spammers στην απλούστερή τους µορφή, ή ακόµα και DNS-based IP διευθύνσεων γνωστών συµµοριών spammers, δικτυακών υπηρεσιών µαζικής αποστολής µηνυµάτων (spam-for-hire sites), πρακτόρων µεταφοράς ταχυδροµείου (MTAs) και αναµεταδοτών (mail relays). Προυπόθεση η χρήση βέβαια και άλλων πεδίων του ηλ. μηνύματος εκτός του σώματος/θέματος ΑΥΤΟΜΑΤO ΦΙΛΤΡΑΡΙΣΜΑ ΑΝΕΠΙΘΥΜΗΤΗΣ ΗΛΕΚΤΡΟΝΙΚΗΣ ΑΛΛΗΛΟΓΡΑΦΙΑΣ ΜΕ ΧΡΗΣΗ ΜΕΘΟΔΩΝ ΜΗΧΑΝΙΚΗΣ MAΘΗΣΗΣ 10

Τέλος Παρουσίασης ΑΥΤΟΜΑΤO ΦΙΛΤΡΑΡΙΣΜΑ ΑΝΕΠΙΘΥΜΗΤΗΣ ΗΛΕΚΤΡΟΝΙΚΗΣ ΑΛΛΗΛΟΓΡΑΦΙΑΣ ΜΕ ΧΡΗΣΗ ΜΕΘΟΔΩΝ ΜΗΧΑΝΙΚΗΣ MAΘΗΣΗΣ