Η παρουσίαση φορτώνεται. Παρακαλείστε να περιμένετε

Η παρουσίαση φορτώνεται. Παρακαλείστε να περιμένετε

Εξόρυξη Γνώσης από Δεδομένα

Παρόμοιες παρουσιάσεις


Παρουσίαση με θέμα: "Εξόρυξη Γνώσης από Δεδομένα"— Μεταγράφημα παρουσίασης:

1 Εξόρυξη Γνώσης από Δεδομένα
Γεώργιος Παλιούρας Εργαστήριο Τεχνολογίας Γνώσεων & Λογισμικού Ινστιτούτο Πληροφορικής & Τηλεπικοινωνιών Ε.Κ.Ε.Φ.Ε. «Δημόκριτος» Ερευνητής στο Εργαστήριο Τεχνολογίας Γνώσεων και Λογισμικού, το οποίο ασχολείται κυρίως με ευφυής τεχνολογίες για υποστήριξη υπηρεσιών στο Διαδίκτυο: Τεχνολογίες επεξεργασίας κειμενικού και πολυμεσικού περιεχομένου, Διαχείριση και Εξόρυξη Γνώσης, Μοντελοποίηση Χρηστών.

2 Περιεχόμενα Εξόρυξη γνώσης (knowledge discovery) και μηχανική μάθηση (machine learning) Εκμάθηση ταξινομητών (learning classifiers) Ομαδοποίηση (clustering) Αποκάλυψη συσχετίσεων (association discovery) Εξόρυξη από τον Παγκόσμιο Ιστό (Web mining) Ανακεφαλαίωση Θα εστιάσουμε στην χρήση μηχανικής μάθησης για την απόκτηση γνώσης από δεδομένα (στατιστική ανάλυση δεδομένων). Θα δούμε 3 κατηγορίες προβλημάτων που αντιμετωπίζονται με αντίστοιχες μεθόδους μηχανικής μάθησης. Πολύ συνοπτικά, θα δούμε το σημαντικότερο ίσως πεδίο εφαρμογής της εξόρυξης: τον Παγκόσμιο Ιστό. © Georgios Paliouras

3 Περιεχόμενα Εξόρυξη γνώσης (knowledge discovery) και μηχανική μάθηση (machine learning) Εκμάθηση ταξινομητών (learning classifiers) Ομαδοποίηση (clustering) Αποκάλυψη συσχετίσεων (association discovery) Εξόρυξη από τον Παγκόσμιο Ιστό (Web mining) Ανακεφαλαίωση Ξεκινάμε με μία μικρή εισαγωγή στο τι είναι η εξόρυξη γνώσης και ποιος είναι ο ρόλος των μεθόδων μηχανικής μάθησης στην επίτευξη των στόχων της. © Georgios Paliouras

4 Συστήματα βασισμένα στη γνώση
Προγράμματα που ενσωματώνουν γνώση, υπό μορφή κάποιου γνωσιακού μοντέλου, με στόχο την επίτευξη ευφυούς συμπεριφοράς. Απαραίτητα για την επίλυση απαιτητικών προβλημάτων. Αυξημένη ζήτηση στον Παγκόσμιο Ιστό. © Georgios Paliouras

5 Συστήματα βασισμένα στη γνώση
Παραδείγματα εφαρμογών: Ιατρική, βιομηχανική και άλλη διάγνωση. Λήψη αποφάσεων. Αναζήτηση, εξαγωγή, φιλτράρισμα πληροφορίας στον Ιστό. Αναπαράσταση και εκμετάλλευση σημασιολογικής πληροφορίας στον Ιστό. Εξατομίκευση πληροφορικών συστημάτων. Φυσικοί ή εικονικοί ευφυείς πράκτορες. © Georgios Paliouras

6 Συστήματα βασισμένα στη γνώση
Σύντηξη πληροφορίας από πολλαπλά μέσα Μία εφαρμογή που μας ενδιαφέρει πολύ, ως εργαστήριο και ως δίκτυο. Συνδυασμός δεδομένων που προέρχονται από διάφορα μέσα (εικόνα, video, κείμενο,...). Κάθε μέσο χρειάζεται διαφορετική προ-επεξεργασία των δεδομένων ώστε να έρθουν σε μία κοινή μορφή, από την οποία μπορεί να εξορυχθεί συνδυαστική γνώση. Στο παράδειγμα, συνδυάζονται διάφορες πληροφορίες σχετικά με το pathfinder, από διάφορες πηγές (άρθρα, βάσεις της NASA, κτλ.) προσβάσιμες κυρίως μέσω του Ιστού. © Georgios Paliouras

7 Συστήματα βασισμένα στη γνώση
Βασικό πρόβλημα: Απόκτηση και ενημέρωση της απαιτούμενης γνώσης, ιδιαίτερα σε συστήματα που λειτουργούν: σε δυναμικό περιβάλλον, χωρίς καλά ορισμένο πρόβλημα, περιορισμένες πηγές σαφώς ορισμένης και λειτουργικά περιγεγραμμένης γνώσης. © Georgios Paliouras

8 Εξόρυξη γνώσης από δεδομένα
Τι είναι εξόρυξη γνώσης: Αποκάλυψη ή παραγωγή λειτουργικής γνώσης, μέσω της ανάλυσης δεδομένων. Συνδυάζει τεχνολογίες: Μηχανικής μάθησης Στατιστικής ανάλυσης δεδομένων Βάσεων δεδομένων Υπάρχουν πολλοί διαφορετικοί ορισμοί της εξόρυξης γνώσης, που εστιάζουν σε διαφορετικές εφαρμογές της. Αυτός είναι ένας κάπως αφαιρετικός ορισμός, ο οποίος τονίζει το γεγονός ότι η γνώση είναι «κρυμμένη» και απαιτεί τον συνδυασμό δεδομένων για να αποκαλυφθεί/παραχθεί. Η εξόρυξη γνώσης βασίζεται σε μεθόδους και ιδέες από διάφορα γνωστικά πεδία, κυρίως τεχνητή νοημοσύνη, στατιστική και βάσεις δεδομένων. © Georgios Paliouras

9 Εξόρυξη γνώσης από δεδομένα
Δεδομένα εκπαίδευσης Εξόρυξη γνώσης ΟΧΙ εξόρυξη γνώσης Σύστημα γνώσης Γνώση Δεδομένα λειτουργίας Αποτελέσματα λειτουργίας Μπερδεύει γιατί και το σύστημα εξόρυξης γνώσης εμπίπετι στην γενικότερη περιγραφή του συστήματος γνώσης. © Georgios Paliouras

10 Εξόρυξη γνώσης από δεδομένα
Τι ΔΕΝ ΕΙΝΑΙ εξόρυξη γνώσης: Η λειτουργική διαδικασία που εξυπηρετεί το σύστημα γνώσης, π.χ. Αναζήτηση, ανάκτηση, εξαγωγή, φιλτράρισμα, πληροφορίας. Υποστήριξη λήψης αποφάσεων. Εξατομίκευση πληροφοριακών συστημάτων. Διάγνωση και πρόγνωση. © Georgios Paliouras

11 Εξόρυξη γνώσης από δεδομένα
κύκλος εφαρμογής Κατανόηση προβλήματος τεχνικός κύκλος Επιλογή και διαμόρφωση δεδομένων Μάθηση Παρουσίαση και αξιολόγηση αποτελεσμάτων Συνοπτικά η διαδικασία εξόρυξης γνώσης. Κατανόηση προβλήματος  καθορισμός προδιαγραφών. Συλλογή, καθαρισμός, διαμόρφωση δεδομένων στη μορφή που μπορεί να τα επεξεργαστεί ο αλγόριθμος μάθησης. Μάθηση  αλγόριθμος ανάλυσης των δεδομένων και παραγωγής της γνώσης (μοντέλο). Παρουσίαση των αποτελεσμάτων και αξιολόγηση από τον χρήστη. Χρήση του εκτελεστικού συστήματος στην πράξη. Όλα τα βήματα είναι πολύ σημαντικά για την επιτυχία του συστήματος. Η πιο πολλή δουλειά είναι διαδικαστική. Εμείς θα εστιάσουμε στον πυρήνα της εξόρυξης: την μάθηση. Δύο επαναληπτικές διαδικασίες: Ο τεχνικός κύκλος αφορά την επιλογή αλγορίθμων και καθορισμό διαφόρων άλλων τεχνικών παραμέτρων της μεθόδου. Ο κύκλος εφαρμογής αφορά τον αναπροσδιορισμό του προβλήματος με βάση την ικανοποίηση του χρήστη από τα αποτελέσματα. Εδώ η αξιολόγηση δεν είναι καθαρά τεχνική (δηλ. ικανοποίηση μετρήσιμων προδιαγραφών). Περισσότερο είναι διαδικασία prototyping. Εφαρμογή © Georgios Paliouras

12 Μηχανική Μάθηση Τι είναι μηχανική μάθηση: Δημιουργία/Επιλογή/Βελτίωση ενός γνωσιακού μοντέλου από ένα εκπαιδευτικό σύνολο δεδομένων. Παράδειγμα: Δημιουργία ενός μοντέλου «καλού πελάτη», με βάση παραδείγματα «καλών» και «κακών» πελατών. © Georgios Paliouras

13 Μηχανική Μάθηση Ηλικία Οικ. Κατ. Φύλο Περιοχή Καλός; 27 Άγαμος Α
Αγ. Παρ. ΟΧΙ 40 Γ Χαλάνδρι 25 Έγγαμος Χολαργός 32 Με τέκνα 35 ΝΑΙ 38 26 30 © Georgios Paliouras

14 Μηχανική Μάθηση Παράδειγμα μοντέλου «καλού πελάτη»: ΕΑΝ Οικ. Κατ.: Έγγαμος ΚΑΙ Ηλικία >= 30 Η Οικ. Κατ.: Με τέκνα ΚΑΙ Φύλο: Γ ΤΟΤΕ: «Καλός Πελάτης» Παράδειγμα μοντέλου «κακού πελάτη»: ΕΑΝ Οικ. Κατ.: Άγαμος Η Οικ. Κατ.: Έγγαμος ΚΑΙ Ηλικία < 30 Η Οικ. Κατ.: Με τέκνα ΚΑΙ Φύλο: Α ΤΟΤΕ: «Κακός Πελάτης» © Georgios Paliouras

15 Μηχανική Μάθηση Πώς μαθαίνει μία «μηχανή»;
Τι είδους γνώση χρειαζόμαστε; Πώς την αναπαριστούμε; Τι είδους δεδομένων διαθέτουμε; Τι ποσότητα; Πώς τα αναπαριστούμε; Τι αποτελεί ένα καλό μοντέλο; Πώς το αξιολογούμε με βάση τα δεδομένα εκπαίδευσης; Πώς μπορούμε να κατασκευάσουμε/επιλέξουμε ένα καλό μοντέλο σε λογικό (χαμηλό πολυωνυμικό) χρόνο; © Georgios Paliouras

16 Μηχανική Μάθηση Το είδος της γνώσης που χρειαζόμαστε καθορίζεται από τον τύπο προβλήματος που αντιμετωπίζει το σχετικό σύστημα γνώσης: Ταξινόμηση: Μοντέλα Κ γνωστών κατηγοριών. Αριθμητική πρόβλεψη: Συνάρτηση πρόβλεψης με αριθμητικό πεδίο τιμών. Ομαδοποίηση: Μοντέλα Κ αγνώστων κατηγοριών. Εξόρυξη συσχετίσεων: Μοντέλο συσχετίσεων μεταξύ ανεξάρτητων μεταβλητών. Η αναπαράσταση της γνώσης διαφέρει για κάθε αλγόριθμο μάθησης. © Georgios Paliouras

17 Μηχανική Μάθηση Τα δεδομένα που διαθέτουμε θα πρέπει να αντιστοιχούν στην αναζητούμενη γνώση: Συνήθως διανυσματική αναπαράσταση: διάνυσμα χαρακτηριστικών (ανεξάρτητων μεταβλητών). Ικανά χαρακτηριστικά για την περιγραφή του μοντέλου. Τιμές εξαρτημένης μεταβλητής (κατηγορίας) για προβλήματα ταξινόμησης/πρόβλεψης. Ικανή ποσότητα για τη δημιουργία καλού μοντέλου. Αντιπροσωπευτικά του «συνόλου» των δεδομένων λειτουργίας του συστήματος γνώσης. © Georgios Paliouras

18 Μηχανική Μάθηση Θεωρητικά, η αξιολόγηση του μοντέλου γίνεται με βάση την απόδοση του συστήματος γνώσης στο οποίο ενσωματώνεται και στο «σύνολο» των δεδομένων λειτουργίας. Πρακτικά, η αξιολόγηση γίνεται με βάση την απόδοση του συστήματος γνώσης στα δεδομένα εκπαίδευσης. Υπόθεση: Αν ένα μοντέλο καλύπτει καλά ένα «ικανό» σύνολο δεδομένων εκπαίδευσης τότε καλύπτει καλά και το «σύνολο» των δεδομένων λειτουργίας. Επιπλέον, αξιολογείται «δομικά» το μοντέλο, π.χ. η απλότητα/γενικότητα του, ώστε να αποφευχθεί το φαινόμενο της απομνημόνευσης των δεδομένων εκπαίδευσης. © Georgios Paliouras

19 Μηχανική Μάθηση Πώς κατασκευάζουμε/επιλέγουμε ένα καλό μοντέλο;
Αναζήτηση στον χώρο των γενικευμένων μοντέλων για τα δεδομένα: Χώρος αναζήτησης: καθορίζεται από την αναπαράσταση των μοντέλων. Αρχική κατάσταση: το κενό μοντέλο (πιο γενικό), τα δεδομένα (πιο ειδικό) ή ένα τυχαίο μοντέλο. Τελεστές: σταδιακή μεταβολή του μοντέλου, συνήθως εξειδίκευση ή γενίκευση. Ευριστικά αξιολόγησης του μοντέλου: κάλυψη των δεδομένων και απλότητα/γενικότητα του μοντέλου. Στόχος: εύρεση ενός καλού μοντέλου σε πολυωνυμικό χρόνο. © Georgios Paliouras

20 Μηχανική Μάθηση Παράδειγμα αναζήτησης:
Σύνολο χαρακτηριστικών: Οικ. Κατ. (3 τιμές), Φύλο (2 τιμές), Περιοχή (5 τιμές). Αριθμός διακριτών παραδειγμάτων: 30 Αναπαράσταση μοντέλου: απλός συζευκτικός κανόνας, π.χ. ΕΑΝ Οικ. Κατ.: Έγγαμος ΚΑΙ Φύλο: Γ ΤΟΤΕ: «Καλός» Αριθμός διακριτών μοντέλων: 217 Σε πραγματικά προβλήματα, ο αριθμός αυτός είναι ΠΟΛΥ μεγαλύτερος (εκθετικός χώρος αναζήτησης). Για παράδειγμα η διάζευξη δύο μόνο συζευκτικών κανόνων οδηγεί σε 4968 διακριτά μοντέλα! Χρειαζόμαστε ευριστικές μεθόδους αναζήτησης. © Georgios Paliouras

21 Άγαμος, Άνδρας, Χαλάνδρι
Μηχανική Μάθηση Είναι χρήσιμη η ταξινόμηση των μοντέλων με βάση τη γενικότητά τους (χώρος μοντέλων): Ειδικό Άγαμος, Άνδρας, Χαλάνδρι Άγαμος Χαλάνδρι Άγαμος Άνδρας Άγαμος Γυναίκα Άγαμος Γυναίκα Έγγαμος {} Γενικό © Georgios Paliouras

22 Μηχανική Μάθηση πιο ειδικό μοντέλο γενίκευση ένα καλό μοντέλο
ένα τυχαίο μοντέλο ειδίκευση πιο γενικό μοντέλο © Georgios Paliouras

23 Μηχανική Μάθηση Γενίκευση:
Παράδειγμα καλού πελάτη #1: (Οικ. Κατ.: Έγγαμος, Φύλο: Α, Περ.: Αγ. Παρ.) Μ1={Οικ. Κατ.: Έγγαμος, Φύλο: Α, Περ.: Αγ. Παρ.} Παράδειγμα καλού πελάτη #2: (Οικ. Κατ.: Έγγαμος, Φύλο: Α, Περ.: Χαλάνδρι) Μ2={Οικ. Κατ.: Έγγαμος, Φύλο: Α} Παράδειγμα καλού πελάτη #3: (Οικ. Κατ.: Άγαμος, Φύλο: Γ, Περ.: Χαλάνδρι) Μ3={} Πρόβλημα: Περιορισμένη αναπαράσταση γνώσης. Δεν μπορεί να καλύψει τα παραδείγματα. © Georgios Paliouras

24 Μηχανική Μάθηση Ειδίκευση: Μ0={}
Παράδειγμα κακού πελάτη #1: (Οικ. Κατ.: Άγαμος, Φύλο: Α, Περ.: Αγ. Παρ.) Μ1.1={Οικ. Κατ.: Έγγαμος}, Μ1.2={Οικ. Κατ.: Με τέκνα}, Μ1.3={Φύλο: Γ}, Μ1.4={Περ.: Χαλάνδρι}, Μ1.5=... Παράδειγμα κακού πελάτη #2: (Οικ. Κατ.: Με τέκνα, Φύλο: Γ, Περ.: Χολαργός) Μ1.1, Μ1.4, ..., Μ2.1={Οικ. Κατ.: Άγαμος, Φύλο: Γ}, Μ2.2= {Φύλο: Γ, Περ.: Αγ. Παρ.}, Μ2.3= {Οικ. Κατ.: Με τέκνα, Φύλο: Α}, Μ2.4=... Παράδειγμα κακού πελάτη #3: (Οικ. Κατ.: Άγαμος, Φύλο: Γ, Περ.: Χαλάνδρι) Μ1.1, ..., Μ2.2, Μ2.3, ..., Μ3.1={Οικ. Κατ.: Άγαμος, Φύλο: Γ, Περ.: Χολαργός}, Μ3.2=... © Georgios Paliouras

25 Μηχανική Μάθηση Μάθηση υπό επίβλεψη: Μάθηση χωρίς επίβλεψη:
Εκμάθηση ταξινομητών (classification): decision trees & rules, multi-layer perceptrons, logistic regression Εκμάθηση μοντέλων πρόβλεψης (prediction): regression trees, multi-layer perceptrons, time-series analysis Μάθηση χωρίς επίβλεψη: Ομαδοποίηση (clustering): conceptual clustering, self-organising maps, statistical clustering Εξόρυξη συσχετίσεων (associations): association rules, dependency networks Υπάρχουν πολλοί τρόποι κατηγοριοποίησης των μεθόδων μηχανικής μάθησης. Η κατηγοριοποίηση που θεωρώ πιο ενδιαφέρουσα είναι αυτή που αφορά τα προβλήματα που μπορούν να αντιμετωπίσουν. Αυτή η κατηγοριοποίηση χρησιμοποιείται και για τις μεθόδους στατιστικής ανάλυσης δεδομένων, οι οποίες είναι οι πρόγονοι των μεθόδων μηχανικής μάθησης. Με βάση αυτή την κατηγοριοποίηση, η πλειοψηφία (ΟΧΙ ΤΟ ΣΥΝΟΛΟ) των μεθόδων μπορούν να χωριστούν σε αυτές τις 4 κατηγορίες, κάθε μία από τις οποίες χωρίζεται σε υποκατηγορίες, με βάση την αναπαράσταση της γνώσης που παράγεται. Σε υψηλότερο επίπεδο, οι 4 κατηγορίες ομαδοποιούνται σε 2 βασικές προσεγγίσεις: μάθηση με επίβλεψη, όπου στα δεδομένα εκπαίδευσης δίνεται και η «σωστή απάντηση», και μάθηση χωρίς επίβλεψη, όπου πρέπει να μάθουμε από δεδομένα που δεν έχουν καμία επιπλέον πληροφορία από τα δεδομένα που επεξεργάζεται το εκτελεστικό σύστημα. © Georgios Paliouras

26 Μηχανική Μάθηση ... Συμβολικές Δέντρα Αποφάσεων Κανόνες Συσχέτισης
Συμβολικές Δέντρα Αποφάσεων Κανόνες Συσχέτισης Αριθμητικές/Στατιστικές Νευρωνικά δίκτυα Στατιστικοί ταξινομητές οικ. κατ. ΟΧΙ φύλο ηλικία>30 Ν Ο Α Ε Τ Γ ΝΑΙ (Ηλικία<=30) & (Οικ:Τ) -> (Φύλο:Γ) (Ηλικία<=30) & (Οικ:Π) -> (Φύλο:Γ) ... Φύλο Ηλικία 20 25 30 Α Γ ΝΑΙ ΟΧΙ Όπως προανέφερα, μία άλλη κατηγοριοποίηση είναι με βάση την αναπαράσταση της γνώσης. Σ’ αυτή την προσέγγιση υπάρχουν 2 κύριες ομάδες: συμβολικές και αριθμητικές μέθοδοι. Εδώ θα ασχοληθούμε κυρίως με συμβολικές μεθόδους. Επίσης δεν θα ασχοληθούμε με εκμάθηση μοντέλων πρόβλεψης, επειδή σ’ αυτό τον τομέα χρησιμοποιούνται κυρίως (αλλά όχι αποκλειστικά) αριθμητικές μέθοδοι. Φ Α ΧΑ ν ο Η Ε ΧΟ Τ ΑΠ © Georgios Paliouras

27 Περιεχόμενα Εξόρυξη γνώσης (knowledge discovery) και μηχανική μάθηση (machine learning) Εκμάθηση ταξινομητών (learning classifiers) Ομαδοποίηση (clustering) Αποκάλυψη συσχετίσεων (association discovery) Εξόρυξη από τον Παγκόσμιο Ιστό (Web mining) Ανακεφαλαίωση Η πρώτη κατηγορία μεθόδων που θα εξετάσουμε είναι η εκμάθηση ταξινομητών. Το εκτελεστικό σύστημα εδώ κατατάσσει τα παραδείγματα σε γνωστές κατηγορίες. © Georgios Paliouras

28 <Ηλικία: 27, Οικ. Κατ.: Έγγαμος, Φύλο: Α, Απόφαση: ΝΑΙ>
Εκμάθηση ταξινομητών Αναπαράσταση των δεδομένων ως διανύσματα χαρακτηριστικών (feature vectors): <Ηλικία: 27, Οικ. Κατ.: Έγγαμος, Φύλο: Α, Απόφαση: ΝΑΙ> Επιλογή ενός χαρακτηριστικού ως κατηγορία. π.χ. Απόφαση. Ταξινόμηση: υπολογισμός , π.χ. P(Απόφαση: ΝΑΙ | Ηλικία: 27, Οικ. Κατ.: Έγγαμος, Φύλο: Α). Εκμάθηση ταξινομητή: υπολογισμός του «βέλτιστου» ταξινομητή με βάση τα δεδομένα. Τα δεδομένα/παραδείγματα αναπαριστούνται με βάση ένα σύνολο χαρακτηριστικών (features). Κάθε παράδειγμα καθορίζει συγκεκριμένες τιμές για τα χαρακτηριστικά και αναπαριστάται ως ένα διάνυσμα χαρακτηριστικών. Έτσι κάθε παράδειγμα γίνεται ένα σημείο στον πολυδιάστατο χώρο που καθορίζεται από τα χαρακτηριστικά (διαστάσεις του χώρου). Αν χρησιμοποιούσαμε λογική για την αναπαράσταση, κάθε παράδειγμα θα ήταν μία δήλωση (assertion) σε προτασιακή λογική. Ένα από τα χαρακτηριστικά ορίζεται ως κατηγορία, γιατί μας ενδιαφέρει η πρόγνωση/διάγνωση της τιμής του με βάση τις τιμές των υπολοίπων χαρακτηριστικών. Το εκτελεστικό σύστημα πρέπει να πάρει μία απόφαση για την τιμή αυτού του χαρακτηριστικού, μεγιστοποιώντας την δεσμευμένη πιθανότητα των διαφορετικών τιμών του, όπως αυτή υπολογίζεται από το μοντέλο ταξινόμησης (λειτουργική γνώση) που έχει αποκτηθεί από τα δεδομένα εκπαίδευσης. © Georgios Paliouras

29 Εκμάθηση ταξινομητών Ηλικία Οικ. Κατ. Φύλο Περιοχή Απόφαση 27 Άγαμος Α
Αγ. Παρ. ΟΧΙ 40 Γ Χαλάνδρι 25 Έγγαμος Χολαργός 32 Με παιδιά 35 ΝΑΙ 38 26 30 Ένα απλοϊκό παράδειγμα ταξινόμησης υποψήφιων πελατών μίας ασφαλιστικής εταιρείας (ασφάλιση αυτοκινήτου). 5 χαρακτηριστικά, όπου η κατηγορία είναι ένα Boolean χαρακτηριστικό. Από τα υπόλοιπα χαρακτηριστικά, τα τρία παίρνουν διακριτές τιμές και ένα παίρνει συνεχείς τιμές. Αυτό το παράδειγμα, με μικρο-τροποποιήσεις θα μας ακολουθήσει σε όλες τις μεθόδους που θα δούμε. Σε πραγματικά προβλήματα, είναι ΕΥΤΥΧΩΣ σπάνια περίπτωση να έχουμε τόσα λίγα δεδομένα. © Georgios Paliouras

30 Απλοϊκός ταξινομητής κατά Bayes (Naive Bayes):
Εκμάθηση ταξινομητών Απλοϊκός ταξινομητής κατά Bayes (Naive Bayes): Ο παρονομαστής αγνοείται. Εκτίμηση πιθανοτήτων και με μέγιστη πιθανοφάνεια (maximum likelihood) από τα δεδομένα. Η ακριβής εκτίμηση του απαιτεί τεράστιο όγκο δεδομένων. Απλουστευτική υπόθεση: Αφού μας ενδιαφέρει η δεσμευμένη πιθανότητα της κατηγορίας, δεδομένων των τιμών των υπολοίπων χαρακτηριστικών, ο κανόνας του Bayes και γενικότερα η θεωρία αποφάσεων κατά Bayes παίζει σημαντικό ρόλο στην επιλογή του βέλτιστου μοντέλου ταξινόμησης. Με βάση τον κανόνα του Bayes, η ζητούμενη πιθανότητα μπορεί να εκφραστεί όπως φαίνεται στον τύπο. Συνεπώς το μοντέλο που θέλουμε να μάθουμε πρέπει να περιέχει τις πιθανότητες που εμπλέκονται σ’ αυτό τον τύπο. Ο παρονομαστής είναι ανεξάρτητος της κατηγορίας και άρα όταν προσπαθούμε να ταξινομήσουμε ένα παράδειγμα δεν παίζει ρόλο. Συνεπώς δεν χρειάζεται να τον υπολογίσουμε. Τις apriori πιθανότητες των κατηγοριών μπορούμε να τις εκτιμήσουμε σχετικά εύκολα από τα δεδομένα, με βάση τη μέγιστη πιθανοφάνεια, δηλαδή τη συχνότητα της κάθε κατηγορίας στα δεδομένα. Όμως η δεσμευμένη πιθανότητα των παραδειγμάτων με βάση την κατηγορία είναι εξαιρετικά δύσκολο να εκτιμηθεί από τα δεδομένα. Δεν υπάρχουν αρκετά δεδομένα για τον υπολογισμό πιθανοτήτων όλων των συνδυασμών από τιμές χαρακτηριστικών. Ο Naive Bayes αλγόριθμος αντιμετωπίζει αυτό το πρόβλημα κάνοντας μία πολύ δραστική υπόθεση: Η απόδοση τιμών σε ένα χαρακτηριστικό θεωρείται γεγονός ανεξάρτητο από την απόδοση τιμών σε οποιοδήποτε άλλο χαρακτηριστικό, δεδομένης της κατηγορίας. Αυτή η υπόθεση απλοποιεί πολύ το πρόβλημα του υπολογισμού των πιθανοτήτων με χρήση μέγιστης πιθανοφάνειας. Σπάνια ισχύει αυτή υπόθεση, αλλά αυτό δεν επηρεάζει σημαντικά την επιλογή της πιο κατάλληλης κατηγορίας. Έχοντας κάνει αυτή την παραδοχή, μπορούμε εύκολα να εκτιμήσουμε όλες της πιθανότητες από τα δεδομένα. Τα συνεχή χαρακτηριστικά δημιουργούν ένα μικρό πρόβλημα, δηλ. Δεν μπορούμε να υπολογίσουμε πιθανότητες για κάθε ξεχωριστή τιμή τους. Αυτό αντιμετωπίζεται συνήθως με μία επιπλέον παραδοχή, όπως το ότι οι τιμές του συνεχούς χαρακτηριστικού, δεδομένης μίας κατηγορίας, ακολουθούν μία γνωστή κατανομή, συνήθως φυσική (η Gaussian). Έτσι αρκεί να υπολογίσουμε μόνο τον μέσο και την απόκλιση για κάθε κατανομή. Με βάση όλα αυτά θα ήθελα να σκεφτείτε ποια κατηγορία θα επιλέγαμε για έναν έγγαμο άνδρα στο προηγούμενο παράδειγμα, αγνοώντας τα υπόλοιπα χρακτηριστικά. © Georgios Paliouras

31 Εκμάθηση ταξινομητών P(Απ: ΝΑΙ) = 0,5 P(Οικ: Έγγαμος | Απ: ΝΑΙ) = 0,5
Ηλικία Οικ. Κατ. Φύλο Περιοχή Απόφαση 27 Άγαμος Α Αγ. Παρ. ΟΧΙ 40 Γ Χαλάνδρι 25 Έγγαμος Χολαργός 32 Με τέκνα 35 ΝΑΙ 38 26 30 Ένα απλοϊκό παράδειγμα ταξινόμησης υποψήφιων πελατών μίας ασφαλιστικής εταιρείας (ασφάλιση αυτοκινήτου). 5 χαρακτηριστικά, όπου η κατηγορία είναι ένα Boolean χαρακτηριστικό. Από τα υπόλοιπα χαρακτηριστικά, τα τρία παίρνουν διακριτές τιμές και ένα παίρνει συνεχείς τιμές. Αυτό το παράδειγμα, με μικρο-τροποποιήσεις θα μας ακολουθήσει σε όλες τις μεθόδους που θα δούμε. Σε πραγματικά προβλήματα, είναι ΕΥΤΥΧΩΣ σπάνια περίπτωση να έχουμε τόσα λίγα δεδομένα. P(Απ: ΝΑΙ) = 0,5 P(Οικ: Έγγαμος | Απ: ΝΑΙ) = 0,5 P(Ηλ: z | Απ: ΝΑΙ) = g(z ; 32.25, 5.32), … P(Απ: ΝΑΙ | Οικ: Έγγαμος, Φ:Α) ? P(Απ: ΟΧΙ | Οικ: Έγγαμος, Φ:Α) © Georgios Paliouras

32 Εκμάθηση ταξινομητών Σχολιασμός:
Ο αφελής ταξινομητής Bayes δεν διεξάγει ουσιαστικά αναζήτηση στο χώρο των πιθανών υποθέσεων (πολύ ισχυρή επαγωγική κλίση). Είναι ιδιαίτερα γρήγορος τόσο κατά την εκπαίδευση όσο και κατά την ταξινόμηση. O(mn) και O(m) αντίστοιχα, όπου m: διάσταση του χώρου των χαρακτηριστικών, n: πλήθος των στιγμιοτύπων εκπαίδευσης. Η υπόθεση της ανεξαρτησίας των χαρακτηριστικών σπάνια ισχύει, αλλά επίσης σπάνια αυτό έχει σημαντική επίπτωση στην επιλογής της κατάλληλης κατηγορίας. © Georgios Paliouras

33 Δέντρα αποφάσεων (decision trees)
Εκμάθηση ταξινομητών Δέντρα αποφάσεων (decision trees) Οικογ. κατ. Έγγαμος Με παιδιά Άγαμος Ηλικία>=30 Φύλο ΟΧΙ ΝΑΙ ΟΧΙ Α Γ Το δέντρο απόφασης είναι μία γραφική αναπαράσταση μίας σταδιακής διαδικασίας λήψης αποφάσεων. Σε κάθε βήμα λαμβάνεται «τοπικά» μία απόφαση, με βάση ένα χαρακτηριστικό. Ανάλογα με την τιμή του χαρακτηριστικού για το συγκεκριμένο παράδειγμα ακολουθείται διαφορετικό μονοπάτι μέσα από το δέντρο. Κάθε μονοπάτι οδηγεί σε μία απόφαση. Η ρίζα του δέντρου είναι ο πρώτος κόμβος (πάνω) και τα φύλλα οι καταληκτικοί κόμβοι (κάτω). Για τα αριθμητικά χαρακτηριστικά, χρησιμοποιούνται κατώφλια, ώστε να γίνουν δυαδικά (binary). ΝΑΙ ΟΧΙ ΟΧΙ ΝΑΙ © Georgios Paliouras

34 Εκμάθηση ταξινομητών To προς εκμάθηση μοντέλο αναπαριστάται με μία τέτοια δενδρική δομή. Υπάρχουν δύο τύποι κόμβων: Εσωτερικός Κόμβος: Διαιρεί το χώρο του προβλήματος (στιγμιότυπα) σε ομάδες, ανάλογα με την τιμή του χαρακτηριστικού με το οποίο αντιστοιχίζεται ο κόμβος (π.χ. «Φύλο» = {Α, Γ}). Τερματικός Κόμβος: Αναθέτει τα στιγμιότυπα που καταλήγουν σε αυτόν σε μια συγκεκριμένη κατηγορία. © Georgios Paliouras

35 Εκμάθηση ταξινομητών Διαδικασία Ταξινόμησης
Ξεκινάμε από τη ρίζα, ελέγχουμε την τιμή του αντίστοιχου χαρακτηριστικού στο προς ταξινόμηση στιγμιότυπο, και ακολουθούμε το μονοπάτι στο οποίο μας οδηγεί αυτή η τιμή. Μεταβαίνουμε στον επόμενο κόμβο και επαναλαμβάνουμε τη διαδικασία. Όταν φθάσουμε σε τερματικό κόμβο αναθέτουμε το άγνωστο στιγμιότυπο στην αντίστοιχη κατηγορία. © Georgios Paliouras

36 Εκμάθηση ταξινομητών π.χ. X=<40, Άγαμος, Γ, Χαλάνδρι>
Οικογ. κατ. Έγγαμος Με τέκνα Άγαμος Ηλικία>=30 Φύλο ΟΧΙ ΝΑΙ ΟΧΙ Α Γ Το δέντρο απόφασης είναι μία γραφική αναπαράσταση μίας σταδιακής διαδικασίας λήψης αποφάσεων. Σε κάθε βήμα λαμβάνεται «τοπικά» μία απόφαση, με βάση ένα χαρακτηριστικό. Ανάλογα με την τιμή του χαρακτηριστικού για το συγκεκριμένο παράδειγμα ακολουθείται διαφορετικό μονοπάτι μέσα από το δέντρο. Κάθε μονοπάτι οδηγεί σε μία απόφαση. Η ρίζα του δέντρου είναι ο πρώτος κόμβος (πάνω) και τα φύλλα οι καταληκτικοί κόμβοι (κάτω). Για τα αριθμητικά χαρακτηριστικά, χρησιμοποιούνται κατώφλια, ώστε να γίνουν δυαδικά (binary). ΝΑΙ ΟΧΙ ΟΧΙ ΝΑΙ © Georgios Paliouras

37 Εκμάθηση ταξινομητών Αλγόριθμος εξειδίκευσης για την εκμάθηση δέντρων απόφασης (ID3, C4.5, See5, CART, …): Επέλεξε το χαρακτηριστικό που πετυχαίνει τον καλύτερο διαχωρισμό μεταξύ των κατηγοριών. Χώρισε τα δεδομένα σε υποσύνολα με βάση της τιμές του χαρακτηριστικού αυτού. Για κάθε υποσύνολο που περιέχει περισσότερες από μία κατηγορίες, επανέλαβε τη διαδικασία. Σταμάτησε εφόσον δεν υπάρχουν υποσύνολα που περιέχουν περισσότερες από μία κατηγορίες ή έχουν χρησιμοποιηθεί όλα τα χαρακτηριστικά. Η εκμάθηση δέντρων απόφασης είναι από τα προβλήματα που έχουν μελετηθεί περισσότεροι στο πεδίο της μηχανικής μάθησης. Υπάρχει μία πληθώρα αλγορίθμων που μαθαίνουν δέντρα απόφασης από δεδομένα εκπαίδευσης. Όλοι σχεδόν στηρίζονται στην ίδια διαδικασία της επαναληπτικής κατάτμησης του συνόλου δεδομένων σε μικρότερα υποσύνολα με βάση ένα χαρακτηριστικό. Στόχος είναι τα νέα υποσύνολα να είναι κάθε φορά πιο «καθαρά», δηλαδή να πλειοψηφεί μία από τις κατηγορίες που εξετάζονται. © Georgios Paliouras

38 Εκμάθηση ταξινομητών 3 3 2 3 Ηλικία Οικογ. Κατ. Φύλο Περιοχή Απόφαση
27 Άγαμος Α Αγ. Παρ. ΟΧΙ 40 Γ Χαλάνδρι 25 Έγγαμος Χολαργός 32 Με παιδιά 35 ΝΑΙ 38 26 30 Στο παράδειγμά μας, πρέπει πρώτα να αξιολογήσουμε την ικανότητα του κάθε ενός χαρακτηριστικού στην επίτευξη του στόχου, δηλαδή στην κατάτμηση του συνόλου σε καθαρά υποσύνολα. Ας χρησιμοποιήσουμε ένα απλοϊκό μέτρο αξιολόγησης της διαχωριστικής ικανότητας ενός χαρακτηριστικού: Τον αριθμό των παραδειγμάτων που ΜΕΙΟΨΗΦΟΥΝ στα υποσύνολα που δημιουργούνται. Στο αριθμητικό χαρακτηριστικό επιλέγεται η καλύτερη τιμή κατωφλιού, 32 σ’ αυτή την περίπτωση. Μ’ αυτή την τιμή, γίνονται 3 «λάθη»: το παράδειγμα #3 μειοψηφεί στο υποσύνολο [Ηλικία<=32] και τα παραδείγματα #7 και #8 μειοψηφούν στο υποσύνολο [Ηλικία>32]. Αντίστοιχα κάνουμε και για τα άλλα χαρακτηριστικά και καταλήγουμε στην επιλογή του χαρακτηριστικού «Οικογ. Κατ.», ως αυτό που κάνει τα λιγότερα «λάθη». 3 2 3 3 © Georgios Paliouras

39 Εκμάθηση ταξινομητών 1 1 Ηλικία Οικογ. Κατ. Φύλο Περιοχή Απόφαση 27
Άγαμος Α Αγ. Παρ. ΟΧΙ 40 Γ Χαλάνδρι 25 Έγγαμος Χολαργός 32 Με παιδιά 35 ΝΑΙ 38 26 30 Με βάση το επιλεγμένο χαρακτηριστικό για τη ρίζα του δέντρου, το σύνολο εκπαίδευσης χωρίζεται σε 3 υποσύνολα, εκ των οποίων το ένα [Οικ. Κατ.: Άγαμος] είναι εντελώς «καθαρό». Το υποσύνολο [Οικ. Κατ.: Έγγαμος] έχει ένα μειοψηφών παράδειγμα και χρειάζεται να επιλέξουμε ένα δεύτερο χαρακτηριστικό για να διαχωρίσουμε τα τρία παραδείγματα. Στην περίπτωση αυτή η επιλογή του χαρακτηριστικού «Ηλικία>=30» επιτυγχάνει τον διαχωρισμό που θέλουμε. 1 1 © Georgios Paliouras

40 Εκμάθηση ταξινομητών 1 Ηλικία Οικογ. Κατ. Φύλο Περιοχή Απόφαση 27
Άγαμος Α Αγ. Παρ. ΟΧΙ 40 Γ Χαλάνδρι 25 Έγγαμος Χολαργός 32 Με παιδιά 35 ΝΑΙ 38 26 30 Αντίστοιχα, το υποσύνολο [Οικ. Κατ.: Με παιδιά] έχει ένα μειοψηφών παράδειγμα και χρειάζεται να επιλέξουμε ένα δεύτερο χαρακτηριστικό για να διαχωρίσουμε τα τρία παραδείγματα. Στην περίπτωση αυτή η επιλογή του χαρακτηριστικού «Φύλο» ή «Ηλικία>30» επιτυγχάνει τον διαχωρισμό που θέλουμε. 1 © Georgios Paliouras

41 Εκμάθηση ταξινομητών Δέντρα αποφάσεων Οικογ. κατ. Έγγαμος Με παιδιά
Άγαμος Ηλικία>=30 Φύλο ΟΧΙ Ναι Οχι Α Γ Έτσι καταλήγουμε σε αυτό το δέντρο απόφασης, το οποίο διαχωρίζει πλήρως τα παραδείγματα εκπαίδευσης και είναι αρκετά γενικό (μικρό), δηλαδή δεν χρησιμοποιεί όλα τα χαρακτηριστικά και κατά συνέπεια έχει μικρό μέγεθος (λίγα φύλα). Ελπίδα είναι ότι με αυτό τον τρόπο καλύπτει πολύ περισσότερα παραδείγματα από αυτά που έχει δει στο σύνολο εκπαίδευσης, αντί να απομνημονεύει. ΝΑΙ ΟΧΙ ΟΧΙ ΝΑΙ © Georgios Paliouras

42 Εκμάθηση ταξινομητών Εύρεση καλύτερου χαρακτηριστικού
Αρχική «αβεβαιότητα» (εντροπία πληροφορίας): «Αβεβαιότητα» αν επιλεγεί το Χ: Στο παράδειγμα είδαμε ένα απλοϊκό μέτρο αξιολόγησης χαρακτηριστικών, το οποίο όμως εμπεριέχει τη βασική ιδέα, στην οποία βασίζονται όλα τα σχετικά μέτρα. Ένα ευρέως χρησιμοποιούμενο μέτρο είναι το «κέρδος πληροφορίας» (information gain), το οποίο στηρίζεται στην μείωση της εντροπίας της πληροφορίας, που επιτυγχάνεται με την επιλογή του χαρακτηριστικού και της κατάτμησης του συνόλου των παραδειγμάτων. Η αρχική εντροπία της κατηγορίας Η(C) είναι μία θετική ποσότητα που μετρά την αβεβαιότητα ως προς την κατανομή των κατηγοριών στο αρχικό σύνολο. Όσο πιο ανισοκατανεμημένες είναι οι κατηγορίες, τόσο «καθαρότερη» η πλειοψηφία μίας κατηγορίας και τόσο μικρότερη η εντροπία. Η δεσμευμένη εντροπία, βάση του επιλεγμένου χαρακτηριστικού Η(C|X), είναι πάντα μικρότερη η ίση με την εντροπία της κατηγορίας. Κατά μέσο όρο δηλαδή τα υποσύνολα είναι τουλάχιστον το ίδιο καθαρά όσο και το υπερσύνολο από το οποίο προήλθαν. Στόχος είναι να επιλέξουμε το χαρακτηριστικού που οδηγεί στη μεγαλύτερη μείωση της εντροπίας. Το H(C) είναι κοινό για όλα τα χαρακτηριστικά. Οπότε μας ενδιαφέρει μόνο το H(C|X). Υπάρχουν αρκετές παραλλαγές και βελτιώσεις αυτού του βασικού μέτρου. «Κέρδος πληροφορίας» (information gain) αν επιλεγεί το Χ: © Georgios Paliouras

43 Εκμάθηση ταξινομητών 0.66 0.65 0.69 0.48 0.69 Ηλικία Οικογ. Κατ. Φύλο
Περιοχή Απόφαση 27 Άγαμος Α Αγ. Παρ. ΟΧΙ 40 Γ Χαλάνδρι 25 Έγγαμος Χολαργός 32 Με παιδιά 35 ΝΑΙ 38 26 30 Στο παράδειγμά μας, η εντροπία της κατηγορίας είναι Η(Απόφαση)=0.69 και η δεσμευμένη εντροπία με βάση κάθε χαρακτηριστικό, όπως φαίνεται. Πάλι το χαρακτηριστικό «Οικογ. Κατ.» επιλέγεται. 0.69 0.48 0.66 0.65 0.69 © Georgios Paliouras

44 Εκμάθηση ταξινομητών Θόρυβος στα δεδομένα Ηλικία Οικ. Κατ. Φύλο
Περιοχή Απόφαση 37 Άγαμος Α Αγ. Παρ. ΟΧΙ 40 Γ Χαλάνδρι ΝΑΙ 25 Έγγαμος Χολαργός 32 Με παιδιά 35 38 26 30 Ο αλγόριθμος που παρουσιάσουμε αντιμετωπίζει προβλήματα όταν υπάρχει θόρυβος στα δεδομένα. Εδώ βλέπουμε μία περίπτωση θορύβου στην κατηγορία (παράδειγμα #2) και μία περίπτωση στις τιμές των χαρακτηριστικών (παράδειγμα #1). © Georgios Paliouras

45 Υπερεστιασμένο δέντρο (overfitting)
Εκμάθηση ταξινομητών Υπερεστιασμένο δέντρο (overfitting) Ηλικία=<37 Ναι Οχι Οικογ. κατ. ΝΑΙ Άγαμος Με παιδιά Έγγαμος ΟΧΙ Φύλο Φύλο Ο θόρυβος μπορεί να οδηγήσει στο φαινόμενο της υπερεστίασης (overfitting) στα δεδομένα εκπαίδευσης. Δηλαδή το δέντρο που κατασκευάζεται στην προσπάθεια του αλγορίθμου να πετύχει πλήρως καθαρά υποσύνολα, εστιάζει υπερβολικά στα δεδομένα εκπαίδευσης με αποτέλεσμα σχεδόν να τα απομνημονεύει, να γίνεται πολύ μεγάλο και να μην επιτυγχάνει επαρκή γενίκευση ώστε να είναι χρήσιμο και σε άλλα δεδομένα. Στο παράδειγμά μας, δημιουργείται ένα επιπλέον επίπεδο κόμβων για τον πλήρη διαχωρισμό. Α Γ Α Γ ΝΑΙ ΟΧΙ ΟΧΙ ΝΑΙ © Georgios Paliouras

46 Εκμάθηση ταξινομητών Κλαδεμένο δέντρο Ηλικία=<37 Ναι Οχι
Οικογ. κατ. ΝΑΙ Άγαμος Με παιδιά Έγγαμος ΟΧΙ Φύλο ΝΑΙ Η λύση σ’ αυτό το πρόβλημα είναι το κλάδεμα του δέντρου, ώστε να γίνει μικρότερο και γενικότερο. Τα κλαδιά που κλαδεύονται είναι αυτά που υπερεστιάζουν σε ένα μικρό υποσύνολο των δεδομένων, χωρίς να πετυχαίνουν μεγάλη βελτίωση της ταξινόμησης των παραδειγμάτων εκπαίδευσης. Α Γ ΝΑΙ ΟΧΙ © Georgios Paliouras

47 Εκμάθηση ταξινομητών Τεχνικές κλαδέματος δέντρων:
Πρόωρο σταμάτημα ανάπτυξης: π.χ. P(Ηλ: =<37, Οικ: Έγγαμος) < 0.2 Μετέπειτα κλάδεμα βασισμένο σε «απαισιόδοξη εκτίμηση σφάλματος» (pessimistic error pruning): Όπου το υπο-δέντρο Tt αντικαθιστάται από τη ρίζα του t, που γίνεται φύλλο. err(t): αριθμός λαθών στο t, data(t): αριθμός παραδειγμάτων στο t Υπάρχουν δύο κύριες προσεγγίσεις στο κλάδεμα των δέντρων: Το πρόωρο σταμάτημα της ανάπτυξής του με βάση το ποσοστό των παραδειγμάτων που αντιστοιχούν σε ένα κόμβο. Το μετέπειτα κλάδεμα με βάση μετρικές που συνδυάζουν το πόσο θα χειροτερέψει ο ταξινομητής (στο σύνολο εκπαίδευσης) αν αφαιρεθεί ένας κόμβος t και το υπο-δέντρο T_t, του οποίου είναι ρίζα, καθώς και το μέγεθος του υποσυνόλου που καλύπτεται από το συγκεκριμένο κλαδί. © Georgios Paliouras

48 Εκμάθηση ταξινομητών Αλγόριθμος κλαδέματος με βάση την «απαισιόδοξη εκτίμηση σφάλματος»: Για κάθε εσωτερικό κόμβο: Έλεγχος για το αν η απομάκρυνσή του από το δένδρο, μαζί με το υποδένδρο του οποίου αποτελεί ρίζα, και η ανάθεση της συχνότερα εμφανιζόμενης κατηγορίας σε αυτό δε βλάπτει την ακρίβεια που μετράται σε κάποιο ανεξάρτητο σώμα επικύρωσης. Επιλογή του κόμβου που υπόσχεται την καλύτερη απόδοση, και αποκοπή του υποδένδρου του. Επιστροφή στο βήμα 1, όσο το δένδρο επιδέχεται βελτίωση, σύμφωνα με κάποιο δεδομένο κατώφλι. © Georgios Paliouras

49 Εκμάθηση ταξινομητών Χαρακτηριστικά αναζήτησης:
Αναζήτηση στο χώρο όλων των δυνατών δένδρων απόφασης, με βάση τα συγκεκριμένα χαρακτηριστικά. Οι περισσότεροι αλγόριθμοι υλοποιούν άπληστη ανάβαση (greedy hill-climbing): Διατήρηση ενός μόνο δέντρου σε κάθε βήμα χωρίς οπισθοδρομήσεις. Επιλέγεται η καλύτερη εναλλακτική για την ανάπτυξη κάθε κόμβου του δένδρου. Προτιμώνται τα απλούστερα (μικρότερα) δένδρα. Προτιμώνται δένδρα, στα οποία τα χαρακτηριστικά μικρότερης εντροπίας τοποθετούνται κοντά στη ρίζα. © Georgios Paliouras

50 Εκμάθηση ταξινομητών Σύνοψη
Η εκμάθηση δενδρικών ταξινομητών αποτελεί μια από τις δημοφιλέστερες μεθόδους εκμάθησης ταξινομητών. Ο χώρος μοντέλων περιλαμβάνει όλα τα δυνατά δένδρα απόφασης. Προτιμώνται τα μικρότερα δένδρα. Το φαινόμενο του υπερταιριάσματος αποτελεί ιδιαίτερα σημαντικό ζήτημα στην κατασκευή δενδρικών ταξινομητών. Αντιμετώπισή του με μεθόδους κλαδέματος, προ και μετά της πλήρους ανάπτυξης του δένδρου. © Georgios Paliouras

51 Μάθηση βασισμένη σε στιγμιότυπα
Εκμάθηση ταξινομητών Μάθηση βασισμένη σε στιγμιότυπα Απλή μεθοδολογία, που συνίσταται: στην απομνημόνευση των στιγμιοτύπων εκπαίδευσης, και… στην ανεύρεση των στιγμιοτύπων εκπαίδευσης που «μοιάζουν» περισσότερο προς ένα άγνωστο στιγμιότυπο, κατά την κανονική λειτουργία του αλγορίθμου Στη βιβλιογραφία συναντάται με τον όρο «οκνηρή μάθηση» (“lazy learning”), καθώς το στάδιο της εκπαίδευσης δεν υφίσταται. Επίσης εντάσσεται στην γενικότερη προσέγγιση της μάθησης μέσω απομνημόνευσης (memory-based learning) και του συμπερασμού μέσω παραδειγμάτων (case-based reasoning). Ίσως εδώ να κάνεις μερικά σχόλια, αναφέροντας ζητήματα όπως την επαγωγική του προδιάθεση, πως συγκρίνεται με άλλες μεθόδους, κ.α. © Georgios Paliouras

52 Εκμάθηση ταξινομητών Η βασική ιδέα Άγνωστο Στιγμιότυπο Χαρ. 1 Χαρ. 2
© Georgios Paliouras

53 Εκμάθηση ταξινομητών Προσέγγιση της έννοιας της «ομοιότητας» με μία μετρική απόστασης στο n-διάστατο χώρο χαρακτηριστικών (χώρος δειγμάτων). Ο γνωστότερος αλγόριθμος της κατηγορίας αυτής: k-κοντινότεροι γείτονες (k-nearest neighbour – k-nn) Μετρική Απόστασης: Ευκλείδεια Απόσταση (L2 νόρμα) Έστω δύο στιγμιότυπα xi και xj. Η απόστασή τους ορίζεται ως: όπου xid και xjd. οι τιμές του l-στου χαρακτηριστικού για τα xi και xj. © Georgios Paliouras

54 Εκμάθηση ταξινομητών Παράδειγμα k = 4 Άγνωστο Στιγμιότυπο
© Georgios Paliouras

55 Εκμάθηση ταξινομητών Πρόβλημα: Κατάρα διαστασιμότητας “curse of dimensionality”: Η απόσταση μεταξύ των στιγμιοτύπων μετράται λαμβάνοντας υπ’ όψη όλα τα χαρακτηριστικά. Όμως η συνάρτηση στόχος μπορεί να σχετίζεται με ένα υποσύνολο αυτών. Όσο μεγαλύτερος είναι ο αριθμός των άσχετων χαρακτηριστικών, τόσο μεγαλύτερες είναι και οι επιπτώσεις στην ακρίβεια του ταξινομητή. Μία λύση είναι η προεπιλογή χαρακτηριστικών. Μια άλλη λύση είναι η επέμβαση στη «γεωμετρία» του χώρου, δίνοντας σε κάθε χαρακτηριστικό συγκεκριμένο βάρος, π.χ. ανάλογο του κέρδους πληροφορίας του χαρακτηριστικού. Στόχος: η κατά το δυνατόν εξάλειψη της συνεισφοράς των άσχετων χαρακτηριστικών. © Georgios Paliouras

56 Εκμάθηση ταξινομητών Λύση: Ζύγισμα γειτόνων με βάση την απόσταση.
Πρόβλημα: Ίδια σημασία σε όλους τους γείτονες. Λύση: Ζύγισμα γειτόνων με βάση την απόσταση. k = 4 Άγνωστο Στιγμιότυπο © Georgios Paliouras

57 Εκμάθηση ταξινομητών Ο k-nn με ζύγισμα γειτόνων είναι ανθεκτικός σε μέτριο επίπεδο θορύβου στα δεδομένα. Επίσης, μπορεί να λειτουργήσει και λαμβάνοντας το σύνολο των δεδομένων ως γειτονιά. Ευριστικό k-nn : η υπόθεση ότι η ταξινόμηση ενός άγνωστου στιγμιοτύπου θα είναι παρόμοια με εκείνη των γειτονικών του. Η κατάρα της διαστασιμότητας μπορεί να αντιμετωπιστεί μερικώς με ζύγισμα των χαρακτηριστικών. © Georgios Paliouras

58 Εκμάθηση ταξινομητών Χαρακτηριστικό της μάθησης βασισμένης σε στιγμιότυπα είναι ότι επεξεργάζεται τα στιγμιότυπα εκπαίδευσης κατά το στάδιο της ταξινόμησης. Πλεονεκτήματα: Πολύπλοκες συναρτήσεις μπορούν να μοντελοποιηθούν σε τοπικό επίπεδο Δεν υπάρχει απώλεια πληροφορίας Μειονεκτήματα: Υπολογιστική και αποθηκευτική πολυπλοκότητα Επιλογή μετρικής απόστασης Εξάρτηση από τον χώρο των δειγμάτων, δηλ. τα χαρακτηριστικά. Δυο λόγια για κάθε μια από τις μεθόδους του τελευταίου bullet © Georgios Paliouras

59 Εκμάθηση ταξινομητών Άλλοι αλγόριθμοι:
Εκμάθηση κανόνων (C4.5rules, CN2, AQ15, …) Μηχανές διανυσμάτων υποστήριξης (support vector machines). Παλινδρόμηση συμβολικής λογικής (logistic regression). Νευρωνικά Δίκτυα, π.χ. μulti-layered perceptrons. Μετα-μάθηση (Logitboost, Adaboost, stacking, …) Υπάρχουν βέβαια πολλοί άλλοι αλγόριθμοι για την εκμάθηση ταξινομητών. Εδώ βλέπουμε κάποιες κατηγορίες τέτοιων μεθόδων, βάση του είδους ταξινομητή που μαθαίνουν. Σε κάθε κατηγορία υπάρχουν πολλές μέθοδοι μηχανικής μάθησης. © Georgios Paliouras

60 Περιεχόμενα Εξόρυξη γνώσης (knowledge discovery) και μηχανική μάθηση (machine learning) Εκμάθηση ταξινομητών (learning classifiers) Ομαδοποίηση (clustering) Αποκάλυψη συσχετίσεων (association discovery) Εξόρυξη από τον Παγκόσμιο Ιστό (Web mining) Ανακεφαλαίωση Η επόμενη κατηγορία μεθόδων που θα εξετάσουμε είναι η ομαδοποίηση. Εδώ μιλάμε για δείγματα (αντί για παραδείγματα), αφού λείπει η επιτήρηση και ουσιαστικά τα δεδομένα εκπαίδευσης δεν διαφέρουν σε τίποτα από τα δεδομένα που λαμβάνει το εκτελεστικό σύστημα. © Georgios Paliouras

61 <Ηλικία: 27, Έγγαμος: ΝΑΙ, Φύλο: Α, παιδιά: 0, B/M: 8>
Ομαδοποίηση Διανυσματική αναπαράσταση των δεδομένων, όπως και για την κατηγοριοποίηση: <Ηλικία: 27, Έγγαμος: ΝΑΙ, Φύλο: Α, παιδιά: 0, B/M: 8> Η κατηγορία (ομάδα) στην οποία ανήκει κάθε δείγμα δεν είναι γνωστή. Στόχος: Η κατάταξη των δειγμάτων σε Κ ομάδες, έτσι ώστε να μεγιστοποιηθεί η συνοχή των ομάδων ( ) και να ελαχιστοποιηθεί η εγγύτητα τους ( ). Η αναπαράσταση των δεδομένων είναι ίδια με την εκμάθηση ταξινομητών με μία διαφορά: η κατηγορία δεν συμπεριλαμβάνεται στα δείγματα. Υποθέτουμε όμως ότι υπάρχει και δεν παρατηρείται. Στόχος είναι η δημιουργία ενός συνόλου από ομάδες (συνήθως προκαθορίζουμε τον αριθμό τους), οι οποίες περιέχουν δείγματα που μοιάζουν κατά το δυνατόν μεταξύ τους (intra-class similarity) και διαφέρουν κατά το δυνατόν από δείγματα άλλων ομάδων (inter-class dissimilarity). Εδώ βλέπουμε δύο παραδείγματα για τα μέτρα συνοχής και εγγύτητας των ομάδων, τα οποία στηρίζονται σε κάποιο μέτρο πρόβλεψης της ομάδας με βάση τις τιμές των χαρακτηριστικών του δείγματος. Τα μέτρα αυτά είναι διαισθητικά και όχι πρότυπα. © Georgios Paliouras

62 Ομαδοποίηση Σημαντικές κατηγορίες μεθόδων ομαδοποίησης:
Μέθοδοι κατάτμησης (partitioning). Μέθοδοι ιεράρχησης (hierarchical). Μέθοδοι δημιουργίας επικαλυπτόμενων ομάδων (soft). Οι μέθοδοι ομαδοποίησης κατηγοριοποιούνται με διάφορους τρόπους. Μία ενδιαφέρουσα κατηγοριοποίηση είναι σε σχέση με το αν δημιουργούν μία ιεραρχία από ομάδες (αντίστοιχες των κατηγοριών και των υποκατηγοριών) ή περιορίζονται σε ένα επίπεδο. Επίσης ενδιαφέρουσα είναι η κατηγοριοποίηση με βάση το αν επιτρέπουν επικαλυπτόμενες ομάδες ή όχι. © Georgios Paliouras

63 Ομαδοποίηση Ηλικία Έγγαμος Φύλο Παιδιά Β/Μ 27 ΟΧΙ Α 8 40 Γ 5 25 ΝΑΙ 32
8 40 Γ 5 25 ΝΑΙ 32 2 6 35 7 38 26 1 4 30 3 Το γνωστό μας παράδειγμα με μικροαλλαγές: Δεν υπάρχει το χαρακτηριστικό «απόφαση». Προστέθηκε το χαρακτηριστικό «Β/Μ» (Bonus/Malus) Αφαιρέθηκε το χαρακτηριστικό «περιοχή» που δεν φάνηκε και στην ταξινόμηση να παίζει ρόλο. Το χαρακτηριστικό «Οικογ. Κατ.» έσπασε σε δύο χαρακτηριστικά, ένα Boolean «Έγγαμος» και ένα αριθμητικό «Παιδιά». © Georgios Paliouras

64 Ομαδοποίηση Αλγόριθμος k-μέσων (k-means):
Αλγόριθμος: Διάλεξε (τυχαία) k μέσους από τα δείγματα. Κατάταξε κάθε δείγμα σε μία κατηγορία, με βάση την απόστασή της ( ) από τους μέσους. Επανυπολόγισε τον μέσο κάθε κατηγορίας, με βάση τον μέσο όρο των δειγμάτων στην κατηγορία. Συνέχισε μέχρι να μην υπάρξει αλλαγή στους μέσους. Ένας απλός και ευρέως διαδεδομένος αλγόριθμος ομαδοποίησης. Το ζητούμενο μοντέλο αναπαριστάται με k διανύσματα που αποτελούν τον «μέσο όρο» (κεντροϊδές) των ομάδων. Ο κανόνας είναι επαναληπτικός, ξεκινώντας με κάποια μορφή αρχικοποίησης των διανυσμάτων και προσπαθώντας να κινηθεί σε πιο συμπαγείς ομάδες (και αντίστοιχα κεντροϊδή). Δεν είναι ανάγκη να είναι τυχαία η επιλογή των αρχικών μέσων, ιδιαίτερα όταν υπάρχει εξειδικευμένη γνώση για τα δεδομένα και το πρόβλημα. Επίσης, η μέτρηση της απόστασης δεν είναι απαραίτητο να γίνει με Ευκλείδια απόσταση, η οποία αντιστοιχεί σε φυσικές κατανομές των δειγμάτων στις ομάδες. Το κριτήριο τερματισμού μπορεί να ορίζει ένα κατώφλι στη διαφορά των μέσων μεταξύ δύο επαναλήψεων. © Georgios Paliouras

65 Ομαδοποίηση Ηλικία Έγγαμος Φύλο Παιδιά Β/Μ Ομάδα 27(0.27) ΟΧΙ(0) Α(0)
0(0.0) 8(0.8) 1 40(0.4) Γ(1) 5(0.5) 2 25(0.25) ΝΑΙ(1) 32(0.32) 2(0.2) 6(0.6) 35(0.35) 7(0.7) 38(0.38) 26(0.26) 1(0.1) 4(0.4) 30(0.30) 3(0.3) Το γνωστό μας παράδειγμα, όπου όλα τα χρακτηριστικά έχουν μετατραπεί σε αριθμητικά και κανονικοποιηθεί. Κανονικοποιήσαμε το «ηλικία» διαιρώντας δια 100, το «B/M» δια 10 και το «παιδιά» δια 10. Δεν είναι η καλύτερη δυνατή κανονικοποίηση, αλλά διατηρεί την αρχική εικόνα των τιμών των χαρακτηριστικών. Υποθέτουμε 2 κατηγορίες, αλλά δεν ξέρουμε ποια δείγματα ανήκουν σε ποια κατηγορία. Ξεκινάμε θεωρώντας τα δύο πρώτα παραδείγματα ως «μέσους» και με βάση την Ευκλείδια απόσταση κατατάσσουμε τα υπόλοιπα 6 δείγματα στις δύο ομάδες. © Georgios Paliouras

66 Ομαδοποίηση Ηλικία Έγγαμος Φύλο Παιδιά Β/Μ Ομάδα 0.3133 0.67 0.0 0.7 1
0.318 0.8 1.0 0.06 0.5 2 27(0.27) ΟΧΙ(0) Α(0) 0(0.0) 8(0.8) 40(0.4) Γ(1) 5(0.5) 25(0.25) ΝΑΙ(1) 32(0.32) 2(0.2) 6(0.6) 35(0.35) 7(0.7) 38(0.38) 26(0.26) 1(0.1) 4(0.4) 30(0.30) 3(0.3) Στο επόμενο βήμα υπολογίζουμε τους νέους μέσους και ξανακατηγοριοποιούμε τα παραδείγματα. Σ’ αυτή την περίπτωση δεν αλλάζει η κατηγοριοποίηση και η επαναληπτική διαδικασία τερματίζει. Μεγάλη σημασία στην ομαδοποίηση αυτών των δειγμάτων παίζει η κανονικοποίηση, που δίνει μεγάλο βάρος στο φύλο! Επίσης μεγάλη σημασία παίζει η επιλογή των αρχικών μέσων. © Georgios Paliouras

67 Ομαδοποίηση Παράδειγμα: © Georgios Paliouras

68 Ομαδοποίηση Πλεονεκτήματα: Μειονεκτήματα:
Απόδοση: O(tkn), όπου n είναι το πλήθος των αντικειμένων, k το πλήθος των ομάδων και t το πλήθος των επαναλήψεων. Συνήθως, k, t << n. Μειονεκτήματα: Εφαρμόζεται δύσκολα σε δεδομένα στα οποία είναι δύσκολο να οριστεί μέσος, π.χ. χαρακτηριστικά διαφορετικών τύπων. Εκ των προτέρων επιλογή του πλήθους των ομάδων (k). Δεν μπορεί να χειριστεί δεδομένα με θόρυβο (noisy data). Δεν μπορεί να εντοπίσει ομάδες με μη κυρτό σχήμα. Συχνά συγκλίνει σε τοπικό μέγιστο. © Georgios Paliouras

69 Ομαδοποίηση Αλγόριθμος COBWEB:
Εννοιολογική οργάνωση των δειγμάτων σε μία ιεραρχία (conceptual clustering  οντολογία). Χαρακτηρισμός της κάθε έννοιας/ομάδας με βάση τα «πιθανοτικά» χαρακτηριστικά των μελών της. Επαυξητικός (incremental) αλγόριθμος. Αναρριχητική αναζήτηση στον χώρο των ιεραρχιών. © Georgios Paliouras

70 Ομαδοποίηση Εκτίμηση ποιότητας μίας ιεραρχίας εννοιών με βάση το μέτρο category utility: όπου Κ έννοιες/ομάδες και Vij μία τιμής ενός χαρακτηριστικού. Μετρά την σχετική αύξηση της πιθανότητας ενός Vij σε μία κατηγορία, σε σύγκριση με το σύνολο των δεδομένων. Ενσωματώνει ένα μέτρο για την συνοχή (P(Vij|k)) και ένα για την εγγύτητα των ομάδων (P(k|Vij)). Ένας αλγόριθμος που κατασκευάζει μία ιεραρχία ομάδων (concepts). Στόχος είναι η κατασκευή μίας οντολογίας (εννοιολογικής ιεραρχίας) από τα δεδομένα. Για την εκτίμηση της ποιότητας μίας ιεραρχίας συνδυάζονται τα γνωστά μέτρα εγγύτητας και συνοχής, εκφρασμένα με βάση τις τιμές που μπορούν να πάρουν τα διάφορα χαρακτηριστικά. Διαισθητικά, το category utility μετράει το πόσο ποιο προβλέψιμη είναι η τιμή ενός χαρακτηριστικού μέσα στις ομάδες, σε σχέση με την προβλεψιμότητά της στο αρχικό σύνολο. Στον τύπο k είναι η κατηγορία/έννοια και V_ij η j-th τιμή του i-th χαρακτηριστικού. © Georgios Paliouras

71 Ομαδοποίηση Αλγόριθμος COBWEB:
Δημιούργησε μία έννοια για το πρώτο δείγμα. Για κάθε επόμενο δείγμα: Εξέτασε το αποτέλεσμα της προσθήκης του (σύμφωνα με το κριτήριο category utility) σε κάθε υπάρχουσα έννοια. (Classification) Εξέτασε το αποτέλεσμα δημιουργίας υπό-έννοιας για την «καλύτερη» έννοια. (Concept creation) Εξέτασε το αποτέλεσμα της συγχώνευσης των δύο «καλύτερων» αδελφών εννοιών. (Merging) Εξέτασε το αποτέλεσμα της αφαίρεσης της «καλύτερης» και της προσθήκης των παιδιών της στον γονέα της. (Splitting) Ο αλγόριθμος είναι επαυξητικός: ξεκινά από κάτι που καλύπτει ένα παράδειγμα και κάθε παράδειγμα που εξετάζει το προσθέτει στην ιεραρχία, μεταβάλλοντας τη ταυτόχρονα, ώστε να δημιουργούνται υπό-έννοιες, οι οποίες ομαδοποιούν δείγματα που μοιάζουν μεταξύ τους. Έχει τέσσερις τελεστές: Πρόσθεσε το δείγμα στην κατηγορία που ταιριάζει καλύτερα, σύμφωνα με το category utility. Μήπως βελτιώνεται το category utility, αν ομαδοποιήσουμε τα δείγματα που ανήκουν στην «καλύτερη» έννοια; Μήπως βοηθά να ενώσουμε τις δύο έννοιες που ταιριάζουν καλύτερα με το δείγμα; Μήπως βοηθά να αφαιρέσουμε την καλύτερη κατηγορία και να ανεβάσουμε τις υποκατηγορίες της ένα επίπεδο. Οι δύο τελευταίοι τελεστές αποσκοπούν στο να μειώσουν την εξάρτηση του αλγορίθμου στη σειρά παρουσίασης των παραδειγμάτων. Το πρόβλημα όμως εξακολουθεί να υπάρχει. © Georgios Paliouras

72 Ομαδοποίηση Ηλικία Έγγαμος Φύλο Παιδιά Β/Μ [20-30] ΟΧΙ Α H [30-40] Γ M
ΝΑΙ X Το γνωστό παράδειγμα, όπου τα συνεχή χαρακτηριστικά έχουν διακριτοποιηθεί, ώστε να μπορούν να χρησιμοποιηθούν από τον αλγόριθμο. © Georgios Paliouras

73 Ομαδοποίηση 1,3 2 4,5 1 3 4 5 © Georgios Paliouras
Τα πρώτα 3 παραδείγματα, ομαδοποιούνται κάτω από μία κοινή έννοια (τη ρίζα του δέντρου). Με τα επόμενα δύο παραδείγματα, δημιουργούνται και δύο υπό-ομάδες. Μέχρι αυτό το σημείο έχουν χρησιμοποιηθεί μόνο οι δύο πρώτοι τελεστές. Αξίζει να σημειωθεί ότι και τα φύλλα του δέντρου θεωρούνται κατηγορίες, παρότι αντιστοιχούν σε ένα παράδειγμα. © Georgios Paliouras

74 Ομαδοποίηση 1 2 3 4,5,6 4 5 6 © Georgios Paliouras
Το έκτο δείγμα αλλάζει τελείως τα πράγματα. Παρότι τοποθετείται απλά κάτω από μία υπάρχουσα έννοια (τελεστής 1), χρησιμοποιείται ο τελεστής 4 για να αφαιρέσει μία από τις υπάρχουσες έννοιες. © Georgios Paliouras

75 Ομαδοποίηση 3,7 2,4,5,6 1 4,5 2,6 3 7 2 6 4 5 © Georgios Paliouras
Το 7ο δείγμα οδηγεί στην δημιουργία αρκετών νέων εννοιών (τελεστές 2 και 3). 2 6 4 5 © Georgios Paliouras

76 Ομαδοποίηση 1,2 4,5,6 3,7,8 1 2 4 5 6 3 7,8 © Georgios Paliouras
Παρότι το δείγμα 8 είναι ακριβώς όμοιο με το 7ο, επηρεάζει αρκετά και αυτό τη δομή της ιεραρχίας. Η τελική ιεραρχία σ’ αυτή την περίπτωση είναι πολύ ρηχή και ουσιαστικά δημιουργούνται 3 μη-επικαλυπτόμενες ομάδες. © Georgios Paliouras

77 Ομαδοποίηση Προβλήματα:
Η ιεραρχία που θα προκύψει εξαρτάται από την σειρά παρουσίασης των δειγμάτων. Οι τελεστές merging και splitting αντιμετωπίζουν μόνο μερικώς το πρόβλημα. Υπολογιστικά ακριβός, λόγω των πολλών τελεστών και της συνεχούς αξιολόγησης της ιεραρχίας. Αποθηκευτικά ακριβός γιατί αποθηκεύει την κατανομή όλων των χαρακτηριστικών για κάθε ομάδα. Υποθέτει ανεξαρτησία των πιθανοτικών κατανομών των χαρακτηριστικών. © Georgios Paliouras

78 Ομαδοποίηση Αλγόριθμος Cluster Mining:
Γραφοθεωρητική προσέγγιση στην ομαδοποίηση δειγμάτων. Θεωρεί τα δείγματα ως κόμβους ενός γράφου. Εντοπίζει υπο-γράφους με υψηλή συνεκτικότητα. Επικαλυπτόμενες ομάδες. Ο τρίτος αλγόριθμος που θα εξετάσουμε στηρίζεται σε ιδέες από τη θεωρία γράφων για την ομαδοποίηση των δειγμάτων. Ένας γράφος χρησιμοποιείται για να αναπαραστήσει τα δείγματα και τη σχέση (similarity) μεταξύ τους. Ακμές που αντιστοιχούν σε ομοιότητα κάτω από ένα κατώφλι αφαιρούνται και από τον γράφο που προκύπτει παράγονται όλες οι μέγιστες κλίκες. Οι ομάδες που προκύπτουν μπορεί να είναι και επικαλυπτόμενες. © Georgios Paliouras

79 Ομαδοποίηση Αλγόριθμος:
Υπολόγισε την απόσταση μεταξύ κάθε ζευγαριού δειγμάτων με οποιοδήποτε τρόπο, π.χ. Ευκλείδια απόσταση. Σχημάτισε τον γράφο G=<V,E>, του οποίου οι κόμβοι V είναι τα δείγματα και οι ακμές E ενώνουν τα δείγματα που απέχουν μεταξύ τους λιγότερο από ένα κατώφλι. Ομαδοποίησε τα δείγματα σύμφωνα με τις μέγιστες κλίκες (πλήρως συνδεδεμένοι υπο-γράφοι) του γράφου. Ο τρίτος αλγόριθμος που θα εξετάσουμε στηρίζεται σε ιδέες από τη θεωρία γράφων για την ομαδοποίηση των δειγμάτων. Ένας γράφος χρησιμοποιείται για να αναπαραστήσει τα δείγματα και τη σχέση (similarity) μεταξύ τους. Ακμές που αντιστοιχούν σε ομοιότητα κάτω από ένα κατώφλι αφαιρούνται και από τον γράφο που προκύπτει παράγονται όλες οι μέγιστες κλίκες. Οι ομάδες που προκύπτουν μπορεί να είναι και επικαλυπτόμενες. © Georgios Paliouras

80 Ομαδοποίηση Ηλικία Έγγαμος Φύλο Παιδιά Β/Μ 27(0.27) ΟΧΙ(0) Α(0) 0(0.0)
8(0.8) 40(0.4) Γ(1) 5(0.5) 25(0.25) ΝΑΙ(1) 32(0.32) 2(0.2) 6(0.6) 35(0.35) 7(0.7) 38(0.38) 26(0.26) 1(0.1) 4(0.4) 30(0.30) 3(0.3) Το παράδειγμά μας στη μορφή που το χρησιμοποιήσαμε και για τον k-means. © Georgios Paliouras

81 Ομαδοποίηση 1 2 3 4 5 6 7 8 1.1 2.0 1.0 2.1 2.2 2.3 0.1 0.2 0.3 1.2 0.0 Υπολογίζουμε την Ευκλείδια απόσταση μεταξύ κάθε ζευγαριού δειγμάτων. Οι μικρότερες αποστάσεις φαίνονται εδώ με ποιο έντονο χρώμα. © Georgios Paliouras

82 Ομαδοποίηση 1 3 4 7 8 5 6 2 © Georgios Paliouras
Με βάση την ομοιότητα των δειγμάτων σχηματίζεται ο γράφος. Εδώ έχουμε κρατήσει μόνο τις ακμές που αντιστοιχούν σε απόσταση μικρότερη από 1. 6 2 © Georgios Paliouras

83 Ομαδοποίηση 1 3 4 7 8 5 6 2 © Georgios Paliouras
Αν αυξήσουμε το κατώφλι σε 2 (δηλαδή κρατάμε τις ακμές που αντιστοιχούν σε απόσταση μικρότερη από 2), η συνδεσιμότητα του γράφου αυξάνεται πολύ. Μ’ αυτό τον τρόπο αυξάνονται και οι ομάδες, καθώς και το μέγεθός τους. Επίσης αυξάνεται και η επικάλυψη μεταξύ τους. 6 2 © Georgios Paliouras

84 Ομαδοποίηση Προβλήματα:
Δεν υπάρχει περιορισμός στον βαθμό επικάλυψης των ομάδων. Πολλές φορές δημιουργούνται ομάδες με μεγάλη επικάλυψη. Υψηλή υπολογιστική πολυπλοκότητα στη γενική περίπτωση. Η εύρεση των μέγιστων κλικών ενός γράφου είναι NP-hard στην χειρότερη περίπτωση. Υπάρχουν όμως αποδοτικοί αλγόριθμοι για την μέση περίπτωση. © Georgios Paliouras

85 Ομαδοποίηση Άλλοι αλγόριθμοι: Πιθανοτικοί (Autoclass, …)
Fuzzy (Fuzzy k-means, Fuzzy c-medoids, …) Νευρωνικά δίκτυα (Self-Organizing Maps, …) Στατιστικοί ιεραρχικοί (agglomerative, …) Γραφο-θεωρητικοί (χρήση minimal-spanning trees, …) Αποδοτική διαχείριση βάσεων δεδομένων (ROCK, DBSCAN, …) … πολλοί άλλοι Υπάρχουν πολλές τεχνικές ομαδοποίησης, που έχουν εμφανιστεί σε διαφορετικά ερευνητικά πεδία και έχουν αρκετές διαφορές, τόσο ως προς τους στόχους τους, όσο και ως προς τον τρόπο που λειτουργούν. © Georgios Paliouras

86 Περιεχόμενα Εξόρυξη γνώσης (knowledge discovery) και μηχανική μάθηση (machine learning) Εκμάθηση ταξινομητών (learning classifiers) Ομαδοποίηση (clustering) Αποκάλυψη συσχετίσεων (association discovery) Εξόρυξη από τον Παγκόσμιο Ιστό (Web mining) Ανακεφαλαίωση Η επόμενη κατηγορία μεθόδων που θα εξετάσουμε είναι η αποκάλυψη συσχετίσεων. © Georgios Paliouras

87 Αποκάλυψη συσχετίσεων
Διανυσματική αναπαράσταση των δεδομένων. Δεν ορίζεται κάποιο χαρακτηριστικό εκ των προτέρων ως κατηγορία, αλλά ούτε υποθέτουμε ότι η κατηγορία είναι κρυμμένη. Οποιοδήποτε χαρακτηριστικό (ή ομάδα χαρακτηριστικών) είναι πιθανή κατηγορία. Στόχος: Ο εντοπισμός στατιστικά ισχυρών συσχετίσεων μεταξύ χαρακτηριστικών. Η αναπαράσταση δεδομένων είναι και εδώ διανσυματική. Πολλές φορές (σε ειδικές περιπτώσεις δυαδικών χαρακτηριστικών), χρησιμοποιείται μία πιο συμπιεσμένη μορφή των διανυσμάτων (transactions). Εδώ δεν θα εξετάσουμε αυτή τη διαφορά. Παρότι και αυτή η κατηγορία μεθόδων δεν απαιτεί επιτήρηση, υπάρχει μία βασική διαφορά με την ομαδοποίηση, ότι δηλαδή δεν υποθέτουμε ότι υπάρχει κάποια κρυφή κατηγορία, ένα χαρακτηριστικό που δεν παρατηρείται. Αντίστοιχα ψάχνουμε για συσχετίσεις μεταξύ χαρακτηριστικών που παρατηρούνται και συμπεριλαμβάνονται μέσα στα διανύσματα. Όμως, σε αντίθεση με την εκμάθηση ταξινομητών, δεν ορίζουμε ένα χαρακτηριστικό ως κατηγορία. © Georgios Paliouras

88 Αποκάλυψη συσχετίσεων
Ηλικία Έγγαμος Φύλο Παιδιά Β/Μ [20-30] ΟΧΙ Α H [30-40] Γ M ΝΑΙ X Τοι γνωστό παράδειγμα στην συμβολική του μορφή (όχι αριθμητικά χαρακτηριστικά). © Georgios Paliouras

89 Αποκάλυψη συσχετίσεων
Εξόρυξη κανόνων συσχέτισης Στόχος: Εντοπισμός κανόνων της μορφής που έχουν μεγάλη στήριξη (support): και μεγάλη βεβαιότητα (confidence): <Ηλικία: [20-30], Έγγαμος: ΝΑΙ>  B/M: H P(Ηλικία: [20-30], Έγγαμος: ΝΑΙ, B/M: H) > s Ο πιο ευρέως γνωστός αλγόριθμος αποκάλυψης συσχετίσεων κατασκευάζει κανόνες συσχέτισης, βάση συνόλων χαρακτηριστικών που έχουν μεγάλη στήριξη (παρατηρούνται συχνά στο σύνολο εκπαίδευσης). Επίσης ο κανόνας πρέπει να έχει μεγάλη βεβαιότητα, δηλαδή να μην αναιρείται από πολλά δείγματα. P(B/M: H | Ηλικία: [20-30], Έγγαμος: ΝΑΙ) > c © Georgios Paliouras

90 Αποκάλυψη συσχετίσεων
Αλγόριθμος Apriori: Υπολόγισε την στήριξη κάθε ζευγαριού χαρακτηριστικό-τιμή και κράτησε τα ζευγάρια με στήριξη πάνω από s. Συνδύασε κάθε «επιζών» ζευγάρι με κάθε άλλο και κράτησε του συνδυασμούς με στήριξη πάνω από s (συχνά σύνολα αντικειμένων, frequent itemsets) . Συνέχισε μέχρι να μην υπάρχουν καινούρια συχνά σύνολα αντικειμένων. Για κάθε συχνό σύνολο αντικειμένων (κάθε μεγέθους), υπολόγισε τους κανόνες (με ένα αντικείμενο στο συμπέρασμα) με βεβαιότητα πάνω από c. Ο αλγόριθμος είναι επαναληπτικός και στηρίζεται στο γεγονός ότι όλα τα υποσύνολα ενός συνόλου τιμών χαρακτηριστικών που εμφανίζεται συχνά εμφανίζονται τουλάχιστον το ίδιο συχνά όσο και το υπερσύνολο. Με βάση αυτή την παρατήρηση μπορούμε αυξητικά να βρούμε όλα τα σύνολα τιμών χαρακτηριστικών (αντικειμένων) που μπορεί να οδηγήσουν σε κανόνες με μεγάλη στήριξη. Κατόπιν είναι απλό να φτιαχτούν κανόνες με μεγάλη βεβαιότητα, υπό τον περιορισμό ότι θα έχουν ένα αντικείμενο στο συμπέρασμα. Το να υπάρχουν περισσότερα αντικείμενα στο συμπέρασμα είναι πολύ πιο ακριβό υπολογιστικά. © Georgios Paliouras

91 Αποκάλυψη συσχετίσεων
Στήριξη Στήριξη Έγγαμος: ΝΑΙ 0.75 Φύλο: Γ 0.625 Παιδιά: ΟΧΙ Β/Μ: Μ 0.5 Ηλικία: 20-30 Ηλικία: 30-40 Φύλο: Α 0.375 Παιδιά: ΝΑΙ Β/Μ: Η 0.25 Β/Μ: Χ Έγγαμος: ΟΧΙ (Ηλικία: [30-40]) & (Β/Μ: Μ) 0.5 (Έγγαμος: ΝΑΙ) & (Φύλο: Γ) (Φύλο: Γ) & (Παιδιά: ΟΧΙ) 0.375 ... Βεβαιότητα Ηλικία: [30-40]  Β/Μ: Μ 1.0 Β/Μ: Μ  Ηλικία: [30-40] Έγγαμος: ΝΑΙ  Φύλο: Γ 0.8 Φύλο: Γ  Έγγαμος: ΝΑΙ 0.67 Στο γνωστό παράδειγμα, υπολογίζουμε αρχικά την στήριξη όλων των απλών αντικειμένων (ζευγάρι χαρακτηριστικό-τιμή) και κρατάμε τα πιο συχνά. Με βάση αυτά βρίσκουμε τους συχνούς συνδυασμούς αντικειμένων (μόνο 2 σε αυτή την περίπτωση). Στο συγκεκριμένο παράδειγμα καμία τριάδα αντικειμένων δεν είναι αρκετά συχνή. Συνεπώς μπορούμε να φτιάξουμε μόνο 4 κανόνες, δύο από τους οποίους έχουν και μεγάλη στήριξη, Από τους κανόνες που επιζούν είναι προφανές ότι το να βρει κανείς μία συσχέτιση αυτού του τύπου δεν σημαίνει ότι έχει εντοπίσει και σχέση αιτίας. © Georgios Paliouras

92 Αποκάλυψη συσχετίσεων
Πρόβλημα με τον αλγόριθμο Apriori: Εξαντλητική αναζήτηση στον εκθετικά αυξανόμενο χώρο των συχνών συνόλων αντικειμένων. Πολλές βελτιώσεις του αλγορίθμου για έξυπνη εξαντλητική αναζήτηση (CLIQUES, FP-trees, PC-trees, closed itemsets, …). Μία από αυτές τις βελτιώσεις μοιάζει με γραφο-θεωρητικό αλγόριθμο ομαδοποίησης (χαρακτηριστικών και όχι δειγμάτων). Το βασικότερο θέμα έρευνας σε αυτή την περιοχή δεν ήταν το πώς μπορούμε να βελτιώσουμε τα αποτελέσματα των μεθόδων, αλλά το πώς μπορούμε να τις κάνουμε υπολογιστικά πιο αποδοτικές, ώστε να μπορούν να χρησιμοποιηθούν σε μεγάλες βάσεις δεδομένων. Πολλοί αλγόριθμοι φτιάχτηκαν γι’ αυτό τον σκοπό και ένας από αυτούς μοιάζει πολύ με τον γραφο-θεωρητικό αλγόριθμο ομαδοποίησης που είδαμε. © Georgios Paliouras

93 Αποκάλυψη συσχετίσεων
Ηλικία<30 Άγαμος Φύλο:A Παιδιά Β/Μ<5 Β/Μ>7 NAI ΝΑΙ ΟΧΙ Το γνωστό παράδειγμα, όπου όλα τα χαρακτηριστικά έχουν γίνει δυαδικά. © Georgios Paliouras

94 Αποκάλυψη συσχετίσεων
Β/Μ>7 Β/Μ<5 Ηλ<30 Παιδιά Άγαμος Εδώ ουσιαστικά κάνουμε ομαδοποίηση των χαρακτηριστικών με βάση τα δείγματα και όχι το ανάποδο. Με παχιές γραμμές ενώνονται τα χαρακτηριστικά που εμφανίζονται πιο συχνά μαζί στα δείγματα. Φ:Α © Georgios Paliouras

95 Αποκάλυψη συσχετίσεων
Β/Μ>7 Β/Μ<5 Ηλ<30 Παιδιά Άγαμος Οι πιο συχνές συσχετίσεις είναι δύο μόνο. Η τεχνητότητα του παραδείγματος οδηγεί και στην αποκάλυψη περίεργων συσχετίσεων, όπως Ηλ<30 & Παιδια  Προσοχή: οι κλίκες δεν είναι απαραίτητα frequent itemsets, εκτός αν έχουν μέγεθος 2 όπως εδώ. Γενικά χρειάζεται ένα επόμενο στάδιο, στο οποίο να επιλέγονται από τις κλίκες τα frequent itemsets. Φ:Α © Georgios Paliouras

96 Αποκάλυψη συσχετίσεων
Β/Μ>7 Β/Μ<5 Ηλ<30 Παιδιά Άγαμος Κάτι που ξεχνάμε πολλές φορές είναι η συσχέτιση με τις αντίθετες τιμές των χαρακτηριστικών. Βλέπουμε για παράδειγμα ότι αυτοί που έχουν παιδιά δεν έχουν μεγάλο Β/Μ. Φ:Α © Georgios Paliouras

97 Αποκάλυψη συσχετίσεων
Οι γράφοι είναι ένας καλός τρόπος απεικόνισης των συσχετίσεων, είτε μεταξύ των δειγμάτων είτε μεταξύ των χαρακτηριστικών. Τα γραφικά μοντέλα (graphical models), π.χ. Δίκτυα Bayes, Δίκτυα Εξαρτήσεων, αναπαριστούν πιθανοτικές συσχετίσεις. Η ταύτιση της αποκάλυψης συσχετίσεων με τη δημιουργία κανόνων συσχέτισης, τύπου Apriori, είναι παραπλανητική και μη-εποικοδομητική. Τα γραφικά μοντέλα, τύπου Bayesian nets, είναι πολύ χρήσιμα γι’ αυτό τον σκοπό. © Georgios Paliouras

98 Αποκάλυψη συσχετίσεων
Δίκτυα Bayes: Γραφικό μοντέλο (graphical model) για την περιγραφή πιθανοτικών συσχετίσεων μεταξύ τυχαίων μεταβλητών, π.χ. χαρακτηριστικά σε διανυσματικά δεδομένα. Παραδοσιακά κατασκευάζονταν χειρονακτικά και χρησιμοποιήθηκαν αρκετά για ιατρικές εφαρμογές. Η κατασκευή τους εμπεριέχει τον καθορισμό των εξαρτήσεων μεταξύ των μεταβλητών, που αφορά ιδιαίτερα την αποκάλυψη συσχετίσεων. © Georgios Paliouras

99 Αποκάλυψη συσχετίσεων
Συγκεκριμένα: Δεδομένου ενός συνόλου μεταβλητών {Υ1, ...,Υn} θέλουμε να περιγράψουμε την κατανομή που τις διέπει, εκμεταλλευόμενοι τη δεσμευμένη ανεξαρτησία μεταξύ κάποιων από αυτές. Δεσμευμένη ανεξαρτησία: Η Χ είναι ανεξάρτητη της Υ, δεδομένης της Ζ, αν η κατανομή της είναι ανεξάρτητη της τιμής της Υ, δεδομένης της Ζ: P(X|Y,Z)=P(X|Z) Παράδειγμα: Η πιθανότητα πυρετού είναι ανεξάρτητη της πιθανότητας στομαχικού πόνου, δεδομένης της πιθανότητας γαστρεντερίτιδας. Ακραία περίπτωση ανεξαρτησίας: Ανεξαρτησία όλων των χαρακτηριστικών, δεδομένης της κατηγορίας στην οποία ανήκει ένα παράδειγμα (Naive Bayes υπόθεση). © Georgios Paliouras

100 Αποκάλυψη συσχετίσεων
P(B/M| Ηλικία, ΧΔΑ, Περιοχή) Β/Μ P(Απόφαση | Οικ. Κατ., Περιόχή, Β/Μ) Ηλικία Απόφαση ΧΔΑ Περιοχή Οικ. Κατ. Εδώ βλέπουμε την γραφική αναπαράσταση των εξαρτήσεων μεταξύ χαρακτηριστικών στη μορφή Bayesian net. Αυτό που μας ενδιαφέρει κυρίως είναι η εκτίμηση των δεσμευμένων πιθανοτήτων από δεδομένα. Αυτό το δίκτυο περιγράφει την κατανομή κοινής πιθανότητας μεταξύ των μεταβλητών στους κόμβους του, με ένα σχετικά μικρό αριθμό δεσμευμένων πιθανοτήτων. Εκμεταλλεύεται π.χ. την ανεξαρτησία του «Β/Μ» από την «Οικ. Κατ.», δεδομένων των «Ηλικία», «ΧΔΑ» και «Περιοχή», δηλ. των «προκατόχων» του (όχι μόνο των «γονέων» του) στον γράφο. © Georgios Paliouras

101 Αποκάλυψη συσχετίσεων
Δίκτυα Εξαρτήσεων: Η βασική διαφορά από τα δίκτυα Bayes είναι ότι προστίθενται ακμές από όλους τους «προκατόχους» (predecessors) ενός κόμβου προς τον κόμβο, οπότε και γίνονται «γονείς» του. Οι ακμές αυτές μπορεί να είναι διπλής κατεύθυνσης και μπορεί να υπάρχουν κύκλοι στον γράφο. Αυτό επιτρέπει: Πιο εύληπτη απεικόνιση των συσχετίσεων. Μία απλουστευτική προσέγγιση για την μάθηση των εξαρτήσεων (δομή του δικτύου) και των δεσμευμένων κατανομών. © Georgios Paliouras

102 Αποκάλυψη συσχετίσεων
Β/Μ Δίκτυο Bayes Ηλικία Απόφαση ΧΔΑ Περιοχή Οικ. Κατ. Β/Μ Δίκτυο Εξαρτήσεων Ηλικία Απόφαση ΧΔΑ Περιοχή Οικ. Κατ. © Georgios Paliouras

103 Αποκάλυψη συσχετίσεων
Συγκεκριμένα: Δεδομένου ενός συνόλου μεταβλητών Υ= {Υ1, ...,Υn} το δίκτυο εξαρτήσεων (dependency network) συνενώνει κάθε μεταβλητή Υi με το υποσύνολο μεταβλητών Z  Υ για τις οποίες ισχύει ότι: P(Υi | Z)=P(Υi | Υ) Πώς μπορούμε όμως να βρούμε το υποσύνολο Z για κάθε Υi και να υπολογίσουμε την κατανομή P(Υi | Z); Χρησιμοποιώντας έναν πιθανοτικό ταξινομητή. © Georgios Paliouras

104 Αποκάλυψη συσχετίσεων
Μάθηση της δομής και των παραμέτρων ενός δικτύου εξαρτήσεων: Θεωρούμε |Υ| προβλήματα ταξινόμησης, σε καθένα από τα οποία μία από τις μεταβλητές θεωρείται εξαρτημένη και οι υπόλοιπες ανεξάρτητες. Χρησιμοποιούμε έναν αλγόριθμο επιλογής χαρακτηριστικών για να μειώσουμε τις εξαρτήσεις, καθορίζοντας έτσι την δομή του δικτύου. Χρησιμοποιούμε έναν αλγόριθμο που μαθαίνει πιθανοτικούς ταξινομητές για να μάθει την τοπική δεσμευμένη κατανομή. Στην περίπτωση συνεχών μεταβλητών χρησιμοποιούμε μεθόδους παλινδρόμησης (regression). © Georgios Paliouras

105 Αποκάλυψη συσχετίσεων
Η χρήση ευριστικών μεθόδων μάθησης, όπως οι πιθανοτικοί ταξινομητές εισάγει ανακρίβεια και πιθανές ασυμβατότητες στο δίκτυο (δεν μπορούμε να βρούμε τον MAP ταξινομητή), οι οποίες όμως μειώνονται καθώς αυξάνεται ο όγκος των δεδομένων. Επιπλέον, με αυτό τον τρόπο επιτυγχάνεται μία καλή και γρήγορη αποκάλυψη των συσχετίσεων μεταξύ των μεταβλητών. Κάτι αντίστοιχο γίνεται και με μία νέα οικογένεια μεθόδων αποκάλυψης κανόνων συσχέτισης, με χρήση μεθόδων που μαθαίνουν δέντρα απόφασης. Ο υπολογισμός όμως των πιθανοτικών κατανομών επιτρέπει πιο ενημερωμένη λήψη αποφάσεων με το δίκτυο. Επιπλέον, η γραφική αναπαράσταση του δικτύου βοηθά. © Georgios Paliouras

106 Αποκάλυψη συσχετίσεων
Εν γένει τρεις διαδικασίες θέλουμε να αυτοματοποιήσουμε σε ένα δίκτυο Bayes: Τον υπολογισμό της κατανομής για μία μεταβλητή, αν γνωρίσουμε τις τιμές όλων (ή μέρους) των άλλων μεταβλητών. Ο ακριβής υπολογισμός είναι NP-hard, αλλά υπάρχουν πολύ καλές προσεγγιστικές μέθοδοι. Την εκτίμηση των δεσμευμένων πιθανοτήτων, δεδομένης της δομής, δηλ. των δεσμευμένων ανεξαρτησιών. Την αποκάλυψη δεσμευμένων ανεξαρτησιών. Το τελευταίο πρόβλημα είναι το πιο δύσκολο και το πιο ενδιαφέρον για την περιοχή της αποκάλυψης συσχετίσεων. Απλούστεση σε δίκτυα εξαρτήσεων, τα οποία επιτρέπουν την ανακάλυψη συσχετίσεων με αλγορίθμους μάθησης πιθανοτικών ταξινομητών. © Georgios Paliouras

107 Περιεχόμενα Εξόρυξη γνώσης (knowledge discovery) και μηχανική μάθηση (machine learning) Εκμάθηση ταξινομητών (learning classifiers) Ομαδοποίηση (clustering) Αποκάλυψη συσχετίσεων (association discovery) Εξόρυξη από τον Παγκόσμιο Ιστό (Web mining) Ανακεφαλαίωση Στην τελευταία κύρια ενότητα της παρουσίασης θα δούμε την πλουσιότερη και πιο απαιτητική πηγή εφαρμογών για μεθόδους εξόρυξης γνώσης. Ο Παγκόσμιος Ιστός έδωσε τεράστια ώθηση στις μεθόδους εξόρυξης γνώσης. © Georgios Paliouras

108 Εξόρυξη από τον Παγκόσμιο Ιστό
Ο Ιστός είναι τεράστιος και ευμετάβλητος: Περισσότεροι από χρήστες Περισσότεροι από νέοι χρήστες κάθε μέρα Περισσότεροι από ιστιακοί τόποι Περισσότερες από σελίδες Λιγότερο από 50% θα υπάρχει τον επόμενο χρόνο … οδηγώντας σε υπερπληροφόρηση: “99% of online information is of no interest to 99% of the people” Ιδανικές συνθήκες για εξόρυξη γνώσης από δεδομένα  Έχουμε όμως τα κατάλληλα εργαλεία; Ο Παγκόσμιος Ιστός έχει ανάγκη την εξόρυξη γνώσης και παρέχει μεγάλους όγκους δεδομένων για ανάλυση. Το πρόβλημα είναι ότι αυτά τα δεδομένα δεν είναι στην πιο κατάλληλη μορφή για τις μεθόδους που έχουμε. Κατά συνέπεια χρειάζεται αρκετή δουλειά για την συλλογή και προεπεξεργασία των δεδομένων, καθώς και προσαρμογή των μεθόδων μάθησης. © Georgios Paliouras

109 Εξόρυξη από τον Παγκόσμιο Ιστό
Είδη δεδομένων στον παγκόσμιο Ιστό: Πρωτογενή δεδομένα (περιεχόμενο): Κυρίως κείμενο, αυξανόμενη ποσότητα πολυμέσων, ενδιαφέρουσα δομή μέσω υπερσυνδέσμων (hyperlinks) και πολύ δυναμικό περιεχόμενο που δεν είναι άμεσα προσβάσιμο. Εξόρυξη από το περιεχόμενο και την δομή του Ιστού. Δευτερογενή δεδομένα (δεδομένα χρήσης): Αρχεία καταγραφής εξυπηρετητών (access logs), σε συνδυασμό πολλές φορές με cookies, και επιπλέον πληροφορία από τον πελάτη (Javascript agents). Εξόρυξη από δεδομένα χρήσης, κυρίως από access logs. Οι κατηγορίες εφαρμογών εξόρυξης στον Ιστό περιορίζονται από τους τύπους των δεδομένων που μπορούν να συλλεχθούν. Αυτά κυρίως χωρίζονται στα πρωτογενή που αναφέρονται στο περιεχόμενο και τη δομή του Ιστού, όπως καθορίζεται από τους συνδέσμους, και τα δευτερογενή, που είναι κυρίως τα δεδομένα χρήσης. © Georgios Paliouras

110 Εξόρυξη από τον Παγκόσμιο Ιστό
Εξόρυξη από περιεχόμενο στον Ιστό: Εκμάθηση ταξινομητών αρχείων στον Ιστό (κυρίως ιστοσελίδων και ). Εκμάθηση κανόνων για εξαγωγή πληροφορίας από αρχεία στον Ιστό. Εκμάθηση οντολογιών (ταξινομικών και μη-ταξινομικών σχέσεων). Αποκάλυψη μοτίβων διασύνδεσης αρχείων στον Ιστό. Συνηθισμένες παρεξηγήσεις: Η εξόρυξη δεν είναι ταξινόμηση ιστοσελίδων ή εξαγωγή πληροφορίας από τον Ιστό. Όσοναφορά το περιεχόμενο και τη δομή του Ιστού υπάρχουν πολλές ενδιαφέρουσες εφαρμογές και εμφανίζονται καινούριες συνεχώς. Κοινός στόχος αυτών των εφαρμογών είναι να βοηθήσουν τον χρήστη να λάβει την πληροφορία που θέλει με τον πιο εύκολο τρόπο. Στο επίπεδο της ορολογίας υπάρχει η γνωστή σύγχυση μεταξύ του εκτελεστικού συστήματος και του συστήματος εξόρυξης. © Georgios Paliouras

111 Εξόρυξη από τον Παγκόσμιο Ιστό
Ταξινομητές αρχείων στον Ιστό (spam filtering): Λειτουργικός στόχος: ταξινόμηση σε 2 κατηγορίες: επιθυμητά και μη-επιθυμητά μηνύματα. Απλές μέθοδοι, π.χ. μαύρες λίστες αποστολέων και εντοπισμός λέξεων κλειδιών, απέτυχαν. Στροφή προς ευφυείς ταξινομητές, που κατασκευάζονται με μεθόδους μηχανικής μάθησης: Γλωσσολογική προεπεξεργασία του κειμένου. Διανυσματική αναπαράσταση (bag-of-words). Στατιστική επιλογή χαρακτηριστικών. Δημιουργία ταξινομητή με μία κοινή μέθοδο μάθησης (π.χ. Naive Bayes). Όλοι γνωρίζουμε το πόσο σημαντική είναι η επίλυση του προβλήματος του spam filtering. Οι παραδοσιακές μέθοδοι δεν λειτουργούν. Η εφαρμογή του spam filtering είναι μία περίπτωση κατάταξης περιεχομένου (κειμένου κατά κύριο λόγο). Η μηχανική μάθηση από κείμενα έχει διάφορες ιδιαιτερότητες, όπως η αδόμητη αναπαράσταση των κειμένων, που απαιτεί γλωσσική επεξεργασία και ιδιαίτερους τρόπους διανυσματικής αναπαράστασης, όπως το bag-of-words. Επίσης, ειδικές μέθοδοι για τον περιορισμό των διαστάσεων του χώρου αναζήτησης είναι απαραίτητες. © Georgios Paliouras

112 Εξόρυξη από τον Παγκόσμιο Ιστό
Εξόρυξη από την δομή του Ιστού: Λειτουργικός στόχος: Βελτίωση της κατάταξης των αποτελεσμάτων αναζήτησης στον Ιστό, με βάση την «σημαντικότητα» μίας ιστοσελίδας στον Ιστό ή σε ένα υποσύνολο. Σελίδες όπου καταλήγουν πολλοί σύνδεσμοι θεωρούνται σημαντικές (authorities) . Σελίδες που έχουν πολλούς συνδέσμους προς πολλές σημαντικές σελίδες θεωρούνται επίσης σημαντικές, ως δείκτες (hubs) . Η δομή του Ιστού είναι επίσης πολύ σημαντική και μόλις που έχουμε αρχίσει να την εκμεταλλευόμαστε. Η πιο γνωστή εφαρμογή σε αυτό τον χώρο είναι η βαθμολόγηση των αποτελεσμάτων μιας αναζήτησης με βάση τη σχετικότητά τους με την ερώτηση. Αυτή στηρίζεται στις έννοιες του authority και hub-ness, που σηματοδοτούν σελίδες που έχουν ιδιαίτερη σημασία στον Ιστό. © Georgios Paliouras

113 Εξόρυξη από τον Παγκόσμιο Ιστό
Ο αλγόριθμος HITS [Kleinberg]: Δεδομένου ενός βασικού συνόλου σελίδων, π.χ. αποτελέσματα αναζήτησης με κάποιες λέξεις κλειδιά, επέκτεινε το βασικό σύνολο, χρησιμοποιώντας σελίδες που «δείχνονται» από σελίδες του συνόλου, αρχικοποίησε το hub και το authority weight κάθε σελίδας σε 1, ενημέρωσε το authority weight κάθε σελίδας p, βάση των hub weights των σελίδων που «δείχνουν» σε αυτή: ενημέρωσε το hub weight κάθε σελίδας p, βάση των authority weights των σελίδων στις οποίες «δείχνει»: επανέλαβε την ενημέρωση των βαρών για συγκεκριμένο αριθμό επαναλήψεων, επέστρεψε τις σελίδες σε φθίνουσα σειρά βαρών. Ο κλασσικός αλγόριθμος για τον υπολογισμό βαρών για τις σελίδες, με βάση την διασύνδεσή τους. Ο HITS είναι ένας επαναληπτικός αλγόριθμος υπολογισμού αυτών των βαρών. Συνήθως δεν απαιτεί πολλές επαναλήψεις. © Georgios Paliouras

114 Εξόρυξη από τον Παγκόσμιο Ιστό
<HTML><TITLE> Some Country Codes </TITLE> <BODY><B> Some Country Codes </B> <P> <B> Congo </B> <I> 242 </I> <B> Egypt </B> <I> 20 </I> <B> Greece </B> <I> 30 </I> <B> Spain </B> <I> 34 </I> <HR> <B> End </B> </BODY> </HTML> Παράδειγμα κανόνων εξαγωγής πληροφορίας (wrapper): Wrapper (page P) Skip past first occurrence of <P> in P While (next <B> is before next <HR> in P) For each <l, r>  { (<B>, </B>}) , (<I>, </I>) } Extract the text between l and r return <country, code > extracted pairs Country Code Congo 242 Egypt 20 Greece 30 Spain 34 Μια άλλη ενδιαφέρουσα εφαρμογή είναι η εξαγωγή πληροφορίας από το κείμενο των ιστοσελίδων. Στόχος είναι να μάθουμε απλές γραμματικές (wreappers), οι οποίες με τη βοήθεια ενός σχετικού parser θα μπορούν να εντοπίζουν στη σελίδα τα στοιχεία που μας ενδιαφέρουν. Τα HTML tags παίζουν συνήθως τον μεγαλύτερο ρόλο, ως «ορόσημα» για την αναγνώριση του ενδιαφέροντος στοιχείου. Ένα σημαντικό πρόβλημα των wrappers είναι ότι η εφαρμογή τους περιορίζεται συνήθως σε ένα μόνο site, δηλαδή για κάθε καινούριο site ένα καινούριος wrapper θα πρέπει να φτιάχνεται. © Georgios Paliouras

115 Εξόρυξη από τον Παγκόσμιο Ιστό
Αλγόριθμος STALKER [Muslea et. al.] Embedded Catalog Tree (EC): Doc ::= Restaurant LIST(City) City ::= CityName LIST(Loc) Loc ::= Number Street LIST(Phone) Phone ::= AreaCode PhoneNumber Ιδιότητες: - Προκαθορισμένη ιεραρχική δομή της σελίδας (EC) - Κανόνες εξαγωγής μονού-πεδίου (Single- slot) βασισμένοι σε ορόσημα (landmarks). Σελίδα: Name: Taco Bell <br> <p> -LA: 400 Pico; (213) , (800) 211 Flower; (213) <p> -Venice: 20 Vernon; (310) <p> <hr> Κανόνες: Restaurant: *’Name:’(*)’<br>’ LIST(City) : *’<p>’(*)’<hr>’ City (iteration): *’-‘(*)’<p>’ CityName: *(*)’:’ LIST(Loc): …… etc. Η χρήση μηχανικής μάθησης, όπως ο αλγόριθμος STALKER, βοηθούν στην ταχεία κατασκευή των wrappers με βάση παραδείγματα. Ο STALKER μαθαίνει μία γραμματική για κάθε στοιχείο που πρέπει να εξαχθεί (single-slot), π.χ. Restaurant. Παράδειγμα : Περιγράφει μια αλυσίδα εστιατορίων. Η αλυσίδα αυτή μπορεί να έχει εστιατόρια σε περισσότερες από μια πόλεις (π.χ. LA, Venice). Επίσης, σε κάθε πόλη η αλυσίδα μπορεί να έχει περισσότερα του ενός υποκαταστήματα με αντίστοιχες διευθύνσεις (π.χ. 400 Pico, 211 Flower στο LA). Επίσης, κάθε υποκατάστημα μπορεί να έχει περισσότερα του ενός τηλέφωνα (π.χ. 400 Pico). Ένας επιπλέον περιορισμός του αλγορίθμου είναι ότι το Embedded Catalog Tree τον περιορίζει ουσιαστικά σε μία δομή σελίδας. Για άλλη δομή (ακόμη και στο ίδιο site) πρέπει κανείς να ξαναφτιάξει το δέντρο. © Georgios Paliouras

116 εξυπηρετητής εξατομίκευσης
Εξόρυξη από τον Παγκόσμιο Ιστό Εξατομικευμένη παροχή πληροφορίας: Τα δευτερογενή δεδομένα χρήσης του Ιστού είναι ιδιαίτερα χρήσιμα για την εξατομίκευση των υπηρεσιών, η οποία έχει ως στόχο να κάνει πιο φιλικές τις υπηρεσίες στον άνθρωπο και κατά συνέπεια να μειώσει την υπερπληροφόρηση. Εδώ βλέπουμε ένα παράδειγμα φιλτραρίσματος και παράδοσης πληροφορίας σύμφωνα με τα ενδιαφέροντα διαφόρων χρηστών. πηγές εξυπηρετητής εξατομίκευσης παραλήπτες © Georgios Paliouras

117 Εξόρυξη από τον Παγκόσμιο Ιστό
Είδη μοντέλων χρηστών: Προσωπικό μοντέλο, τύπου Α: Χρήστης x: αθλητικά, χρηματιστήριο Προσωπικό μοντέλο, τύπου Β: Χρήστης x: Ηλικία:26, Φύλο:Α -> αθλητικά, χρηματιστήριο Μοντέλο κοινότητας χρηστών: Χρήστες {x,y,z} : αθλητικά, χρηματιστήριο Στερεότυπο χρήστών: Χρήστες {x,y,z} : Ηλ:20-30, Φύλο:Α -> αθλητικά, χρηματιστήριο Υπάρχουν διάφορα είδη μοντέλων χρηστών, τα οποία μπορούν να χρησιμοποιηθούν για εξατομίκευση. ΄Ιδιαίτερα ενδιαφέρον είναι αν το μοντέλο αναφέρεται σε ένα άτομο ή μία ομάδα ατόμων, καθώς και το αν υπάρχουν προσωπικά δεδομένα (π.χ. Ηλικία) για τους χρήστες. Η εξόρυξη γνώσης από δεδομένα χρήσης στον Ιστό, εστιάζει κυρίως στα γενικευμένα μοντέλα χωρίς προσωπικά δεδομένα (κοινότητες). © Georgios Paliouras

118 Εξόρυξη από τον Παγκόσμιο Ιστό
Προεπεξεργασία δεδομένων (access logs) για εξόρυξη: Καθαρισμός: Αφαίρεση κλήσεων (hits) που επέστρεψαν σφάλμα ή που έγιναν από robot ή που έγιναν χωρίς να τις ζητήσει χρήστης (π.χ. πολυμεσικό υλικό). Αναγνώριση χρήστη: Διαδικασία έναρξης (log-in), Cookies και Javascript, χρήση του Extended Log Format, κτλ. Καθορισμός συνόδων (sessions): Κυρίως μέθοδοι βασισμένες στον χρόνο (π.χ. 30 λεπτά σιωπής μεταξύ δύο κλήσεων από το ίδιο IP), αλλά και πιο έξυπνες μέθοδοι βασισμένες στο περιεχόμενο των σελίδων (π.χ. διαχωρισμός σελίδων σε σελίδες περιεχομένου και πλοήγησης) Κωδικοποίηση των δεδομένων: Bag-of-pages αναπαράσταση των συνοδειών, αναπαράσταση με βάση τις μεταβάσεις μεταξύ σελίδων ή καθορισμός άλλων χαρακτηριστικών. Στην πιο δημοφιλή περίπτωση εξόρυξης από Web server access logs, η προεπεξεργασία των δεδομένων είναι απαραίτητη και αρκετά περίπλοκη. Αφού καθαριστούν τα δεδομένα και χωριστούν σε συνόδους, κωδικοποιούνται σε διανυσματική μορφή για να χρησιμοποιηθούν ως δεδομένα εκπαίδευσης. © Georgios Paliouras

119 Εξόρυξη από τον Παγκόσμιο Ιστό
Συνεργατικό Φιλτράρισμα (Collaborative Filtering): Στόχος: Φιλτράρισμα πληροφορίας με βάση τα μοντέλα χρηστών που «μοιάζουν», όσον αφορά τη χρήση του συστήματος, με κάποιο χρήστη. Πλεονέκτημα: δεν απαιτεί την ανάλυση του περιεχομένου των σελίδων. Πρόβλημα: δεν μπορεί να κατατάξει νέους χρήστες. Κύριες προσεγγίσεις: Μέθοδοι απομνημόνευσης (memory-based learning), Ομαδοποίηση (model-based clustering), Αποκάλυψη συσχετίσεων (item-based recommendation). Η πιο συνηθισμένη εφαρμογή της εξόρυξης από access logs είναι η επιλογή προτάσεων που μπορούν να γίνουν στον χρήστη, ώστε να δει κάτι που τον ενδιαφέρει και πιθανόν να μην έχει δει. Μία προσέγγιση σ’ αυτό το πρόβλημα είναι μέσω του collaborative filtering. Εδώ θα δούμε τις βασικές μεθόδους μάθησης που χρησιμοποιούνται στο collaborative filtering. © Georgios Paliouras

120 Εξόρυξη από τον Παγκόσμιο Ιστό
Μέθοδος απομνημόνευσης (k-nn): Κατασκεύασε ένα μοντέλο για κάθε χρήστη, με παραμέτρους τις προτιμήσεις του, π.χ. τους τύπους των άρθρων που συνήθως διαβάζει. Εντόπισε τους k κοντινότερους χρήστες, χρησιμοποιώντας απλές μετρικές απόστασης στον ίδιο χώρο, π.χ. ποσοστό κοινών προτιμήσεων. Πρότεινε στον χρήστη αντικείμενα (π.χ. άρθρα) που δεν έχει διαβάσει και τα οποία είναι δημοφιλή στην «γειτονιά» του. Οι μέθοδοι απομνημόνευσης έχουν ένα βασικό χαρακτηριστικό: δεν φτιάχνουν κατά την εκπαίδευση κάποιο μοντέλο, αλλά απλά αποθηκεύουν τα δεδομένα με τρόπο που να μπορούν εύκολα να τα ανακτήσουν. Μ΄ αυτό τον τρόπο, όταν μία απόφαση πρέπει να ληφθεί για ένα καινούριο δείγμα, κατασκευάζεται ένα τοπικό μοντέλο που καθορίζεται από την γειτονιά του νέου δείγματος. Με βάση αυτούς τους κοντινούς γείτονες, μπορεί κανείς να προτείνει στον χρήστη πράγματα που δεν έχει δει και είναι πιθανόν ενδιαφέροντα. © Georgios Paliouras

121 Εξόρυξη από τον Παγκόσμιο Ιστό
1 Sports news Εδώ βλέπουμε μια πολύ απλοϊκή αναπαράσταση ενός προβλήματος collaborative filtering σε δισδιάστατο χώρο, με δύο νέα δείγματα και γειτονιές δύο ατόμων. 1 Finance news © Georgios Paliouras

122 Εξόρυξη από τον Παγκόσμιο Ιστό
Μέθοδος ομαδοποίησης: Κατασκεύασε ένα μοντέλο για κάθε χρήστη, με παραμέτρους τις προτιμήσεις του. Ομαδοποίησε τους χρήστες με οποιαδήποτε μέθοδο ομαδοποίησης. Πρότεινε στον χρήστη αντικείμενα (π.χ. άρθρα) που δεν έχει διαβάσει και τα οποία είναι δημοφιλή στην ομάδα του. Κάθε χρήστης μπορεί να ανήκει σε περισσότερες από μία ομάδες. Συνεπώς προτιμούνται μέθοδοι που επιτρέπουν επικαλύψεις μεταξύ των ομάδων. Είναι προφανές ότι η ομαδοποίηση μπορεί να εφαρμοστεί και έχει εφαρμοστεί στη δημιουργία ομάδων (κοινοτήτων) χρηστών με κοινά ενδιαφέροντα. Τέτοια μοντέλα μπορούν να χρησιμοποιηθούν για collaborative filtering. © Georgios Paliouras

123 Εξόρυξη από τον Παγκόσμιο Ιστό
0,9 0,9 0,9 0,9 0,8 0,8 0,4 0,4 0,1 0,1 Εδώ βλέπουμε ένα απλοϊκό παράδειγμα ομαδοποίησης χρηστών, χρησιμοποιώντας τον γραφο-θεωρητικό αλγόριθμο της εύρεσης κλικών. 0,5 0,5 © Georgios Paliouras

124 Εξόρυξη από τον Παγκόσμιο Ιστό
Υπάρχουν ακόμη πολλές ενδιαφέρουσες εφαρμογές εξόρυξης γνώσης από τον Παγκόσμιο Ιστό: Κατασκευή οντολογιών από δεδομένα. Εκμάθηση έξυπνων robot για τον εντοπισμό περιεχομένου συγκεκριμένου θέματος. Ατομικοί «πράκτορες» που βοηθούν στον εντοπισμό ενδιαφέροντος περιεχομένου. Αποκάλυψη συσχετίσεων για συνεργατικό φιλτράρισμα. Ενδιαφέρον είναι και ο συνδυασμός δεδομένων περιεχομένου και χρήσης. Υπάρχουν σημαντικά τεχνικά (π.χ. cache) και μη-τεχνικά (π.χ. σεβασμός ιδιωτικότητας) προβλήματα. Εδώ αναφερθήκαμε σε πολύ λίγες εφαρμογές της εξόρυξης στον Ιστό. Υπάρχουν ακόμη πολλές και νέες εφαρμογές προκύπτουν συνεχώς. Επίσης δεν μιλήσαμε για τον συνδυασμό δεδομένων διαφόρων τύπων, που είναι πολύ ενδιαφέρον. Ακόμη υπάρχουν πολλά τεχνικά θέματα, κυρίως στο επίπεδο της προ-επεξεργασίας των δεδομένων, τα οποία εν μέρη έχουν λυθεί με διάφορες μεθόδους. Τέλος, το σημαντικότερο ίσως θέμα στην εξόρυξη γνώσης από τον Ιστό είναι το θέμα του privacy των χρηστών, το οποίο βρίσκεται σε κίνδυνο. © Georgios Paliouras

125 Περιεχόμενα Εξόρυξη γνώσης (knowledge discovery) και μηχανική μάθηση (machine learning) Εκμάθηση ταξινομητών (learning classifiers) Ομαδοποίηση (clustering) Αποκάλυψη συσχετίσεων (association discovery) Εξόρυξη από τον Παγκόσμιο Ιστό (Web mining) Ανακεφαλαίωση © Georgios Paliouras

126 Ανακεφαλαίωση Η εξόρυξη γνώσης από δεδομένα, χρησιμοποιεί μεθόδους ανάλυσης δεδομένων, κυρίως μηχανικής μάθησης. Στόχος της μηχανικής μάθησης είναι η απόκτηση γνώσης από παραδείγματα για τη βελτίωση ενός πληροφοριακού συστήματος. Διάφορα είδη μάθησης και πολλές μέθοδοι για κάθε είδος: Εκμάθηση ταξινομητών (Naive Bayes, εκμάθηση δέντρων απόφασης, …) Ομαδοποίηση δειγμάτων (k-μέσοι, COBWEB, γραφο-θεωρητικές μέθοδοι, …) Αποκάλυψη συσχετίσεων (Apriori, QLIQUES, …) © Georgios Paliouras

127 Ανακεφαλαίωση Η αναπαράσταση και η προεπεξεργασία των δεδομένων παίζουν μεγάλο ρόλο (π.χ. διακριτοποίηση και επιλογή χαρακτηριστικών, bag-of-features αναπαράσταση, …) Η αναπαράσταση της γνώσης (μοντέλο) και η μετ-επεξεργασία του είναι σημαντικά (π.χ. κλάδεμα δέντρου) Ο Παγκόσμιος Ιστός έχει ανάγκη από μεθόδους εξόρυξης γνώσης και παρουσιάζει πολλές προκλήσεις (τεχνικές και μη): Ταξινόμηση περιεχομένου. Εκμάθηση κανόνων εξαγωγής πληροφορίας. Αποκάλυψη προτύπων διασύνδεσης. Ομαδοποίηση χρηστών για εξατομίκευση. © Georgios Paliouras

128 Βιβλιογραφία R. Agrawal, R. Srikant, Fast algorithms for mining association rules, Proc. 20th VLDB Conference, 1994. J. Borges and M. Levene, Data mining of user navigation patterns. Proceedings of Workshop on Web Usage Analysis and User Profiling (WEBKDD), in conjunction with ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. San Diego, CA., pp C. Borgelt, R. Kruse, Graphical Models: Methods for Data Analysis and Mining, John Wiley & Sons, 2002. C. J. C. Burges. A Tutorial on Support Vector Machines for Pattern Recognition. Knowledge Discovery and Data Mining, 2(2), 1998. S. Chakrabarti, M. H. van den Berg, B. E. Dom, Focused Crawling: a new approach to topic-specific Web resource discovery, Proceedings of the Eighth International World Wide Web Conference (WWW), Toronto, Canada, May 1999. M. Craven, D. DiPasquo, D. Freitag, A. McCallum, T. Mitchell, K. Nigam, S. Slattery, “Learning to construct knowledge bases from the World Wide Web”, Artificial Intelligence 118, 69–113, 2000. R. O. Duda, Peter E. Hart and David G. Stork, Pattern Classification, 2nd eddition, John Wiley & Sons, 2001. J. Han, M. Kamber, Data Mining: Concepts and Techniques, Morgan Kaufmann, 2000. © Georgios Paliouras

129 Βιβλιογραφία D. J. Hand, H. Mannila, P. Smyth, Principles of Data Mining, MIT Press, 2001. M. I. Jordan, Learning in Graphical Models (Adaptive Computation and Machine Learning), MIT Press, 1998. T. Jörding, T, A Temporary User Modeling Approach for Adaptive Shopping on the Web`, In Proceedings of the 2nd Workshop on Adaptive Systems and User Modeling on the WWW, UM'99, Banff, Canada, 1999. J. Kleinberg. Authoritative sources in a hyperlinked environment. Journal of the ACM, v. 46, 1999. P. Langley, Elements of Machine Learning. Morgan Kaufmann, 1996. H. F. Laender, B. A. Ribeiro-Neto, A. S. da Silva, J. S. Teixeira, A Brief Survey of Web Data Extraction Tools, SIGMOD Record, Vol. 31, No. 2, June 2002. H. Lieberman, C. Fry and L. Weitzman. Exploring the Web with Reconnaissance Agents, Communications of the ACM, August 2001, pp Α. Maedche, S. Staab. Discovering Conceptual Relations from Text. In: W.Horn (ed.): ECAI Proceedings of the 14th European Conference on Artificial Intelligence (ECAI), Berlin, August 21-25, 2000. A. McCallum, D. Freitag and F. Pereira, Maximum Entropy Markov Models for Information Extraction and Segmentation, Proceedings of the International Conference on Machine Learning (ICML), Stanford, CA, 2000, pp © Georgios Paliouras

130 Βιβλιογραφία R. S. Michalski, A Theory & Methodology of Inductive Learning, in R S Michalski, J G Carbonell & T M Mitchell (Eds), Machine Learning: An Artificial Intelligence Approach - Vol 1, Morgan Kaufmann, , 1983. T. Mitchell, Machine Learning. McGraw-Hill, 1997. I. Muslea , S. Minton and C. Knoblock , STALKER: Learning extraction rules for semistructured Web-based information sources. Proceedings of the National Conference on Artificial Intelligence (AAAI), Madison, Wisconsin, 1998. K.-R. Müller, S. Mika, G. Rätsch, K. Tsuda, and B. Schölkopf. An introduction to kernel-based learning algorithms. IEEE Neural Networks, 12(2): , May 2001. C. Nédellec, Corpus-based learning of semantic relations by the ILP system, Asium, Learning Language in Logic, Cussens J. and Dzeroski S. (Eds.), Springer Verlag, September 2000. G. Paliouras, C. Papatheodorou, V. Karkaletsis and C.D. Spyropoulos, “Discovering User Communities on the Internet Using Unsupervised Machine Learning Techniques,” Interacting with Computers, v. 14, n. 6, pp , 2002. D. Pierrakos, G. Paliouras, C. Papatheodorou, C.D. Spyropoulos, Web Usage Mining as a Tool for Personalization: a survey, User Modelling and User-Adapted Interaction, v. 13, n. 4, pp , 2003. © Georgios Paliouras

131 Βιβλιογραφία J. R. Quinlan, C4.5: Programs for Machine Learning, Morgan Kaufmann, 1993. J. Rennie and A. McCallum. Efficient Web Spidering with Reinforcement Learning. Proceedings of the International Conference on Machine Learning (ICML), 1999. G. Sakkis, I. Androutsopoulos, G. Paliouras, V. Karkaletsis, C.D. Spyropoulos and P. Stamatopoulos, “A Memory-Based Approach to Anti-Spam Filtering for Mailing Lists,” Information Retrieval, v. 6, n. 1, pp , 2003. E. I. Schwartz. Webonomics. New York: Broadway books, 1997. E. Schwarzkopf, An adaptive Web site for the UM2001 conference. Proceedings of the Workshop on Machine Learning for User Modeling, in conjunction with the International Conference on User modelling (UM), pp 77-86, 2001. I. H. Witten, E. Frank, Data Mining: Practical Machine Learning Tools and Techniques with Java Implementations, Morgan Kaufmann, 1999. M. Zaki, S. Parthasarathy, M. Ogihara, and W. Li, New algorithms for fast discovery of association rules, 3rd Intl. Conf. On Knowlegde Discovery and Data Mining, August 1997. © Georgios Paliouras


Κατέβασμα ppt "Εξόρυξη Γνώσης από Δεδομένα"

Παρόμοιες παρουσιάσεις


Διαφημίσεις Google