Η παρουσίαση φορτώνεται. Παρακαλείστε να περιμένετε

Η παρουσίαση φορτώνεται. Παρακαλείστε να περιμένετε

1 Εξόρυξη Γνώσης από Δεδομένα Γεώργιος Παλιούρας Εργαστήριο Τεχνολογίας Γνώσεων & Λογισμικού Ινστιτούτο Πληροφορικής & Τηλεπικοινωνιών Ε.Κ.Ε.Φ.Ε. «Δημόκριτος»

Παρόμοιες παρουσιάσεις


Παρουσίαση με θέμα: "1 Εξόρυξη Γνώσης από Δεδομένα Γεώργιος Παλιούρας Εργαστήριο Τεχνολογίας Γνώσεων & Λογισμικού Ινστιτούτο Πληροφορικής & Τηλεπικοινωνιών Ε.Κ.Ε.Φ.Ε. «Δημόκριτος»"— Μεταγράφημα παρουσίασης:

1 1 Εξόρυξη Γνώσης από Δεδομένα Γεώργιος Παλιούρας Εργαστήριο Τεχνολογίας Γνώσεων & Λογισμικού Ινστιτούτο Πληροφορικής & Τηλεπικοινωνιών Ε.Κ.Ε.Φ.Ε. «Δημόκριτος»

2 © Georgios Paliouras2 Περιεχόμενα Εξόρυξη γνώσης (knowledge discovery) και μηχανική μάθηση (machine learning) Εκμάθηση ταξινομητών (learning classifiers) Ομαδοποίηση (clustering) Αποκάλυψη συσχετίσεων (association discovery) Εξόρυξη από τον Παγκόσμιο Ιστό (Web mining) Ανακεφαλαίωση

3 © Georgios Paliouras3 Περιεχόμενα Εξόρυξη γνώσης (knowledge discovery) και μηχανική μάθηση (machine learning) Εκμάθηση ταξινομητών (learning classifiers) Ομαδοποίηση (clustering) Αποκάλυψη συσχετίσεων (association discovery) Εξόρυξη από τον Παγκόσμιο Ιστό (Web mining) Ανακεφαλαίωση

4 © Georgios Paliouras4 Συστήματα βασισμένα στη γνώση Προγράμματα που ενσωματώνουν γνώση, υπό μορφή κάποιου γνωσιακού μοντέλου, με στόχο την επίτευξη ευφυούς συμπεριφοράς. Απαραίτητα για την επίλυση απαιτητικών προβλημάτων. Αυξημένη ζήτηση στον Παγκόσμιο Ιστό.

5 © Georgios Paliouras5 Συστήματα βασισμένα στη γνώση Παραδείγματα εφαρμογών: Ιατρική, βιομηχανική και άλλη διάγνωση. Λήψη αποφάσεων. Αναζήτηση, εξαγωγή, φιλτράρισμα πληροφορίας στον Ιστό. Αναπαράσταση και εκμετάλλευση σημασιολογικής πληροφορίας στον Ιστό. Εξατομίκευση πληροφορικών συστημάτων. Φυσικοί ή εικονικοί ευφυείς πράκτορες. …

6 © Georgios Paliouras6 Συστήματα βασισμένα στη γνώση Σύντηξη πληροφορίας από πολλαπλά μέσα

7 © Georgios Paliouras7 Συστήματα βασισμένα στη γνώση Βασικό πρόβλημα: Απόκτηση και ενημέρωση της απαιτούμενης γνώσης, ιδιαίτερα σε συστήματα που λειτουργούν: σε δυναμικό περιβάλλον, χωρίς καλά ορισμένο πρόβλημα, περιορισμένες πηγές σαφώς ορισμένης και λειτουργικά περιγεγραμμένης γνώσης.

8 © Georgios Paliouras8 Εξόρυξη γνώσης από δεδομένα Τι είναι εξόρυξη γνώσης: Αποκάλυψη ή παραγωγή λειτουργικής γνώσης, μέσω της ανάλυσης δεδομένων. Συνδυάζει τεχνολογίες: Μηχανικής μάθησης Στατιστικής ανάλυσης δεδομένων Βάσεων δεδομένων

9 © Georgios Paliouras9 ΟΧΙ εξόρυξη γνώσης Εξόρυξη γνώσης από δεδομένα Εξόρυξη γνώσης Δεδομένα εκπαίδευσης Δεδομένα λειτουργίας Σύστημα γνώσης Γνώση Αποτελέσματα λειτουργίας

10 © Georgios Paliouras10 Εξόρυξη γνώσης από δεδομένα Τι ΔΕΝ ΕΙΝΑΙ εξόρυξη γνώσης: Η λειτουργική διαδικασία που εξυπηρετεί το σύστημα γνώσης, π.χ. Αναζήτηση, ανάκτηση, εξαγωγή, φιλτράρισμα, πληροφορίας. Υποστήριξη λήψης αποφάσεων. Εξατομίκευση πληροφοριακών συστημάτων. Διάγνωση και πρόγνωση. …

11 © Georgios Paliouras11 Εξόρυξη γνώσης από δεδομένα Κατανόηση προβλήματος Επιλογή και διαμόρφωση δεδομένων Μάθηση Παρουσίαση και αξιολόγηση αποτελεσμάτων Εφαρμογή τεχνικός κύκλος κύκλος εφαρμογής

12 © Georgios Paliouras12 Μηχανική Μάθηση Τι είναι μηχανική μάθηση: Δημιουργία/Επιλογή/Βελτίωση ενός γνωσιακού μοντέλου από ένα εκπαιδευτικό σύνολο δεδομένων. Παράδειγμα: Δημιουργία ενός μοντέλου «καλού πελάτη», με βάση παραδείγματα «καλών» και «κακών» πελατών.

13 © Georgios Paliouras13 Μηχανική Μάθηση ΗλικίαΟικ. Κατ.ΦύλοΠεριοχήΚαλός; 27ΆγαμοςΑΑγ. Παρ.ΟΧΙ 40ΆγαμοςΓΧαλάνδριΟΧΙ 25ΈγγαμοςΓΧολαργόςΟΧΙ 32Με τέκναΑΧαλάνδριΟΧΙ 35ΈγγαμοςΑΑγ. Παρ.ΝΑΙ 38ΈγγαμοςΓΧολαργόςΝΑΙ 26Με τέκναΓΑγ. Παρ.ΝΑΙ 30Με τέκναΓΧαλάνδριΝΑΙ

14 © Georgios Paliouras14 Μηχανική Μάθηση Παράδειγμα μοντέλου «καλού πελάτη»: ΕΑΝ Οικ. Κατ.: Έγγαμος ΚΑΙ Ηλικία >= 30 Η Οικ. Κατ.: Με τέκνα ΚΑΙ Φύλο: Γ ΤΟΤΕ: «Καλός Πελάτης» Παράδειγμα μοντέλου «κακού πελάτη»: ΕΑΝ Οικ. Κατ.: Άγαμος Η Οικ. Κατ.: Έγγαμος ΚΑΙ Ηλικία < 30 Η Οικ. Κατ.: Με τέκνα ΚΑΙ Φύλο: Α ΤΟΤΕ: «Κακός Πελάτης»

15 © Georgios Paliouras15 Μηχανική Μάθηση Πώς μαθαίνει μία «μηχανή»; Τι είδους γνώση χρειαζόμαστε; Πώς την αναπαριστούμε; Τι είδους δεδομένων διαθέτουμε; Τι ποσότητα; Πώς τα αναπαριστούμε; Τι αποτελεί ένα καλό μοντέλο; Πώς το αξιολογούμε με βάση τα δεδομένα εκπαίδευσης; Πώς μπορούμε να κατασκευάσουμε/επιλέξουμε ένα καλό μοντέλο σε λογικό (χαμηλό πολυωνυμικό) χρόνο;

16 © Georgios Paliouras16 Μηχανική Μάθηση Το είδος της γνώσης που χρειαζόμαστε καθορίζεται από τον τύπο προβλήματος που αντιμετωπίζει το σχετικό σύστημα γνώσης: Ταξινόμηση: Μοντέλα Κ γνωστών κατηγοριών. Αριθμητική πρόβλεψη: Συνάρτηση πρόβλεψης με αριθμητικό πεδίο τιμών. Ομαδοποίηση: Μοντέλα Κ αγνώστων κατηγοριών. Εξόρυξη συσχετίσεων: Μοντέλο συσχετίσεων μεταξύ ανεξάρτητων μεταβλητών. Η αναπαράσταση της γνώσης διαφέρει για κάθε αλγόριθμο μάθησης.

17 © Georgios Paliouras17 Μηχανική Μάθηση Τα δεδομένα που διαθέτουμε θα πρέπει να αντιστοιχούν στην αναζητούμενη γνώση: Συνήθως διανυσματική αναπαράσταση: διάνυσμα χαρακτηριστικών (ανεξάρτητων μεταβλητών). Ικανά χαρακτηριστικά για την περιγραφή του μοντέλου. Τιμές εξαρτημένης μεταβλητής (κατηγορίας) για προβλήματα ταξινόμησης/πρόβλεψης. Ικανή ποσότητα για τη δημιουργία καλού μοντέλου. Αντιπροσωπευτικά του «συνόλου» των δεδομένων λειτουργίας του συστήματος γνώσης.

18 © Georgios Paliouras18 Μηχανική Μάθηση Θεωρητικά, η αξιολόγηση του μοντέλου γίνεται με βάση την απόδοση του συστήματος γνώσης στο οποίο ενσωματώνεται και στο «σύνολο» των δεδομένων λειτουργίας. Πρακτικά, η αξιολόγηση γίνεται με βάση την απόδοση του συστήματος γνώσης στα δεδομένα εκπαίδευσης. Υπόθεση: Αν ένα μοντέλο καλύπτει καλά ένα «ικανό» σύνολο δεδομένων εκπαίδευσης τότε καλύπτει καλά και το «σύνολο» των δεδομένων λειτουργίας. Επιπλέον, αξιολογείται «δομικά» το μοντέλο, π.χ. η απλότητα/γενικότητα του, ώστε να αποφευχθεί το φαινόμενο της απομνημόνευσης των δεδομένων εκπαίδευσης.

19 © Georgios Paliouras19 Μηχανική Μάθηση Πώς κατασκευάζουμε/επιλέγουμε ένα καλό μοντέλο; Αναζήτηση στον χώρο των γενικευμένων μοντέλων για τα δεδομένα: Χώρος αναζήτησης: καθορίζεται από την αναπαράσταση των μοντέλων. Αρχική κατάσταση: το κενό μοντέλο (πιο γενικό), τα δεδομένα (πιο ειδικό) ή ένα τυχαίο μοντέλο. Τελεστές: σταδιακή μεταβολή του μοντέλου, συνήθως εξειδίκευση ή γενίκευση. Ευριστικά αξιολόγησης του μοντέλου: κάλυψη των δεδομένων και απλότητα/γενικότητα του μοντέλου. Στόχος: εύρεση ενός καλού μοντέλου σε πολυωνυμικό χρόνο.

20 © Georgios Paliouras20 Μηχανική Μάθηση Παράδειγμα αναζήτησης: Σύνολο χαρακτηριστικών: Οικ. Κατ. (3 τιμές), Φύλο (2 τιμές), Περιοχή (5 τιμές). Αριθμός διακριτών παραδειγμάτων: 30 Αναπαράσταση μοντέλου: απλός συζευκτικός κανόνας, π.χ. ΕΑΝ Οικ. Κατ.: Έγγαμος ΚΑΙ Φύλο: Γ ΤΟΤΕ: «Καλός» Αριθμός διακριτών μοντέλων: 217 Σε πραγματικά προβλήματα, ο αριθμός αυτός είναι ΠΟΛΥ μεγαλύτερος (εκθετικός χώρος αναζήτησης). Για παράδειγμα η διάζευξη δύο μόνο συζευκτικών κανόνων οδηγεί σε 4968 διακριτά μοντέλα! Χρειαζόμαστε ευριστικές μεθόδους αναζήτησης.

21 © Georgios Paliouras21 Άγαμος Χαλάνδρι Άγαμος Άνδρας Άγαμος Γυναίκα Μηχανική Μάθηση Είναι χρήσιμη η ταξινόμηση των μοντέλων με βάση τη γενικότητά τους (χώρος μοντέλων): {} Έγγαμος Άγαμος Γυναίκα … … Άγαμος, Άνδρας, Χαλάνδρι … Γενικό Ειδικό

22 © Georgios Paliouras22 Μηχανική Μάθηση πιο ειδικό μοντέλο πιο γενικό μοντέλο γενίκευση ειδίκευση ένα καλό μοντέλο ένα τυχαίο μοντέλο

23 © Georgios Paliouras23 Μηχανική Μάθηση Γενίκευση: Παράδειγμα καλού πελάτη #1: (Οικ. Κατ.: Έγγαμος, Φύλο: Α, Περ.: Αγ. Παρ.) Μ1={Οικ. Κατ.: Έγγαμος, Φύλο: Α, Περ.: Αγ. Παρ.} Παράδειγμα καλού πελάτη #2: (Οικ. Κατ.: Έγγαμος, Φύλο: Α, Περ.: Χαλάνδρι) Μ2={Οικ. Κατ.: Έγγαμος, Φύλο: Α} Παράδειγμα καλού πελάτη #3: (Οικ. Κατ.: Άγαμος, Φύλο: Γ, Περ.: Χαλάνδρι) Μ3={} Πρόβλημα: Περιορισμένη αναπαράσταση γνώσης. Δεν μπορεί να καλύψει τα παραδείγματα.

24 © Georgios Paliouras24 Μηχανική Μάθηση Ειδίκευση: Μ0={} Παράδειγμα κακού πελάτη #1: (Οικ. Κατ.: Άγαμος, Φύλο: Α, Περ.: Αγ. Παρ.) Μ1.1={Οικ. Κατ.: Έγγαμος}, Μ1.2={Οικ. Κατ.: Με τέκνα}, Μ1.3={Φύλο: Γ}, Μ1.4={Περ.: Χαλάνδρι}, Μ1.5=... Παράδειγμα κακού πελάτη #2: (Οικ. Κατ.: Με τέκνα, Φύλο: Γ, Περ.: Χολαργός) Μ1.1, Μ1.4,..., Μ2.1={Οικ. Κατ.: Άγαμος, Φύλο: Γ}, Μ2.2= {Φύλο: Γ, Περ.: Αγ. Παρ.}, Μ2.3= {Οικ. Κατ.: Με τέκνα, Φύλο: Α}, Μ2.4=... Παράδειγμα κακού πελάτη #3: (Οικ. Κατ.: Άγαμος, Φύλο: Γ, Περ.: Χαλάνδρι) Μ1.1,..., Μ2.2, Μ2.3,..., Μ3.1={Οικ. Κατ.: Άγαμος, Φύλο: Γ, Περ.: Χολαργός}, Μ3.2=...

25 © Georgios Paliouras25 Μηχανική Μάθηση Μάθηση υπό επίβλεψη: Εκμάθηση ταξινομητών (classification): decision trees & rules, multi-layer perceptrons, logistic regression Εκμάθηση μοντέλων πρόβλεψης (prediction): regression trees, multi-layer perceptrons, time- series analysis Μάθηση χωρίς επίβλεψη: Ομαδοποίηση (clustering): conceptual clustering, self-organising maps, statistical clustering Εξόρυξη συσχετίσεων (associations): association rules, dependency networks

26 © Georgios Paliouras26 Συμβολικές Δέντρα ΑποφάσεωνΚανόνες Συσχέτισης Αριθμητικές/Στατιστικές Νευρωνικά δίκτυαΣτατιστικοί ταξινομητές Μηχανική Μάθηση οικ. κατ. ΟΧΙ φύλοηλικία>30 ΝΟ Α ΕΤ ΑΓ ΟΧΙ ΝΑΙ Φύλο Ηλικία Α Γ ΝΑΙ ΟΧΙ ΦΑΧΑ νο ΗΕΧΟΤ ΑΠ (Ηλικία (Φύλο:Γ)...

27 © Georgios Paliouras27 Περιεχόμενα Εξόρυξη γνώσης (knowledge discovery) και μηχανική μάθηση (machine learning) Εκμάθηση ταξινομητών (learning classifiers) Ομαδοποίηση (clustering) Αποκάλυψη συσχετίσεων (association discovery) Εξόρυξη από τον Παγκόσμιο Ιστό (Web mining) Ανακεφαλαίωση

28 © Georgios Paliouras28 Εκμάθηση ταξινομητών Αναπαράσταση των δεδομένων ως διανύσματα χαρακτηριστικών (feature vectors): Επιλογή ενός χαρακτηριστικού ως κατηγορία. π.χ. Απόφαση. Ταξινόμηση: υπολογισμός, π.χ. P( Απόφαση: ΝΑΙ | Ηλικία: 27, Οικ. Κατ.: Έγγαμος, Φύλο: Α ). Εκμάθηση ταξινομητή: υπολογισμός του «βέλτιστου» ταξινομητή με βάση τα δεδομένα.

29 © Georgios Paliouras29 Εκμάθηση ταξινομητών ΗλικίαΟικ. Κατ.ΦύλοΠεριοχήΑπόφαση 27ΆγαμοςΑΑγ. Παρ.ΟΧΙ 40ΆγαμοςΓΧαλάνδριΟΧΙ 25ΈγγαμοςΓΧολαργόςΟΧΙ 32Με παιδιάΑΧαλάνδριΟΧΙ 35ΈγγαμοςΑΑγ. Παρ.ΝΑΙ 38ΈγγαμοςΓΧολαργόςΝΑΙ 26Με παιδιάΓΑγ. Παρ.ΝΑΙ 30Με παιδιάΓΧαλάνδριΝΑΙ

30 © Georgios Paliouras30 Εκμάθηση ταξινομητών Απλοϊκός ταξινομητής κατά Bayes (Naive Bayes): Ο παρονομαστής αγνοείται. Εκτίμηση πιθανοτήτων και με μέγιστη πιθανοφάνεια (maximum likelihood) από τα δεδομένα. Η ακριβής εκτίμηση τουαπαιτεί τεράστιο όγκο δεδομένων. Απλουστευτική υπόθεση:

31 © Georgios Paliouras31 Εκμάθηση ταξινομητών ΗλικίαΟικ. Κατ.ΦύλοΠεριοχήΑπόφαση 27ΆγαμοςΑΑγ. Παρ.ΟΧΙ 40ΆγαμοςΓΧαλάνδριΟΧΙ 25ΈγγαμοςΓΧολαργόςΟΧΙ 32Με τέκναΑΧαλάνδριΟΧΙ 35ΈγγαμοςΑΑγ. Παρ.ΝΑΙ 38ΈγγαμοςΓΧολαργόςΝΑΙ 26Με τέκναΓΑγ. Παρ.ΝΑΙ 30Με τέκναΓΧαλάνδριΝΑΙ P( Απ: ΝΑΙ ) = 0,5 P( Οικ: Έγγαμος | Απ: ΝΑΙ ) = 0,5 P( Ηλ: z | Απ: ΝΑΙ ) = g( z ; 32.25, 5.32 ), … P( Απ: ΝΑΙ | Οικ: Έγγαμος, Φ:Α ) ? P( Απ: ΟΧΙ | Οικ: Έγγαμος, Φ:Α )

32 © Georgios Paliouras32 Εκμάθηση ταξινομητών Σχολιασμός: Ο αφελής ταξινομητής Bayes δεν διεξάγει ουσιαστικά αναζήτηση στο χώρο των πιθανών υποθέσεων (πολύ ισχυρή επαγωγική κλίση). Είναι ιδιαίτερα γρήγορος τόσο κατά την εκπαίδευση όσο και κατά την ταξινόμηση. O(mn) και O(m) αντίστοιχα, όπου m : διάσταση του χώρου των χαρακτηριστικών, n : πλήθος των στιγμιοτύπων εκπαίδευσης. Η υπόθεση της ανεξαρτησίας των χαρακτηριστικών σπάνια ισχύει, αλλά επίσης σπάνια αυτό έχει σημαντική επίπτωση στην επιλογής της κατάλληλης κατηγορίας.

33 © Georgios Paliouras33 Εκμάθηση ταξινομητών Δέντρα αποφάσεων (decision trees) Οικογ. κατ. Ηλικία>=30 Φύλο ΟΧΙ ΝΑΙΟΧΙ ΝΑΙ Έγγαμος Άγαμος Με παιδιά ΝΑΙΟΧΙΑΓ

34 © Georgios Paliouras34 Εκμάθηση ταξινομητών To προς εκμάθηση μοντέλο αναπαριστάται με μία τέτοια δενδρική δομή. Υπάρχουν δύο τύποι κόμβων: Εσωτερικός Κόμβος: Διαιρεί το χώρο του προβλήματος (στιγμιότυπα) σε ομάδες, ανάλογα με την τιμή του χαρακτηριστικού με το οποίο αντιστοιχίζεται ο κόμβος (π.χ. «Φύλο» = {Α, Γ}). Τερματικός Κόμβος: Αναθέτει τα στιγμιότυπα που καταλήγουν σε αυτόν σε μια συγκεκριμένη κατηγορία.

35 © Georgios Paliouras35 Εκμάθηση ταξινομητών Διαδικασία Ταξινόμησης Ξεκινάμε από τη ρίζα, ελέγχουμε την τιμή του αντίστοιχου χαρακτηριστικού στο προς ταξινόμηση στιγμιότυπο, και ακολουθούμε το μονοπάτι στο οποίο μας οδηγεί αυτή η τιμή. Μεταβαίνουμε στον επόμενο κόμβο και επαναλαμβάνουμε τη διαδικασία. Όταν φθάσουμε σε τερματικό κόμβο αναθέτουμε το άγνωστο στιγμιότυπο στην αντίστοιχη κατηγορία.

36 © Georgios Paliouras36 Εκμάθηση ταξινομητών π.χ. X= Οικογ. κατ. Ηλικία>=30 Φύλο ΟΧΙ ΝΑΙΟΧΙ ΝΑΙ Έγγαμος Άγαμος Με τέκνα ΝΑΙΟΧΙΑΓ

37 © Georgios Paliouras37 Εκμάθηση ταξινομητών Αλγόριθμος εξειδίκευσης για την εκμάθηση δέντρων απόφασης (ID3, C4.5, See5, CART, …): 1. Επέλεξε το χαρακτηριστικό που πετυχαίνει τον καλύτερο διαχωρισμό μεταξύ των κατηγοριών. 2. Χώρισε τα δεδομένα σε υποσύνολα με βάση της τιμές του χαρακτηριστικού αυτού. 3. Για κάθε υποσύνολο που περιέχει περισσότερες από μία κατηγορίες, επανέλαβε τη διαδικασία. 4. Σταμάτησε εφόσον δεν υπάρχουν υποσύνολα που περιέχουν περισσότερες από μία κατηγορίες ή έχουν χρησιμοποιηθεί όλα τα χαρακτηριστικά.

38 © Georgios Paliouras38 Εκμάθηση ταξινομητών ΗλικίαΟικογ. Κατ.ΦύλοΠεριοχήΑπόφαση 27ΆγαμοςΑΑγ. Παρ.ΟΧΙ 40ΆγαμοςΓΧαλάνδριΟΧΙ 25ΈγγαμοςΓΧολαργόςΟΧΙ 32Με παιδιάΑΧαλάνδριΟΧΙ 35ΈγγαμοςΑΑγ. Παρ.ΝΑΙ 38ΈγγαμοςΓΧολαργόςΝΑΙ 26Με παιδιάΓΑγ. Παρ.ΝΑΙ 30Με παιδιάΓΧαλάνδριΝΑΙ

39 © Georgios Paliouras39 Εκμάθηση ταξινομητών ΗλικίαΟικογ. Κατ.ΦύλοΠεριοχήΑπόφαση 27ΆγαμοςΑΑγ. Παρ.ΟΧΙ 40ΆγαμοςΓΧαλάνδριΟΧΙ 25ΈγγαμοςΓΧολαργόςΟΧΙ 32Με παιδιάΑΧαλάνδριΟΧΙ 35ΈγγαμοςΑΑγ. Παρ.ΝΑΙ 38ΈγγαμοςΓΧολαργόςΝΑΙ 26Με παιδιάΓΑγ. Παρ.ΝΑΙ 30Με παιδιάΓΧαλάνδριΝΑΙ 0 1 1

40 © Georgios Paliouras40 Εκμάθηση ταξινομητών ΗλικίαΟικογ. Κατ.ΦύλοΠεριοχήΑπόφαση 27ΆγαμοςΑΑγ. Παρ.ΟΧΙ 40ΆγαμοςΓΧαλάνδριΟΧΙ 25ΈγγαμοςΓΧολαργόςΟΧΙ 32Με παιδιάΑΧαλάνδριΟΧΙ 35ΈγγαμοςΑΑγ. Παρ.ΝΑΙ 38ΈγγαμοςΓΧολαργόςΝΑΙ 26Με παιδιάΓΑγ. Παρ.ΝΑΙ 30Με παιδιάΓΧαλάνδριΝΑΙ 0 01

41 © Georgios Paliouras41 Εκμάθηση ταξινομητών Δέντρα αποφάσεων Οικογ. κατ. Ηλικία>=30 Φύλο ΟΧΙ ΝΑΙΟΧΙ ΝΑΙ Έγγαμος Άγαμος Με παιδιά ΝαιΟχιΑΓ

42 © Georgios Paliouras42 Εκμάθηση ταξινομητών Εύρεση καλύτερου χαρακτηριστικού Αρχική «αβεβαιότητα» (εντροπία πληροφορίας): «Αβεβαιότητα» αν επιλεγεί το Χ : «Κέρδος πληροφορίας» (information gain) αν επιλεγεί το Χ :

43 © Georgios Paliouras43 Εκμάθηση ταξινομητών ΗλικίαΟικογ. Κατ.ΦύλοΠεριοχήΑπόφαση 27ΆγαμοςΑΑγ. Παρ.ΟΧΙ 40ΆγαμοςΓΧαλάνδριΟΧΙ 25ΈγγαμοςΓΧολαργόςΟΧΙ 32Με παιδιάΑΧαλάνδριΟΧΙ 35ΈγγαμοςΑΑγ. Παρ.ΝΑΙ 38ΈγγαμοςΓΧολαργόςΝΑΙ 26Με παιδιάΓΑγ. Παρ.ΝΑΙ 30Με παιδιάΓΧαλάνδριΝΑΙ

44 © Georgios Paliouras44 Εκμάθηση ταξινομητών Θόρυβος στα δεδομένα ΗλικίαΟικ. Κατ.ΦύλοΠεριοχήΑπόφαση 37ΆγαμοςΑΑγ. Παρ.ΟΧΙ 40ΆγαμοςΓΧαλάνδριΝΑΙ 25ΈγγαμοςΓΧολαργόςΟΧΙ 32Με παιδιάΑΧαλάνδριΟΧΙ 35ΈγγαμοςΑΑγ. Παρ.ΝΑΙ 38ΈγγαμοςΓΧολαργόςΝΑΙ 26Με παιδιάΓΑγ. Παρ.ΝΑΙ 30Με παιδιάΓΧαλάνδριΝΑΙ

45 © Georgios Paliouras45 Εκμάθηση ταξινομητών Υπερεστιασμένο δέντρο (overfitting) Οικογ. κατ. Ηλικία=<37 Φύλο ΝΑΙ ΟΧΙ ΝΑΙ Έγγαμος Άγαμος Με παιδιά Ναι Οχι Α Γ Φύλο ΝΑΙΟΧΙ ΑΓ

46 © Georgios Paliouras46 Εκμάθηση ταξινομητών Κλαδεμένο δέντρο Οικογ. κατ. Ηλικία=<37 Φύλο ΝΑΙ ΟΧΙ ΝΑΙ Έγγαμος Άγαμος Με παιδιά Ναι Οχι Α Γ ΝΑΙ

47 © Georgios Paliouras47 Εκμάθηση ταξινομητών Τεχνικές κλαδέματος δέντρων: Πρόωρο σταμάτημα ανάπτυξης: π.χ. P( Ηλ: =<37, Οικ: Έγγαμος ) < 0.2 Μετέπειτα κλάδεμα βασισμένο σε «απαισιόδοξη εκτίμηση σφάλματος» (pessimistic error pruning): Όπου το υπο-δέντρο T t αντικαθιστάται από τη ρίζα του t, που γίνεται φύλλο. err(t) : αριθμός λαθών στο t, data(t) : αριθμός παραδειγμάτων στο t

48 © Georgios Paliouras48 Εκμάθηση ταξινομητών Για κάθε εσωτερικό κόμβο: Αλγόριθμος κλαδέματος με βάση την «απαισιόδοξη εκτίμηση σφάλματος»: Για κάθε εσωτερικό κόμβο: Έλεγχος για το αν η απομάκρυνσή του από το δένδρο, μαζί με το υποδένδρο του οποίου αποτελεί ρίζα, και η ανάθεση της συχνότερα εμφανιζόμενης κατηγορίας σε αυτό δε βλάπτει την ακρίβεια που μετράται σε κάποιο ανεξάρτητο σώμα επικύρωσης. Επιλογή του κόμβου που υπόσχεται την καλύτερη απόδοση, και αποκοπή του υποδένδρου του. Επιστροφή στο βήμα 1, όσο το δένδρο επιδέχεται βελτίωση, σύμφωνα με κάποιο δεδομένο κατώφλι.

49 © Georgios Paliouras49 Εκμάθηση ταξινομητών Χαρακτηριστικά αναζήτησης: Αναζήτηση στο χώρο όλων των δυνατών δένδρων απόφασης, με βάση τα συγκεκριμένα χαρακτηριστικά. Οι περισσότεροι αλγόριθμοι υλοποιούν άπληστη ανάβαση (greedy hill-climbing): Διατήρηση ενός μόνο δέντρου σε κάθε βήμα χωρίς οπισθοδρομήσεις. Επιλέγεται η καλύτερη εναλλακτική για την ανάπτυξη κάθε κόμβου του δένδρου. Προτιμώνται τα απλούστερα (μικρότερα) δένδρα. Προτιμώνται δένδρα, στα οποία τα χαρακτηριστικά μικρότερης εντροπίας τοποθετούνται κοντά στη ρίζα.

50 © Georgios Paliouras50 Εκμάθηση ταξινομητών Σύνοψη Η εκμάθηση δενδρικών ταξινομητών αποτελεί μια από τις δημοφιλέστερες μεθόδους εκμάθησης ταξινομητών. Ο χώρος μοντέλων περιλαμβάνει όλα τα δυνατά δένδρα απόφασης. Προτιμώνται τα μικρότερα δένδρα. Το φαινόμενο του υπερταιριάσματος αποτελεί ιδιαίτερα σημαντικό ζήτημα στην κατασκευή δενδρικών ταξινομητών. Αντιμετώπισή του με μεθόδους κλαδέματος, προ και μετά της πλήρους ανάπτυξης του δένδρου.

51 © Georgios Paliouras51 Εκμάθηση ταξινομητών Μάθηση βασισμένη σε στιγμιότυπα Απλή μεθοδολογία, που συνίσταται: στην απομνημόνευση των στιγμιοτύπων εκπαίδευσης, και… στην ανεύρεση των στιγμιοτύπων εκπαίδευσης που «μοιάζουν» περισσότερο προς ένα άγνωστο στιγμιότυπο, κατά την κανονική λειτουργία του αλγορίθμου Στη βιβλιογραφία συναντάται με τον όρο «οκνηρή μάθηση» (“lazy learning”), καθώς το στάδιο της εκπαίδευσης δεν υφίσταται. Επίσης εντάσσεται στην γενικότερη προσέγγιση της μάθησης μέσω απομνημόνευσης (memory-based learning) και του συμπερασμού μέσω παραδειγμάτων (case-based reasoning).

52 © Georgios Paliouras52 Εκμάθηση ταξινομητών Η βασική ιδέα Άγνωστο Στιγμιότυπο Χαρ. 1 Χαρ. 2

53 © Georgios Paliouras53 Εκμάθηση ταξινομητών Προσέγγιση της έννοιας της «ομοιότητας» με μία μετρική απόστασης στο n -διάστατο χώρο χαρακτηριστικών (χώρος δειγμάτων). Ο γνωστότερος αλγόριθμος της κατηγορίας αυτής: k- κοντινότεροι γείτονες ( k -nearest neighbour – k -nn) Μετρική Απόστασης: Ευκλείδεια Απόσταση ( L 2 νόρμα) Έστω δύο στιγμιότυπα x i και x j. Η απόστασή τους ορίζεται ως: όπου x id και x jd. οι τιμές του l -στου χαρακτηριστικού για τα x i και x j.

54 © Georgios Paliouras54 Εκμάθηση ταξινομητών Παράδειγμα Άγνωστο Στιγμιότυπο k = 4

55 © Georgios Paliouras55 Εκμάθηση ταξινομητών Πρόβλημα: Κατάρα διαστασιμότητας “curse of dimensionality”: Η απόσταση μεταξύ των στιγμιοτύπων μετράται λαμβάνοντας υπ’ όψη όλα τα χαρακτηριστικά. Όμως η συνάρτηση στόχος μπορεί να σχετίζεται με ένα υποσύνολο αυτών. Όσο μεγαλύτερος είναι ο αριθμός των άσχετων χαρακτηριστικών, τόσο μεγαλύτερες είναι και οι επιπτώσεις στην ακρίβεια του ταξινομητή. Μία λύση είναι η προεπιλογή χαρακτηριστικών. Μια άλλη λύση είναι η επέμβαση στη «γεωμετρία» του χώρου, δίνοντας σε κάθε χαρακτηριστικό συγκεκριμένο βάρος, π.χ. ανάλογο του κέρδους πληροφορίας του χαρακτηριστικού. Στόχος: η κατά το δυνατόν εξάλειψη της συνεισφοράς των άσχετων χαρακτηριστικών.

56 © Georgios Paliouras56 Εκμάθηση ταξινομητών Πρόβλημα: Ίδια σημασία σε όλους τους γείτονες. Λύση: Ζύγισμα γειτόνων με βάση την απόσταση. Άγνωστο Στιγμιότυπο k = 4

57 © Georgios Paliouras57 Εκμάθηση ταξινομητών Ο k -nn με ζύγισμα γειτόνων είναι ανθεκτικός σε μέτριο επίπεδο θορύβου στα δεδομένα. Επίσης, μπορεί να λειτουργήσει και λαμβάνοντας το σύνολο των δεδομένων ως γειτονιά. Ευριστικό k -nn : η υπόθεση ότι η ταξινόμηση ενός άγνωστου στιγμιοτύπου θα είναι παρόμοια με εκείνη των γειτονικών του. Η κατάρα της διαστασιμότητας μπορεί να αντιμετωπιστεί μερικώς με ζύγισμα των χαρακτηριστικών.

58 © Georgios Paliouras58 Εκμάθηση ταξινομητών Χαρακτηριστικό της μάθησης βασισμένης σε στιγμιότυπα είναι ότι επεξεργάζεται τα στιγμιότυπα εκπαίδευσης κατά το στάδιο της ταξινόμησης. Πλεονεκτήματα: Πολύπλοκες συναρτήσεις μπορούν να μοντελοποιηθούν σε τοπικό επίπεδο Δεν υπάρχει απώλεια πληροφορίας Μειονεκτήματα: Υπολογιστική και αποθηκευτική πολυπλοκότητα Επιλογή μετρικής απόστασης Εξάρτηση από τον χώρο των δειγμάτων, δηλ. τα χαρακτηριστικά.

59 © Georgios Paliouras59 Εκμάθηση ταξινομητών Άλλοι αλγόριθμοι: Εκμάθηση κανόνων (C4.5rules, CN2, AQ15, …) Μηχανές διανυσμάτων υποστήριξης (support vector machines). Παλινδρόμηση συμβολικής λογικής (logistic regression). Νευρωνικά Δίκτυα, π.χ. μulti-layered perceptrons. Μετα-μάθηση (Logitboost, Adaboost, stacking, …)

60 © Georgios Paliouras60 Περιεχόμενα Εξόρυξη γνώσης (knowledge discovery) και μηχανική μάθηση (machine learning) Εκμάθηση ταξινομητών (learning classifiers) Ομαδοποίηση (clustering) Αποκάλυψη συσχετίσεων (association discovery) Εξόρυξη από τον Παγκόσμιο Ιστό (Web mining) Ανακεφαλαίωση

61 © Georgios Paliouras61 Ομαδοποίηση Διανυσματική αναπαράσταση των δεδομένων, όπως και για την κατηγοριοποίηση: Η κατηγορία (ομάδα) στην οποία ανήκει κάθε δείγμα δεν είναι γνωστή. Στόχος: Η κατάταξη των δειγμάτων σε Κ ομάδες, έτσι ώστε να μεγιστοποιηθεί η συνοχή των ομάδων ( ) και να ελαχιστοποιηθεί η εγγύτητα τους ( ).

62 © Georgios Paliouras62 Ομαδοποίηση Σημαντικές κατηγορίες μεθόδων ομαδοποίησης: Μέθοδοι κατάτμησης (partitioning). Μέθοδοι ιεράρχησης (hierarchical). Μέθοδοι δημιουργίας επικαλυπτόμενων ομάδων (soft).

63 © Georgios Paliouras63 Ομαδοποίηση ΗλικίαΈγγαμοςΦύλοΠαιδιάΒ/Μ 27ΟΧΙΑ08 40ΟΧΙΓ05 25ΝΑΙΓ08 32ΝΑΙΑ26 35ΝΑΙΑ07 38ΝΑΙΓ05 26ΝΑΙΓ14 30ΝΑΙΓ23

64 © Georgios Paliouras64 Ομαδοποίηση Αλγόριθμος k -μέσων ( k -means): Στόχος: ο εντοπισμός k «μέσων» δειγμάτων, τα οποία αντιπροσωπεύουν τις κρυμμένες κατηγορίες. Αλγόριθμος: 1. Διάλεξε (τυχαία) k μέσους από τα δείγματα. 2. Κατάταξε κάθε δείγμα σε μία κατηγορία, με βάση την απόστασή της ( ) από τους μέσους. 3. Επανυπολόγισε τον μέσο κάθε κατηγορίας, με βάση τον μέσο όρο των δειγμάτων στην κατηγορία. 4. Συνέχισε μέχρι να μην υπάρξει αλλαγή στους μέσους.

65 © Georgios Paliouras65 Ομαδοποίηση ΗλικίαΈγγαμοςΦύλοΠαιδιάΒ/ΜΟμάδα 27(0.27)ΟΧΙ(0)Α(0)0(0.0)8(0.8)1 40(0.4)ΟΧΙ(0)Γ(1)0(0.0)5(0.5)2 25(0.25)ΝΑΙ(1)Γ(1)0(0.0)8(0.8)2 32(0.32)ΝΑΙ(1)Α(0)2(0.2)6(0.6)1 35(0.35)ΝΑΙ(1)Α(0)0(0.0)7(0.7)1 38(0.38)ΝΑΙ(1)Γ(1)0(0.0)5(0.5)2 26(0.26)ΝΑΙ(1)Γ(1)1(0.1)4(0.4)2 30(0.30)ΝΑΙ(1)Γ(1)2(0.2)3(0.3)2

66 © Georgios Paliouras66 Ομαδοποίηση ΗλικίαΈγγαμοςΦύλοΠαιδιάΒ/ΜΟμάδα (0.27)ΟΧΙ(0)Α(0)0(0.0)8(0.8)1 40(0.4)ΟΧΙ(0)Γ(1)0(0.0)5(0.5)2 25(0.25)ΝΑΙ(1)Γ(1)0(0.0)8(0.8)2 32(0.32)ΝΑΙ(1)Α(0)2(0.2)6(0.6)1 35(0.35)ΝΑΙ(1)Α(0)0(0.0)7(0.7)1 38(0.38)ΝΑΙ(1)Γ(1)0(0.0)5(0.5)2 26(0.26)ΝΑΙ(1)Γ(1)1(0.1)4(0.4)2 30(0.30)ΝΑΙ(1)Γ(1)2(0.2)3(0.3)2

67 © Georgios Paliouras67 Ομαδοποίηση Παράδειγμα:

68 © Georgios Paliouras68 Ομαδοποίηση Πλεονεκτήματα: Απόδοση: O(tkn), όπου n είναι το πλήθος των αντικειμένων, k το πλήθος των ομάδων και t το πλήθος των επαναλήψεων. Συνήθως, k, t << n. Μειονεκτήματα: Εφαρμόζεται δύσκολα σε δεδομένα στα οποία είναι δύσκολο να οριστεί μέσος, π.χ. χαρακτηριστικά διαφορετικών τύπων. Εκ των προτέρων επιλογή του πλήθους των ομάδων ( k ). Δεν μπορεί να χειριστεί δεδομένα με θόρυβο (noisy data). Δεν μπορεί να εντοπίσει ομάδες με μη κυρτό σχήμα. Συχνά συγκλίνει σε τοπικό μέγιστο.

69 © Georgios Paliouras69 Ομαδοποίηση Αλγόριθμος COBWEB: Εννοιολογική οργάνωση των δειγμάτων σε μία ιεραρχία (conceptual clustering  οντολογία). Χαρακτηρισμός της κάθε έννοιας/ομάδας με βάση τα «πιθανοτικά» χαρακτηριστικά των μελών της. Επαυξητικός (incremental) αλγόριθμος. Αναρριχητική αναζήτηση στον χώρο των ιεραρχιών.

70 © Georgios Paliouras70 Ομαδοποίηση Εκτίμηση ποιότητας μίας ιεραρχίας εννοιών με βάση το μέτρο category utility: όπου Κ έννοιες/ομάδες και V ij μία τιμής ενός χαρακτηριστικού. Μετρά την σχετική αύξηση της πιθανότητας ενός V ij σε μία κατηγορία, σε σύγκριση με το σύνολο των δεδομένων. Ενσωματώνει ένα μέτρο για την συνοχή ( P(V ij |k) ) και ένα για την εγγύτητα των ομάδων ( P(k|V ij ) ).

71 © Georgios Paliouras71 Ομαδοποίηση Αλγόριθμος COBWEB: 1. Δημιούργησε μία έννοια για το πρώτο δείγμα. 2. Για κάθε επόμενο δείγμα: a. Εξέτασε το αποτέλεσμα της προσθήκης του (σύμφωνα με το κριτήριο category utility) σε κάθε υπάρχουσα έννοια. (Classification) b. Εξέτασε το αποτέλεσμα δημιουργίας υπό-έννοιας για την «καλύτερη» έννοια. (Concept creation) c. Εξέτασε το αποτέλεσμα της συγχώνευσης των δύο «καλύτερων» αδελφών εννοιών. (Merging) d. Εξέτασε το αποτέλεσμα της αφαίρεσης της «καλύτερης» και της προσθήκης των παιδιών της στον γονέα της. (Splitting)

72 © Georgios Paliouras72 Ομαδοποίηση ΗλικίαΈγγαμοςΦύλοΠαιδιάΒ/Μ [20-30]ΟΧΙΑ H [30-40]ΟΧΙΓ M [20-30]ΝΑΙΓΟΧΙH [30-40]ΝΑΙΑ M [30-40]ΝΑΙΑΟΧΙM [30-40]ΝΑΙΓΟΧΙM [20-30]ΝΑΙΓ X [20-30]ΝΑΙΓ X

73 © Georgios Paliouras73 Ομαδοποίηση 1,34,

74 © Georgios Paliouras74 Ομαδοποίηση 4,5,

75 © Georgios Paliouras75 Ομαδοποίηση 3,7 2,4,5, ,6 4,5

76 © Georgios Paliouras76 Ομαδοποίηση 3,7,8 37,8 1, ,5,6 456

77 © Georgios Paliouras77 Ομαδοποίηση Προβλήματα: Η ιεραρχία που θα προκύψει εξαρτάται από την σειρά παρουσίασης των δειγμάτων. Οι τελεστές merging και splitting αντιμετωπίζουν μόνο μερικώς το πρόβλημα. Υπολογιστικά ακριβός, λόγω των πολλών τελεστών και της συνεχούς αξιολόγησης της ιεραρχίας. Αποθηκευτικά ακριβός γιατί αποθηκεύει την κατανομή όλων των χαρακτηριστικών για κάθε ομάδα. Υποθέτει ανεξαρτησία των πιθανοτικών κατανομών των χαρακτηριστικών.

78 © Georgios Paliouras78 Ομαδοποίηση Αλγόριθμος Cluster Mining: Γραφοθεωρητική προσέγγιση στην ομαδοποίηση δειγμάτων. Θεωρεί τα δείγματα ως κόμβους ενός γράφου. Εντοπίζει υπο-γράφους με υψηλή συνεκτικότητα. Επικαλυπτόμενες ομάδες.

79 © Georgios Paliouras79 Ομαδοποίηση Αλγόριθμος: 1. Υπολόγισε την απόσταση μεταξύ κάθε ζευγαριού δειγμάτων με οποιοδήποτε τρόπο, π.χ. Ευκλείδια απόσταση. 2. Σχημάτισε τον γράφο G=, του οποίου οι κόμβοι V είναι τα δείγματα και οι ακμές E ενώνουν τα δείγματα που απέχουν μεταξύ τους λιγότερο από ένα κατώφλι. 3. Ομαδοποίησε τα δείγματα σύμφωνα με τις μέγιστες κλίκες (πλήρως συνδεδεμένοι υπο-γράφοι) του γράφου.

80 © Georgios Paliouras80 Ομαδοποίηση ΗλικίαΈγγαμοςΦύλοΠαιδιάΒ/Μ 27(0.27)ΟΧΙ(0)Α(0)0(0.0)8(0.8) 40(0.4)ΟΧΙ(0)Γ(1)0(0.0)5(0.5) 25(0.25)ΝΑΙ(1)Γ(1)0(0.0)8(0.8) 32(0.32)ΝΑΙ(1)Α(0)2(0.2)6(0.6) 35(0.35)ΝΑΙ(1)Α(0)0(0.0)7(0.7) 38(0.38)ΝΑΙ(1)Γ(1)0(0.0)5(0.5) 26(0.26)ΝΑΙ(1)Γ(1)1(0.1)4(0.4) 30(0.30)ΝΑΙ(1)Γ(1)2(0.2)3(0.3)

81 © Georgios Paliouras81 Ομαδοποίηση

82 © Georgios Paliouras82 Ομαδοποίηση

83 © Georgios Paliouras83 Ομαδοποίηση

84 © Georgios Paliouras84 Ομαδοποίηση Προβλήματα: Δεν υπάρχει περιορισμός στον βαθμό επικάλυψης των ομάδων. Πολλές φορές δημιουργούνται ομάδες με μεγάλη επικάλυψη. Υψηλή υπολογιστική πολυπλοκότητα στη γενική περίπτωση. Η εύρεση των μέγιστων κλικών ενός γράφου είναι NP-hard στην χειρότερη περίπτωση. Υπάρχουν όμως αποδοτικοί αλγόριθμοι για την μέση περίπτωση.

85 © Georgios Paliouras85 Ομαδοποίηση Άλλοι αλγόριθμοι: Πιθανοτικοί (Autoclass, …) Fuzzy (Fuzzy k-means, Fuzzy c-medoids, …) Νευρωνικά δίκτυα (Self-Organizing Maps, …) Στατιστικοί ιεραρχικοί (agglomerative, …) Γραφο-θεωρητικοί (χρήση minimal-spanning trees, …) Αποδοτική διαχείριση βάσεων δεδομένων (ROCK, DBSCAN, …) … πολλοί άλλοι

86 © Georgios Paliouras86 Περιεχόμενα Εξόρυξη γνώσης (knowledge discovery) και μηχανική μάθηση (machine learning) Εκμάθηση ταξινομητών (learning classifiers) Ομαδοποίηση (clustering) Αποκάλυψη συσχετίσεων (association discovery) Εξόρυξη από τον Παγκόσμιο Ιστό (Web mining) Ανακεφαλαίωση

87 © Georgios Paliouras87 Αποκάλυψη συσχετίσεων Διανυσματική αναπαράσταση των δεδομένων. Δεν ορίζεται κάποιο χαρακτηριστικό εκ των προτέρων ως κατηγορία, αλλά ούτε υποθέτουμε ότι η κατηγορία είναι κρυμμένη. Οποιοδήποτε χαρακτηριστικό (ή ομάδα χαρακτηριστικών) είναι πιθανή κατηγορία. Στόχος: Ο εντοπισμός στατιστικά ισχυρών συσχετίσεων μεταξύ χαρακτηριστικών.

88 © Georgios Paliouras88 Αποκάλυψη συσχετίσεων ΗλικίαΈγγαμοςΦύλοΠαιδιάΒ/Μ [20-30]ΟΧΙΑ H [30-40]ΟΧΙΓ M [20-30]ΝΑΙΓΟΧΙH [30-40]ΝΑΙΑ M [30-40]ΝΑΙΑΟΧΙM [30-40]ΝΑΙΓΟΧΙM [20-30]ΝΑΙΓ X [20-30]ΝΑΙΓ X

89 © Georgios Paliouras89 Αποκάλυψη συσχετίσεων Εξόρυξη κανόνων συσχέτισης Στόχος: Εντοπισμός κανόνων της μορφής που έχουν μεγάλη στήριξη (support): και μεγάλη βεβαιότητα (confidence):  B/M: H P( Ηλικία: [20-30], Έγγαμος: ΝΑΙ, B/M: H ) > s P( B/M: H | Ηλικία: [20-30], Έγγαμος: ΝΑΙ ) > c

90 © Georgios Paliouras90 Αποκάλυψη συσχετίσεων Αλγόριθμος Apriori: 1. Υπολόγισε την στήριξη κάθε ζευγαριού χαρακτηριστικό- τιμή και κράτησε τα ζευγάρια με στήριξη πάνω από s. 2. Συνδύασε κάθε «επιζών» ζευγάρι με κάθε άλλο και κράτησε του συνδυασμούς με στήριξη πάνω από s (συχνά σύνολα αντικειμένων, frequent itemsets). 3. Συνέχισε μέχρι να μην υπάρχουν καινούρια συχνά σύνολα αντικειμένων. 4. Για κάθε συχνό σύνολο αντικειμένων (κάθε μεγέθους), υπολόγισε τους κανόνες (με ένα αντικείμενο στο συμπέρασμα) με βεβαιότητα πάνω από c.

91 © Georgios Paliouras91 Αποκάλυψη συσχετίσεων Έγγαμος: ΝΑΙ0.75 Φύλο: Γ0.625 Παιδιά: ΟΧΙ0.625 Β/Μ: Μ0.5 Ηλικία: Ηλικία: Φύλο: Α0.375 Παιδιά: ΝΑΙ0.375 Β/Μ: Η0.25 Β/Μ: Χ0.25 Έγγαμος: ΟΧΙ0.25 (Ηλικία: [30-40]) & (Β/Μ: Μ)0.5 (Έγγαμος: ΝΑΙ) & (Φύλο: Γ)0.5 (Φύλο: Γ) & (Παιδιά: ΟΧΙ) Στήριξη Στήριξη Βεβαιότητα Ηλικία: [30-40]  Β/Μ: Μ1.0 Β/Μ: Μ  Ηλικία: [30-40]1.0 Έγγαμος: ΝΑΙ  Φύλο: Γ0.8 Φύλο: Γ  Έγγαμος: ΝΑΙ0.67

92 © Georgios Paliouras92 Αποκάλυψη συσχετίσεων Πρόβλημα με τον αλγόριθμο Apriori: Εξαντλητική αναζήτηση στον εκθετικά αυξανόμενο χώρο των συχνών συνόλων αντικειμένων. Πολλές βελτιώσεις του αλγορίθμου για έξυπνη εξαντλητική αναζήτηση (CLIQUES, FP-trees, PC- trees, closed itemsets, …). Μία από αυτές τις βελτιώσεις μοιάζει με γραφο- θεωρητικό αλγόριθμο ομαδοποίησης (χαρακτηριστικών και όχι δειγμάτων).

93 © Georgios Paliouras93 Αποκάλυψη συσχετίσεων Ηλικία<30ΆγαμοςΦύλο:AΠαιδιάΒ/Μ<5Β/Μ>7 NAIΝΑΙNAIΟΧΙ ΝΑΙ ΟΧΙΝΑΙΟΧΙ NAIΟΧΙ ΝΑΙ ΟΧΙ NAIΝΑΙΟΧΙ NAIΟΧΙ NAIΟΧΙ ΝΑΙ ΟΧΙ NAIΟΧΙ ΝΑΙ ΟΧΙ

94 © Georgios Paliouras94 Αποκάλυψη συσχετίσεων Ηλ<30 Παιδιά Φ:Α Άγαμος Β/Μ<5 Β/Μ>7

95 © Georgios Paliouras95 Αποκάλυψη συσχετίσεων Ηλ<30 Παιδιά Φ:Α Άγαμος Β/Μ<5 Β/Μ>7

96 © Georgios Paliouras96 Αποκάλυψη συσχετίσεων Ηλ<30 Παιδιά Φ:Α Άγαμος Β/Μ<5 Β/Μ>7

97 © Georgios Paliouras97 Αποκάλυψη συσχετίσεων Οι γράφοι είναι ένας καλός τρόπος απεικόνισης των συσχετίσεων, είτε μεταξύ των δειγμάτων είτε μεταξύ των χαρακτηριστικών. Τα γραφικά μοντέλα (graphical models), π.χ. Δίκτυα Bayes, Δίκτυα Εξαρτήσεων, αναπαριστούν πιθανοτικές συσχετίσεις.

98 © Georgios Paliouras98 Αποκάλυψη συσχετίσεων Δίκτυα Bayes: Γραφικό μοντέλο (graphical model) για την περιγραφή πιθανοτικών συσχετίσεων μεταξύ τυχαίων μεταβλητών, π.χ. χαρακτηριστικά σε διανυσματικά δεδομένα. Παραδοσιακά κατασκευάζονταν χειρονακτικά και χρησιμοποιήθηκαν αρκετά για ιατρικές εφαρμογές. Η κατασκευή τους εμπεριέχει τον καθορισμό των εξαρτήσεων μεταξύ των μεταβλητών, που αφορά ιδιαίτερα την αποκάλυψη συσχετίσεων.

99 © Georgios Paliouras99 Αποκάλυψη συσχετίσεων Συγκεκριμένα: Δεδομένου ενός συνόλου μεταβλητών {Υ 1,...,Υ n } θέλουμε να περιγράψουμε την κατανομή που τις διέπει, εκμεταλλευόμενοι τη δεσμευμένη ανεξαρτησία μεταξύ κάποιων από αυτές. Δεσμευμένη ανεξαρτησία: Η Χ είναι ανεξάρτητη της Υ, δεδομένης της Ζ, αν η κατανομή της είναι ανεξάρτητη της τιμής της Υ, δεδομένης της Ζ : P(X|Y,Z)=P(X|Z) Παράδειγμα: Η πιθανότητα πυρετού είναι ανεξάρτητη της πιθανότητας στομαχικού πόνου, δεδομένης της πιθανότητας γαστρεντερίτιδας. Ακραία περίπτωση ανεξαρτησίας: Ανεξαρτησία όλων των χαρακτηριστικών, δεδομένης της κατηγορίας στην οποία ανήκει ένα παράδειγμα (Naive Bayes υπόθεση).

100 © Georgios Paliouras100 Αποκάλυψη συσχετίσεων Ηλικία Οικ. Κατ. Περιοχή ΧΔΑ Απόφαση Β/Μ P( B/M| Ηλικία, ΧΔΑ, Περιοχή ) P( Απόφαση | Οικ. Κατ., Περιόχή, Β/Μ ) Αυτό το δίκτυο περιγράφει την κατανομή κοινής πιθανότητας μεταξύ των μεταβλητών στους κόμβους του, με ένα σχετικά μικρό αριθμό δεσμευμένων πιθανοτήτων. Εκμεταλλεύεται π.χ. την ανεξαρτησία του «Β/Μ» από την «Οικ. Κατ.», δεδομένων των «Ηλικία», «ΧΔΑ» και «Περιοχή», δηλ. των «προκατόχων» του (όχι μόνο των «γονέων» του) στον γράφο.

101 © Georgios Paliouras101 Αποκάλυψη συσχετίσεων Δίκτυα Εξαρτήσεων: Η βασική διαφορά από τα δίκτυα Bayes είναι ότι προστίθενται ακμές από όλους τους «προκατόχους» (predecessors) ενός κόμβου προς τον κόμβο, οπότε και γίνονται «γονείς» του. Οι ακμές αυτές μπορεί να είναι διπλής κατεύθυνσης και μπορεί να υπάρχουν κύκλοι στον γράφο. Αυτό επιτρέπει: Πιο εύληπτη απεικόνιση των συσχετίσεων. Μία απλουστευτική προσέγγιση για την μάθηση των εξαρτήσεων (δομή του δικτύου) και των δεσμευμένων κατανομών.

102 © Georgios Paliouras102 Αποκάλυψη συσχετίσεων Ηλικία Οικ. Κατ. Περιοχή ΧΔΑ Απόφαση Β/Μ Ηλικία Οικ. Κατ. Περιοχή ΧΔΑ Απόφαση Β/Μ Δίκτυο Bayes Δίκτυο Εξαρτήσεων

103 © Georgios Paliouras103 Αποκάλυψη συσχετίσεων Συγκεκριμένα: Δεδομένου ενός συνόλου μεταβλητών Υ= {Υ 1,...,Υ n } το δίκτυο εξαρτήσεων (dependency network) συνενώνει κάθε μεταβλητή Υ i με το υποσύνολο μεταβλητών Z  Υ για τις οποίες ισχύει ότι: P(Υ i | Z)=P(Υ i | Υ) Πώς μπορούμε όμως να βρούμε το υποσύνολο Z για κάθε Υ i και να υπολογίσουμε την κατανομή P(Υ i | Z) ; Χρησιμοποιώντας έναν πιθανοτικό ταξινομητή.

104 © Georgios Paliouras104 Αποκάλυψη συσχετίσεων Μάθηση της δομής και των παραμέτρων ενός δικτύου εξαρτήσεων: Θεωρούμε |Υ| προβλήματα ταξινόμησης, σε καθένα από τα οποία μία από τις μεταβλητές θεωρείται εξαρτημένη και οι υπόλοιπες ανεξάρτητες. Χρησιμοποιούμε έναν αλγόριθμο επιλογής χαρακτηριστικών για να μειώσουμε τις εξαρτήσεις, καθορίζοντας έτσι την δομή του δικτύου. Χρησιμοποιούμε έναν αλγόριθμο που μαθαίνει πιθανοτικούς ταξινομητές για να μάθει την τοπική δεσμευμένη κατανομή. Στην περίπτωση συνεχών μεταβλητών χρησιμοποιούμε μεθόδους παλινδρόμησης (regression).

105 © Georgios Paliouras105 Αποκάλυψη συσχετίσεων Η χρήση ευριστικών μεθόδων μάθησης, όπως οι πιθανοτικοί ταξινομητές εισάγει ανακρίβεια και πιθανές ασυμβατότητες στο δίκτυο (δεν μπορούμε να βρούμε τον MAP ταξινομητή), οι οποίες όμως μειώνονται καθώς αυξάνεται ο όγκος των δεδομένων. Επιπλέον, με αυτό τον τρόπο επιτυγχάνεται μία καλή και γρήγορη αποκάλυψη των συσχετίσεων μεταξύ των μεταβλητών. Κάτι αντίστοιχο γίνεται και με μία νέα οικογένεια μεθόδων αποκάλυψης κανόνων συσχέτισης, με χρήση μεθόδων που μαθαίνουν δέντρα απόφασης. Ο υπολογισμός όμως των πιθανοτικών κατανομών επιτρέπει πιο ενημερωμένη λήψη αποφάσεων με το δίκτυο. Επιπλέον, η γραφική αναπαράσταση του δικτύου βοηθά.

106 © Georgios Paliouras106 Αποκάλυψη συσχετίσεων Εν γένει τρεις διαδικασίες θέλουμε να αυτοματοποιήσουμε σε ένα δίκτυο Bayes: Τον υπολογισμό της κατανομής για μία μεταβλητή, αν γνωρίσουμε τις τιμές όλων (ή μέρους) των άλλων μεταβλητών. Ο ακριβής υπολογισμός είναι NP-hard, αλλά υπάρχουν πολύ καλές προσεγγιστικές μέθοδοι. Την εκτίμηση των δεσμευμένων πιθανοτήτων, δεδομένης της δομής, δηλ. των δεσμευμένων ανεξαρτησιών. Την αποκάλυψη δεσμευμένων ανεξαρτησιών. Το τελευταίο πρόβλημα είναι το πιο δύσκολο και το πιο ενδιαφέρον για την περιοχή της αποκάλυψης συσχετίσεων. Απλούστεση σε δίκτυα εξαρτήσεων, τα οποία επιτρέπουν την ανακάλυψη συσχετίσεων με αλγορίθμους μάθησης πιθανοτικών ταξινομητών.

107 © Georgios Paliouras107 Περιεχόμενα Εξόρυξη γνώσης (knowledge discovery) και μηχανική μάθηση (machine learning) Εκμάθηση ταξινομητών (learning classifiers) Ομαδοποίηση (clustering) Αποκάλυψη συσχετίσεων (association discovery) Εξόρυξη από τον Παγκόσμιο Ιστό (Web mining) Ανακεφαλαίωση

108 © Georgios Paliouras108 Εξόρυξη από τον Παγκόσμιο Ιστό Ο Ιστός είναι τεράστιος και ευμετάβλητος: Περισσότεροι από χρήστες Περισσότεροι από νέοι χρήστες κάθε μέρα Περισσότεροι από ιστιακοί τόποι Περισσότερες από σελίδες Λιγότερο από 50% θα υπάρχει τον επόμενο χρόνο … οδηγώντας σε υπερπληροφόρηση: “99% of online information is of no interest to 99% of the people” Ιδανικές συνθήκες για εξόρυξη γνώσης από δεδομένα Έχουμε όμως τα κατάλληλα εργαλεία;

109 © Georgios Paliouras109 Εξόρυξη από τον Παγκόσμιο Ιστό Είδη δεδομένων στον παγκόσμιο Ιστό: Πρωτογενή δεδομένα (περιεχόμενο): Κυρίως κείμενο, αυξανόμενη ποσότητα πολυμέσων, ενδιαφέρουσα δομή μέσω υπερσυνδέσμων (hyperlinks) και πολύ δυναμικό περιεχόμενο που δεν είναι άμεσα προσβάσιμο.  Εξόρυξη από το περιεχόμενο και την δομή του Ιστού. Δευτερογενή δεδομένα (δεδομένα χρήσης): Αρχεία καταγραφής εξυπηρετητών (access logs), σε συνδυασμό πολλές φορές με cookies, και επιπλέον πληροφορία από τον πελάτη (Javascript agents).  Εξόρυξη από δεδομένα χρήσης, κυρίως από access logs.

110 © Georgios Paliouras110 Εξόρυξη από τον Παγκόσμιο Ιστό Εξόρυξη από περιεχόμενο στον Ιστό: Εκμάθηση ταξινομητών αρχείων στον Ιστό (κυρίως ιστοσελίδων και ). Εκμάθηση κανόνων για εξαγωγή πληροφορίας από αρχεία στον Ιστό. Εκμάθηση οντολογιών (ταξινομικών και μη-ταξινομικών σχέσεων). Αποκάλυψη μοτίβων διασύνδεσης αρχείων στον Ιστό. Συνηθισμένες παρεξηγήσεις: Η εξόρυξη δεν είναι ταξινόμηση ιστοσελίδων ή εξαγωγή πληροφορίας από τον Ιστό.

111 © Georgios Paliouras111 Εξόρυξη από τον Παγκόσμιο Ιστό Ταξινομητές αρχείων στον Ιστό (spam filtering): Λειτουργικός στόχος: ταξινόμηση σε 2 κατηγορίες: επιθυμητά και μη-επιθυμητά μηνύματα. Απλές μέθοδοι, π.χ. μαύρες λίστες αποστολέων και εντοπισμός λέξεων κλειδιών, απέτυχαν. Στροφή προς ευφυείς ταξινομητές, που κατασκευάζονται με μεθόδους μηχανικής μάθησης: 1. Γλωσσολογική προεπεξεργασία του κειμένου. 2. Διανυσματική αναπαράσταση (bag-of-words). 3. Στατιστική επιλογή χαρακτηριστικών. 4. Δημιουργία ταξινομητή με μία κοινή μέθοδο μάθησης (π.χ. Naive Bayes).

112 © Georgios Paliouras112 Εξόρυξη από την δομή του Ιστού: Λειτουργικός στόχος: Βελτίωση της κατάταξης των αποτελεσμάτων αναζήτησης στον Ιστό, με βάση την «σημαντικότητα» μίας ιστοσελίδας στον Ιστό ή σε ένα υποσύνολο. Σελίδες όπου καταλήγουν πολλοί σύνδεσμοι θεωρούνται σημαντικές (authorities). Σελίδες που έχουν πολλούς συνδέσμους προς πολλές σημαντικές σελίδες θεωρούνται επίσης σημαντικές, ως δείκτες (hubs). Εξόρυξη από τον Παγκόσμιο Ιστό

113 © Georgios Paliouras113 Ο αλγόριθμος HITS [Kleinberg] : 1. Δεδομένου ενός βασικού συνόλου σελίδων, π.χ. αποτελέσματα αναζήτησης με κάποιες λέξεις κλειδιά, 2. επέκτεινε το βασικό σύνολο, χρησιμοποιώντας σελίδες που «δείχνονται» από σελίδες του συνόλου, 3. αρχικοποίησε το hub και το authority weight κάθε σελίδας σε 1, 4. ενημέρωσε το authority weight κάθε σελίδας p, βάση των hub weights των σελίδων που «δείχνουν» σε αυτή: 5. ενημέρωσε το hub weight κάθε σελίδας p, βάση των authority weights των σελίδων στις οποίες «δείχνει»: 6. επανέλαβε την ενημέρωση των βαρών για συγκεκριμένο αριθμό επαναλήψεων, 7. επέστρεψε τις σελίδες σε φθίνουσα σειρά βαρών. Εξόρυξη από τον Παγκόσμιο Ιστό

114 © Georgios Paliouras114 Some Country Codes Congo 242 Egypt 20 Greece 30 Spain 34 End Wrapper (page P) Skip past first occurrence of in P While (next is before next in P) For each  { (, }), (, ) } Extract the text between l and r return extracted pairs CountryCode Congo242 Egypt20 Greece30 Spain34 Εξόρυξη από τον Παγκόσμιο Ιστό Παράδειγμα κανόνων εξαγωγής πληροφορίας (wrapper):

115 © Georgios Paliouras115 Αλγόριθμος STALKER [Muslea et. al.] Σελίδα: Name: Taco Bell -LA: 400 Pico; (213) , (800) Flower; (213) Venice: 20 Vernon; (310) Ιδιότητες: - Προκαθορισμένη ιεραρχική δομή της σελίδας (EC) - Κανόνες εξαγωγής μονού-πεδίου (Single- slot) βασισμένοι σε ορόσημα (landmarks). Embedded Catalog Tree (EC): Doc ::= Restaurant LIST(City) City ::= CityName LIST(Loc) Loc ::= Number Street LIST(Phone) Phone ::= AreaCode PhoneNumber Κανόνες: Restaurant: *’Name:’(*)’ ’ LIST(City) : *’ ’(*)’ ’ City (iteration): *’-‘(*)’ ’ CityName: *(*)’:’ LIST(Loc): …… etc. Εξόρυξη από τον Παγκόσμιο Ιστό

116 © Georgios Paliouras116 πηγές εξυπηρετητής εξατομίκευσης παραλήπτες Εξόρυξη από τον Παγκόσμιο Ιστό Εξατομικευμένη παροχή πληροφορίας:

117 © Georgios Paliouras117 Είδη μοντέλων χρηστών: Προσωπικό μοντέλο, τύπου Α: Χρήστης x: αθλητικά, χρηματιστήριο Προσωπικό μοντέλο, τύπου Β: Χρήστης x: Ηλικία:26, Φύλο:Α -> αθλητικά, χρηματιστήριο Μοντέλο κοινότητας χρηστών: Χρήστες { x,y,z } : αθλητικά, χρηματιστήριο Στερεότυπο χρήστών: Χρήστες { x,y,z } : Ηλ:20-30, Φύλο:Α -> αθλητικά, χρηματιστήριο Εξόρυξη από τον Παγκόσμιο Ιστό

118 © Georgios Paliouras118 Προεπεξεργασία δεδομένων (access logs) για εξόρυξη: Καθαρισμός: Αφαίρεση κλήσεων (hits) που επέστρεψαν σφάλμα ή που έγιναν από robot ή που έγιναν χωρίς να τις ζητήσει χρήστης (π.χ. πολυμεσικό υλικό). Αναγνώριση χρήστη: Διαδικασία έναρξης (log-in), Cookies και Javascript, χρήση του Extended Log Format, κτλ. Καθορισμός συνόδων (sessions): Κυρίως μέθοδοι βασισμένες στον χρόνο (π.χ. 30 λεπτά σιωπής μεταξύ δύο κλήσεων από το ίδιο IP), αλλά και πιο έξυπνες μέθοδοι βασισμένες στο περιεχόμενο των σελίδων (π.χ. διαχωρισμός σελίδων σε σελίδες περιεχομένου και πλοήγησης) Κωδικοποίηση των δεδομένων: Bag-of-pages αναπαράσταση των συνοδειών, αναπαράσταση με βάση τις μεταβάσεις μεταξύ σελίδων ή καθορισμός άλλων χαρακτηριστικών. Εξόρυξη από τον Παγκόσμιο Ιστό

119 © Georgios Paliouras119 Συνεργατικό Φιλτράρισμα (Collaborative Filtering): Στόχος: Φιλτράρισμα πληροφορίας με βάση τα μοντέλα χρηστών που «μοιάζουν», όσον αφορά τη χρήση του συστήματος, με κάποιο χρήστη. Πλεονέκτημα: δεν απαιτεί την ανάλυση του περιεχομένου των σελίδων. Πρόβλημα: δεν μπορεί να κατατάξει νέους χρήστες. Κύριες προσεγγίσεις: Μέθοδοι απομνημόνευσης (memory-based learning), Ομαδοποίηση (model-based clustering), Αποκάλυψη συσχετίσεων (item-based recommendation). Εξόρυξη από τον Παγκόσμιο Ιστό

120 © Georgios Paliouras120 Μέθοδος απομνημόνευσης ( k -nn): Κατασκεύασε ένα μοντέλο για κάθε χρήστη, με παραμέτρους τις προτιμήσεις του, π.χ. τους τύπους των άρθρων που συνήθως διαβάζει. Εντόπισε τους k κοντινότερους χρήστες, χρησιμοποιώντας απλές μετρικές απόστασης στον ίδιο χώρο, π.χ. ποσοστό κοινών προτιμήσεων. Πρότεινε στον χρήστη αντικείμενα (π.χ. άρθρα) που δεν έχει διαβάσει και τα οποία είναι δημοφιλή στην «γειτονιά» του. Εξόρυξη από τον Παγκόσμιο Ιστό

121 © Georgios Paliouras121 Finance news Sports news 01 1 Εξόρυξη από τον Παγκόσμιο Ιστό

122 © Georgios Paliouras122 Μέθοδος ομαδοποίησης: Κατασκεύασε ένα μοντέλο για κάθε χρήστη, με παραμέτρους τις προτιμήσεις του. Ομαδοποίησε τους χρήστες με οποιαδήποτε μέθοδο ομαδοποίησης. Πρότεινε στον χρήστη αντικείμενα (π.χ. άρθρα) που δεν έχει διαβάσει και τα οποία είναι δημοφιλή στην ομάδα του. Κάθε χρήστης μπορεί να ανήκει σε περισσότερες από μία ομάδες. Συνεπώς προτιμούνται μέθοδοι που επιτρέπουν επικαλύψεις μεταξύ των ομάδων. Εξόρυξη από τον Παγκόσμιο Ιστό

123 © Georgios Paliouras123 0,5 0,1 0,8 0,9 0,4 Εξόρυξη από τον Παγκόσμιο Ιστό

124 © Georgios Paliouras124 Υπάρχουν ακόμη πολλές ενδιαφέρουσες εφαρμογές εξόρυξης γνώσης από τον Παγκόσμιο Ιστό: Κατασκευή οντολογιών από δεδομένα. Εκμάθηση έξυπνων robot για τον εντοπισμό περιεχομένου συγκεκριμένου θέματος. Ατομικοί «πράκτορες» που βοηθούν στον εντοπισμό ενδιαφέροντος περιεχομένου. Αποκάλυψη συσχετίσεων για συνεργατικό φιλτράρισμα. Ενδιαφέρον είναι και ο συνδυασμός δεδομένων περιεχομένου και χρήσης. Υπάρχουν σημαντικά τεχνικά (π.χ. cache) και μη- τεχνικά (π.χ. σεβασμός ιδιωτικότητας) προβλήματα. Εξόρυξη από τον Παγκόσμιο Ιστό

125 © Georgios Paliouras125 Περιεχόμενα Εξόρυξη γνώσης (knowledge discovery) και μηχανική μάθηση (machine learning) Εκμάθηση ταξινομητών (learning classifiers) Ομαδοποίηση (clustering) Αποκάλυψη συσχετίσεων (association discovery) Εξόρυξη από τον Παγκόσμιο Ιστό (Web mining) Ανακεφαλαίωση

126 © Georgios Paliouras126 Η εξόρυξη γνώσης από δεδομένα, χρησιμοποιεί μεθόδους ανάλυσης δεδομένων, κυρίως μηχανικής μάθησης. Στόχος της μηχανικής μάθησης είναι η απόκτηση γνώσης από παραδείγματα για τη βελτίωση ενός πληροφοριακού συστήματος. Διάφορα είδη μάθησης και πολλές μέθοδοι για κάθε είδος: Εκμάθηση ταξινομητών (Naive Bayes, εκμάθηση δέντρων απόφασης, …) Ομαδοποίηση δειγμάτων ( k -μέσοι, COBWEB, γραφο- θεωρητικές μέθοδοι, …) Αποκάλυψη συσχετίσεων (Apriori, QLIQUES, …) Ανακεφαλαίωση

127 © Georgios Paliouras127 Η αναπαράσταση και η προεπεξεργασία των δεδομένων παίζουν μεγάλο ρόλο (π.χ. διακριτοποίηση και επιλογή χαρακτηριστικών, bag-of-features αναπαράσταση, …) Η αναπαράσταση της γνώσης (μοντέλο) και η μετ- επεξεργασία του είναι σημαντικά (π.χ. κλάδεμα δέντρου) Ο Παγκόσμιος Ιστός έχει ανάγκη από μεθόδους εξόρυξης γνώσης και παρουσιάζει πολλές προκλήσεις (τεχνικές και μη): Ταξινόμηση περιεχομένου. Εκμάθηση κανόνων εξαγωγής πληροφορίας. Αποκάλυψη προτύπων διασύνδεσης. Ομαδοποίηση χρηστών για εξατομίκευση. … Ανακεφαλαίωση

128 © Georgios Paliouras128 Βιβλιογραφία R. Agrawal, R. Srikant, Fast algorithms for mining association rules, Proc. 20th VLDB Conference, J. Borges and M. Levene, Data mining of user navigation patterns. Proceedings of Workshop on Web Usage Analysis and User Profiling (WEBKDD), in conjunction with ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. San Diego, CA., pp C. Borgelt, R. Kruse, Graphical Models: Methods for Data Analysis and Mining, John Wiley & Sons, C. J. C. Burges. A Tutorial on Support Vector Machines for Pattern Recognition. Knowledge Discovery and Data Mining, 2(2), S. Chakrabarti, M. H. van den Berg, B. E. Dom, Focused Crawling: a new approach to topic-specific Web resource discovery, Proceedings of the Eighth International World Wide Web Conference (WWW), Toronto, Canada, May M. Craven, D. DiPasquo, D. Freitag, A. McCallum, T. Mitchell, K. Nigam, S. Slattery, “Learning to construct knowledge bases from the World Wide Web”, Artificial Intelligence 118, 69–113, R. O. Duda, Peter E. Hart and David G. Stork, Pattern Classification, 2 nd eddition, John Wiley & Sons, J. Han, M. Kamber, Data Mining: Concepts and Techniques, Morgan Kaufmann, 2000.

129 © Georgios Paliouras129 Βιβλιογραφία D. J. Hand, H. Mannila, P. Smyth, Principles of Data Mining, MIT Press, M. I. Jordan, Learning in Graphical Models (Adaptive Computation and Machine Learning), MIT Press, T. Jörding, T, A Temporary User Modeling Approach for Adaptive Shopping on the Web`, In Proceedings of the 2nd Workshop on Adaptive Systems and User Modeling on the WWW, UM'99, Banff, Canada, J. Kleinberg. Authoritative sources in a hyperlinked environment. Journal of the ACM, v. 46, P. Langley, Elements of Machine Learning. Morgan Kaufmann, H. F. Laender, B. A. Ribeiro-Neto, A. S. da Silva, J. S. Teixeira, A Brief Survey of Web Data Extraction Tools, SIGMOD Record, Vol. 31, No. 2, June H. Lieberman, C. Fry and L. Weitzman. Exploring the Web with Reconnaissance Agents, Communications of the ACM, August 2001, pp Α. Maedche, S. Staab. Discovering Conceptual Relations from Text. In: W.Horn (ed.): ECAI Proceedings of the 14th European Conference on Artificial Intelligence (ECAI), Berlin, August 21-25, A. McCallum, D. Freitag and F. Pereira, Maximum Entropy Markov Models for Information Extraction and Segmentation, Proceedings of the International Conference on Machine Learning (ICML), Stanford, CA, 2000, pp

130 © Georgios Paliouras130 Βιβλιογραφία R. S. Michalski, A Theory & Methodology of Inductive Learning, in R S Michalski, J G Carbonell & T M Mitchell (Eds), Machine Learning: An Artificial Intelligence Approach - Vol 1, Morgan Kaufmann, , T. Mitchell, Machine Learning. McGraw-Hill, I. Muslea, S. Minton and C. Knoblock, STALKER: Learning extraction rules for semistructured Web-based information sources. Proceedings of the National Conference on Artificial Intelligence (AAAI), Madison, Wisconsin, K.-R. Müller, S. Mika, G. Rätsch, K. Tsuda, and B. Schölkopf. An introduction to kernel-based learning algorithms. IEEE Neural Networks, 12(2): , May C. Nédellec, Corpus-based learning of semantic relations by the ILP system, Asium, Learning Language in Logic, Cussens J. and Dzeroski S. (Eds.), Springer Verlag, September G. Paliouras, C. Papatheodorou, V. Karkaletsis and C.D. Spyropoulos, “Discovering User Communities on the Internet Using Unsupervised Machine Learning Techniques,” Interacting with Computers, v. 14, n. 6, pp , D. Pierrakos, G. Paliouras, C. Papatheodorou, C.D. Spyropoulos, Web Usage Mining as a Tool for Personalization: a survey, User Modelling and User-Adapted Interaction, v. 13, n. 4, pp , 2003.

131 © Georgios Paliouras131 Βιβλιογραφία J. R. Quinlan, C4.5: Programs for Machine Learning, Morgan Kaufmann, J. Rennie and A. McCallum. Efficient Web Spidering with Reinforcement Learning. Proceedings of the International Conference on Machine Learning (ICML), G. Sakkis, I. Androutsopoulos, G. Paliouras, V. Karkaletsis, C.D. Spyropoulos and P. Stamatopoulos, “A Memory-Based Approach to Anti-Spam Filtering for Mailing Lists,” Information Retrieval, v. 6, n. 1, pp , E. I. Schwartz. Webonomics. New York: Broadway books, E. Schwarzkopf, An adaptive Web site for the UM2001 conference. Proceedings of the Workshop on Machine Learning for User Modeling, in conjunction with the International Conference on User modelling (UM), pp 77-86, I. H. Witten, E. Frank, Data Mining: Practical Machine Learning Tools and Techniques with Java Implementations, Morgan Kaufmann, M. Zaki, S. Parthasarathy, M. Ogihara, and W. Li, New algorithms for fast discovery of association rules, 3rd Intl. Conf. On Knowlegde Discovery and Data Mining, August 1997.


Κατέβασμα ppt "1 Εξόρυξη Γνώσης από Δεδομένα Γεώργιος Παλιούρας Εργαστήριο Τεχνολογίας Γνώσεων & Λογισμικού Ινστιτούτο Πληροφορικής & Τηλεπικοινωνιών Ε.Κ.Ε.Φ.Ε. «Δημόκριτος»"

Παρόμοιες παρουσιάσεις


Διαφημίσεις Google