Ανακάλυψη Κανόνων Συσχέτισης στο Σημασιολογικό Ιστό: Μια Επαγωγική Μέθοδος Ολυμπία Νίκου Α.Μ. Μ956 Διπλωματική Εργασία Επιβλέποντες: Ευστάθιος Χατζηευθυμιάδης Βασίλειος Παπαταξιάρχης Απρίλιος 2012
Δομή Παρουσίασης Εισαγωγή Ανάπτυξη Συστήματος Αξιολόγηση Συστήματος Συμπεράσματα
Οντολογία (1/2) Επίσημη, ακριβής περιγραφή μιας εννοιολογικής θεώρησης ενός φαινομένου (Formal, explicit specification of a shared conceptualization) Επίσημη: Κατανοητή από υπολογιστή Ακριβής: Έννοιες/Συσχετίσεις/Περιορισμοί ορίζονται ακριβώς Φαινόμενο: Αφηρημένο μοντέλο περιγραφής ενός πραγματικού φαινομένου Βασικός τρόπος αναπαράστασης γνώσης στο Σημασιολογικό Ιστό Web Ontology Language (OWL)
Οντολογία (2/2) Περιλαμβάνει: Εξαγωγή συμπερασμάτων: Κλάσεις Συσχετίσεις (Object Properties) Συσχετίσεις Χαρακτηριστικών (Datatype Properties) Εξαγωγή συμπερασμάτων: Έλεγχος συνέπειας (check consistency), ταξινόμηση (classification) Κανόνες (Rules)
Δεδομένα υψηλής αφαίρεσης/γενίκευσης Ανακάλυψη Γνώσης Χρονοβόρα διαδικασία εξαγωγής έγκυρης, άγνωστης, πιθανώς χρήσιμης και απόλυτα κατανοητής πληροφορίας για τα δεδομένα (Fayyad) Χρονοβόρα διαδικασία: Πολλαπλές διαδικασίες Έγκυρη: Αποδεδειγμένα μοντέλα/πρότυπα Άγνωστη: Προηγουμένως άγνωστη πληροφορία Χρήσιμη: Εξαγωγή συμπεράσματος ή ως είσοδος σε διαδικασίες Κατανοητή: Από άνθρωπο/υπολογιστή Γενικά πρότυπα Δεδομένα υψηλής αφαίρεσης/γενίκευσης Εκτέλεση Αλγορίθμου Εξόρυξης Δεδομένων Αρχικά Δεδομένα
Κίνητρα και Στόχοι Μη εφικτή η κλασική εφαρμογή της Ανακάλυψης Γνώσης στα δεδομένα του Σημασιολογικού Ιστού. Ανομοιογένεια, δυναμικότητα, σημασιολογικές συσχετίσεις Αλλαγή δεδομένων Σημασιολογικού Ιστού Αλλαγή χρήσιμων χαρακτηριστικών νέας γνώσης. Αλγόριθμοι Ανακάλυψης Γνώσης: Στατικοί και μη-επεκτάσιμοι Σημασιολογική ενοποίηση δεδομένων διαφορετικών πηγών Στόχοι Προσαρμογή διαδικασίας ανακάλυψης γνώσης στα δεδομένα του Σημασιολογικού Ιστού Αυτόματη παραγωγή νέας γνώσης από τα δεδομένα του ΣΙ.
Δομή Παρουσίασης Εισαγωγή Ανάπτυξη Συστήματος Αξιολόγηση Συστήματος Συμπεράσματα
Αρχιτεκτονική Συστήματος Βάση Γνώσης Μηχανή Συμπερασμού Οντολογία (OWL2) Ενημέρωση Οντολογίας Διεπαφή Συστήματος Μηχανή Παραγωγής Κανόνων Κανόνες SWRL
Διεπαφή Συστήματος Επιλογή Οντολογίας Επιλογή Διαδικασίας Συμπερασμού Καθορισμός Κριτηρίων Κανόνων: Υποστήριξη Εμπιστοσύνη Θόρυβος Μέγιστο πλήθος στοιχείων στο σώμα των κανόνων
Μηχανή Παραγωγής Κανόνων – Μετρικές Συστήματος (1/3) Βάση Γνώσης Female(?x), Person(?y) isDaughterOf(?x,?y) Υποστήριξη (Support) TBox Person, Female Person ABox Person(mary), Person(ann), Person(tom), Person(eve), Female(mary), Female(ann), Female(eve), isDaughterOf(mary, ann), isDaughterOf(eve, tom) Head Body (mary,ann) (eve,tom) Εκφράζει τη βαρύτητα του κανόνα S = 2/2 = 1
Μηχανή Παραγωγής Κανόνων – Μετρικές Συστήματος (2/3) Female(?x), Person(?y) isDaughterOf(?x,?y) Εμπιστοσύνη (Confidence) Body Head (ann,ann) (ann, mary) (ann,tom) (ann,eve) (mary,ann) (mary, mary) (mary,tom) (mary,eve) (eve,ann) (eve,mary) (eve,tom) (eve,eve) (mary,ann) (eve,tom) C = 2/12 = 0.17 Δηλώνει πόσο ισχυρός είναι ο κανόνας
Μηχανή Παραγωγής Κανόνων – Μετρικές Συστήματος (3/3) Θόρυβος Καθορίζει το μέγιστο επιτρεπτό πλήθος στιγμιοτύπων κεφαλής που δεν καλύπτονται από τον κανόνα Η τιμή του καθορίζεται από την ορθότητα της βάσης γνώσης. Προκαθορισμένη τιμή θορύβου = 0%
Μηχανή Παραγωγής Κανόνων – Αλγόριθμος Συνδυασμός Κατά Πλάτος & Κατά Βάθος Αναζήτηση Πρώτο Επίπεδο: Κατά Πλάτος Υψηλότερα Επίπεδα: Κατά Βάθος (+) Σωστή διαχείριση πόρων συστήματος (-) Εκθετικός χρόνος αναζήτησης όλων των λύσεων Περικοπή χώρου αναζήτησης: Τιμή Υποστήριξης & Θορύβου Πλήθος στοιχείων στο σώμα του κανόνα Όχι unsafe κανόνες Person(?x) hasChild(?x,?y)
SWRL Κανόνες Χρήσιμοι Κανόνες Περιττοί Κανόνες C(%) Κανόνας 27 11 EconomicsModule(?x) ^ Staff(?y) -> teaches(?y,?x) 57 9 ComputerScienceModule(?x) ^ Person(?y) -> isTaughtBy(?x,?y) 100 Module(?x) -> MathsModule(?x) Μόνο μετά τη διαδικασία συμπερασμού Περιττοί Κανόνες S(%) C(%) Κανόνας 27 11 AcademicStaff(?y) ^ EconomicsModule(?x) -> teaches(?y,?x) 57 9 ComputerScienceModule(?x) ^ Person(?y) -> teaches(?y,?x) 100 MathsModule(?x) -> Module(?x)
Λειτουργικότητα Συστήματος Προτιμήσεις Χρήστη Αρχική Οντολογία ΝΑΙ Συμπερασμός? Διαδικασία Συμπερασμού Χρήσιμοι Κανόνες Παραγωγή Κανόνων Περιττοί Κανόνες Ενημέρωση Βάσης Γνώσης Οντολογία Οντολογία μετά από Reasoning Συνεπής? SWRL Κανόνες
Δομή Παρουσίασης Εισαγωγή Ανάπτυξη Συστήματος Αξιολόγηση Συστήματος Συμπεράσματα
Αξιολόγηση Επιδόσεων (1/5) Μετρικές Συστήματος Ελάχιστη Τιμή Υποστήριξης (Support Threshold) = 100% Ελάχιστη Τιμή Εμπιστοσύνης (Confidence Threshold) = 100% Μέγιστη Επιτρεπτή Τιμή Θορύβου (Noise Threshold) = 5% Μέγιστο πλήθος στοιχείων σώματος κανόνα = 5
Αξιολόγηση Επιδόσεων (2/5) Οντολογία Μοντελοποίησης Μαθημάτων – Ιεραρχία εννοιών οντολογίας
Αξιολόγηση Επιδόσεων (3/5) SWRL Κανόνες χωρίς διαδικασία συμπερασμού S (%) C (%) Κανόνας 100 AcademicStaff(?x) ^ Module(?y) ^ teaches(?x,?y) -> isTaughtBy(?y,?x) isTaughtBy(?x,?y) -> teaches(?y,?x) isTaughtBy(?x,?y) -> AcademicStaff(?y) Σύνολο Κανόνων: 3 Χρόνος Απόκρισης: 188 ms
Αξιολόγηση Επιδόσεων (4/5) SWRL Κανόνες μετά τη διαδικασία συμπερασμού S(%) C(%) Κανόνας 100 AcademicStaff(?x) ^ Module(?y) ^ teaches(?x,?y) -> isTaughtBy(?y,?x) isTaughtBy(?x,?y) -> teaches(?y,?x) isTaughtBy(?x,?y) -> AcademicStaff(?y) isTaughtBy(?x,?y) -> Module(?x) isTaughtBy(?x,?y) -> Staff(?y) Student(?x) -> UndergraduateStudent(?x) Staff(?x) -> AcademicStaff(?x)
Αξιολόγηση Επιδόσεων (5/5) SWRL Περιττοί Κανόνες μετά τη διαδικασία συμπερασμού S(%) C(%) Κανόνας 100 UndergraduateStudent(?x) -> Student(?x) AcademicStaff(?x) -> Staff(?x) Σύνολο Κανόνων = 7 Σύνολο Περιττών Κανόνων = 2 Χρόνος Απόκρισης = 750 ms
Rules Discovery vs ILP Systems Σύστημα Πλήθος Κανόνων FOIL 4 GOLEM 6 PROGOL 8 ALEPH 7 Rules Discovery 47 Μετατροπή οντολογίας σε κατάλληλη μορφή για κάθε ILP Σύστημα Παραγωγή unsafe κανόνων Δημιουργία πάντα αληθών κανόνων Εμφάνιση παραδειγμάτων της Βάσης Γνώσης ως κανόνες
Δομή Παρουσίασης Εισαγωγή Ανάπτυξη Συστήματος Αξιολόγηση Συστήματος Συμπεράσματα
Συμπεράσματα Εφαρμογή μεθοδολογιών ανακάλυψης γνώσης στο Σημασιολογικό Ιστό. Δημιουργία κανόνων συσχέτισης από οντολογία. Παραγωγή νέας γνώσης σε μορφή SWRL κανόνων. Δυνατότητα ενημέρωσης της βάσης γνώσης Δυνατότητα ικανοποίησης κριτηρίων (υποστήριξη, εμπιστοσύνη) από τους κανόνες
Ανοικτά Θέματα Εφαρμογή μεθόδου σε πραγματικές εφαρμογές Ορισμός μέγιστου χρόνου εκτέλεσης διαδικασίας Ορισμός συγκεκριμένου πλήθους κανόνων Εφαρμογή μεθόδου σε υποσύνολο της οντολογίας Τμηματοποιημένη μεταφορά οντολογίας στη μνήμη
Ευχαριστώ πολύ για το χρόνο σας!!!