Η παρουσίαση φορτώνεται. Παρακαλείστε να περιμένετε

Η παρουσίαση φορτώνεται. Παρακαλείστε να περιμένετε

WEKA Εξόρυξη Δεδομένων και Αλγόριθμοι Μάθησης 4 ο Φροντιστήριο Παναγιώτης Αντωνέλλης Σκούρα Αγγελική

Παρόμοιες παρουσιάσεις


Παρουσίαση με θέμα: "WEKA Εξόρυξη Δεδομένων και Αλγόριθμοι Μάθησης 4 ο Φροντιστήριο Παναγιώτης Αντωνέλλης Σκούρα Αγγελική"— Μεταγράφημα παρουσίασης:

1 WEKA Εξόρυξη Δεδομένων και Αλγόριθμοι Μάθησης 4 ο Φροντιστήριο Παναγιώτης Αντωνέλλης Σκούρα Αγγελική

2 Μηχανική Μάθηση Η μηχανική μάθηση είναι μια περιοχή της τεχνητής νοημοσύνης η οποία αφορά αλγορίθμους και μεθόδους που επιτρέπουν στους Η/Υ να «μαθαίνουν». Σκοπός = η εξόρυξη δεδομένων Η μηχανική μάθηση επικαλύπτεται σημαντικά με τη στατιστική, αφού και τα δύο πεδία μελετούν την ανάλυση δεδομένων. Οι αλγόριθμοι μηχανικής μάθησης κατηγοριοποιούνται ως εξής: ▫ Επιβλεπόμενη μάθηση (supervised learning), όπου ο αλγόριθμος κατασκευάζει μια συνάρτηση που απεικονίζει δεδομένες εισόδους σε γνωστές, επιθυμητές εξόδους (σύνολο εκπαίδευσης), με απώτερο στόχο τη γενίκευση της συνάρτησης αυτής και για εισόδους με άγνωστη έξοδο (σύνολο ελέγχου). Επιβλεπόμενη μάθηση Π.χ. κατηγοριοποίηση ▫ Μη επιβλεπόμενη μάθηση (unsupervised learning), όπου ο αλγόριθμος κατασκευάζει ένα μοντέλο για κάποιο σύνολο εισόδων χωρίς να γνωρίζει επιθυμητές εξόδους για το σύνολο εκπαίδευσης. Μη επιβλεπόμενη μάθηση Π.χ. συσταδοποίηση Η ανάλυση των αλγόριθμων μηχανικής μάθησης είναι ένας κλάδος της στατιστικής που ονομάζεται θεωρία μάθησης.

3 Μηχανική Μάθηση Input Data Classifier ML e.g. Gene Expression Profiles, … Machine Learning Classification: Yes / No

4 Κατηγοριοποίηση Αποτελεί μια από τις βασικές εργασίες στην εξόρυξη δεδομένων Βασίζεται στην εξέταση των χαρακτηριστικών ενός αντικειμένου το όποιο, με βάση τα χαρακτηριστικά αυτά, αντιστοιχίζεται σε ένα προκαθορισμένο σύνολο κλάσεων Αλγόριθμος κατηγοριοποίησ ης Μετρική ομοιότητ ας Αναπαράσ ταση δένδρων

5 Κατηγοριοποίηση Η εργασία της κατηγοριοποίησης χαρακτηρίζεται από έναν καλά καθορισμένο ορισμό των κατηγοριών(κλάσεων) και το σύνολο που χρησιμοποιείται για την εκπαίδευση του μοντέλου αποτελείται από προκατηγοριοποιημένα παραδείγματα Η βασική εργασία είναι να δημιουργηθεί ένα μοντέλο το οποίο θα μπορούσε να εφαρμοστεί για να κατηγοριοποιήσει δεδομένα που δεν έχουν ακόμα κατηγοριοποιηθεί

6 Κατηγοριοποίηση Υπάρχει συνήθως περιορισμένος αριθμός κατηγοριών Χρησιμοποιούνται τεχνικές όπως: ▫Δέντρα Αποφάσεων (Decision Trees) ▫Νευρωνικά Δίκτυα (Neural Networks) ▫K-Πλησιέστερων Γειτόνων (k-Nearest Neighbors, k-NN) ▫Μηχανές Υποστήριξης Διανυσμάτων (Support Vector Machines, SVM) ▫Bayesian Μέθοδοι Στηρίζεται στην ιδέα της «εκπαίδευσης» με τη βοήθεια ενός υποσυνόλου δεδομένων (σύνολο εκπαίδευσης)

7 Πριν την κατηγοριοποίηση: Προεπεξεργασία δεδομένων Επιλογή των instances: ▫ Απομάκρυνε τα όμοια / ασυνεπή / ανολοκλήρωτα (π.χ. reduction of homologous genes, removal of wrongly annotated genes) Μετασχηματισμός/επιλογή των features: ▫ Feature selection techniques ▫ Projection techniques (e.g. principal components analysis) ▫ Compression techniques (e.g. minimum description length)

8 Πριν την κατηγοριοποίηση: Προεπεξεργασία δεδομένων Πλεονεκτήματα από την επιλογή των χαρακτηριστικών ▫Πετυχαίνουμε καλύτερα αποτελέσματα κατηγοριοποίησης χρησιμοποιώντας μικρά σύνολα από χαρακτηριστικά ▫ Λιγότερος θόρυβος στα δεδομένα Παρέχουμε πιο αποδοτικούς σε κόστος κατηγοριοποιητές ▫ Λιγότερα χαρακτηριστικά να λάβουμε υπόψη  smaller datasets  faster classifiers Αναγνώριση συσχετιζόμενων χαρακτηριστικών για ένα δοθέν πρόβλημα

9 Εκμάθηση του μοντέλου κατηγοριοποίησης Το μοντέλο κατασκευάζεται περιγράφοντας ένα προκαθορισμένο σύνολο από κατηγορίες δεδομένων Τα δεδομένα εκπαίδευσης αναλύονται από έναν αλγόριθμο κατηγοριοποίησης για να κατασκευάσουν στη συνέχεια το μοντέλο Τα στοιχεία αυτά επιλέγονται τυχαία από ένα πληθυσμό δεδομένων και ανήκουν σε μια από τις προκαθορισμένες κατηγορίες Η κατηγορία των δειγμάτων εκπαίδευσης είναι γνωστή και το βήμα αυτό λέγεται «εποπτευόμενη μάθηση»

10 Αξιολόγηση Κατηγοριοποίησης Χρησιμοποιούνται τα δοκιμαστικά δεδομένα για να υπολογίσουν την ακρίβεια του μοντέλου Αν η ακρίβεια είναι αποδεκτή το μοντέλο χρησιμοποιείται για κατηγοριοποίηση (classification) μελλοντικών δεδομένων των οποίων η κατηγορία (class) είναι άγνωστη

11 Δένδρα Απόφασης Χρήση της τεχνικής «διαίρει και βασίλευε» για διαίρεση του χώρου αναζήτησης σε υποσύνολα (ορθογώνιες περιοχές) ▫ Κάθε εσωτερικός κόμβος ονοματίζεται με το όνομα ενός χαρακτηριστικού ▫ Κάθε κλαδί/σύνδεση ονοματίζεται με ένα κατηγόρημα που μπορεί να εφαρμοστεί στο χαρακτηριστικό που αποτελεί το όνομα του κόμβου - πατέρα ▫ Κάθε φύλλο ονοματίζεται με το όνομα μιας κλάσης

12 Νευρωνικά Δίκτυα Οι νευρώνες είναι το δομικό στοιχείο του δικτύου. Υπάρχουν δύο είδη νευρώνων, οι νευρώνες εισόδου και οι υπολογιστικοί νευρώνες. ▫Οι νευρώνες εισόδου δεν υπολογίζουν τίποτα, μεσολαβούν ανάμεσα στις εισόδους του δικτύου και τους υπολογιστικούς νευρώνες. ▫Οι υπολογιστικοί νευρώνες πολλαπλασιάζουν τις εισόδους τους με τα συναπτικά βάρη και υπολογίζουν το άθροισμα του γινομένου. Το άθροισμα που προκύπτει είναι το όρισμα της συνάρτησης μεταφοράς. Συνάρτηση Μεταφοράς, η οποία μπορεί να είναι: ▫βηματική (step), ▫γραμμική (linear), ▫μη γραμμική (non-linear), ▫στοχαστική (stochastic).

13 K-nn Η τεχνική των κοντινότερων γειτόνων (Nearest Neighbor (NN)) είναι μια απλή προσέγγιση του προβλήματος της κατηγοριοποίησης. Ένα νέο στοιχείο κατηγοριοποιείται χρησιμοποιώντας την πλειοψηφία μεταξύ των κατηγοριών από k παραδείγματα που είναι τα πιο κοντινά σε αυτό που δίνεται για να κατηγοριοποιηθεί Μια τέτοια μέθοδος παράγει συνεχείς και επικαλυπτόμενες, παρά σταθερές γειτονιές. Κ=3

14 Κατηγοριοποίηση k-nn Bucketing Kd tree Περιορισμός με προβολή Περιορισμός με τριγωνική ανισότητα Επίσης είναι εφικτή η εφαρμογή του ΝΝ σε κείμενα Κατηγοριοποίηση Εύρεση ΝΝ

15 Εφαρμογές αναζήτησης ΝΝ Αναγνώριση προτύπων ▫computer aided diagnosis δηλ. υποστηρίζει τους γιατρούς στην αναγνώριση ευρημάτων ▫οπτική αναγνώριση χαρακτήρων Θεωρεία κωδικοποίησης ▫αποκωδικοποίηση ληφθέντων σημάτων Βάσεις δεδομένων που είναι context based ▫ανάκτηση δεδομένων Ηλεκτρονικό εμπόριο ▫contextual advertising Βιοπληροφορική ▫ταξινόμηση βιολογικών ακολουθιών σε ομάδες Spell checking ▫εφαρμογές όπως Microsoft Word Plagiarism detection ▫ανίχνευση αντιγραφής, ομοιότητας κειμένων

16 Αρχικός ΧώροςΝέος Χώρος Μηχανές Υποστήριξης Διανυσμάτων (SVM)

17 Χρησιμοποιούν ▫μια συνάρτηση πυρήνα  Π.χ. συνάρτηση πυρήνα ακτινωτής βάσης όπου s είναι τα διανύσματα υποστήριξης, z είναι τα διανύσματα γνωρισμάτων των αντικειμένων ελέγχου και γ παράμετρος που καθορίζει το μέγεθος του πυρήνα ▫το όριο απόφασης της κατηγοριοποίησης  Π.χ. ως όπου n s είναι το πλήθος των διανυσμάτων υποστήριξης s i, l i είναι οι ετικέτες των αντίστοιχων διανυσμάτων υποστήριξης, a, b παράμετροι που υπολογίζονται κατά τη διαδικασία εκμάθησης και Δ η τιμή κατωφλίου για την εξισορρόπηση των ρυθμών των ψευδώς θετικών και ψευδών αρνητικών.  Η εξίσωση αυτή ουσιαστικά δείχνει ότι οι δύο κατηγορίες δεδομένων μπορούν να διαχωριστούν από ένα υπερεπίπεδο

18 Μηχανές Υποστήριξης Διανυσμάτων (SVM) Οι Μηχανές Διανυσμάτων Υποστήριξης είναι μια μέθοδος μηχανικής μάθησης για δυαδικά προβλήματα ταξινόμησης. Προβάλλουν τα σημεία του συνόλου εκπαίδευσης σε έναν χώρο περισσοτέρων διαστάσεων και βρίσκουν το υπερεπίπεδο το οποίο διαχωρίζει βέλτιστα τα σημεία των δύο τάξεων. Τα άγνωστα σημεία ταξινομούνται σύμφωνα με την πλευρά του υπερεπίπεδου στην οποία βρίσκονται. Τα διανύσματα τα οποία ορίζουν το υπερεπίπεδο το οποίο χωρίζει τις δύο τάξεις ονομάζονται διανύσματα υποστήριξης (support vectors). Χαμηλό υπολογιστικό κόστος, ακόμη και στην περίπτωση μη γραμμικότητας

19 Εμφάνιση μεγάλου όγκου δεδομένων Παραδείγματα: Image processing Spam detection Text mining DNA micro-array data Protein data …

20 Εμφάνιση μεγάλου όγκου δεδομένων Η πολυπλοκότητα προκύπτει από: Πολλά instances (παραδείγματα) Instances με πολλαπλά χαρακτηριστικά (ιδιότητες/ χαρακτηριστικά) Εξαρτήσεις μεταξύ των χαρακτηριστικών (συσχετίσεις)

21 Βήματα του Data Analysis στον Explorer του WEKA Επιλογή class variable Επιλογή αλγόριθμου Ρυθμίσεις αλγορίθμου Ρυθμίσεις sampling Ρυθμίσεις output Ανάλυση του output

22 Μέθοδοι Κατηγοριοποίησης στο WEKA -Decision Trees -Hidden Markov Models (HMMs) -Support Vector Machines -Artificial Neural Networks -Bayesian methods -…

23 Δέντρα απόφασης Δοθέντος ενός συνόλου από instances (κάθε instance περιέχει ένα σύνολο χαρακτηριστικών), δημιουργείται ένα δέντρο με εσωτερικούς κόμβους τα χαρακτηριστικά και με φύλλα τις κλάσεις.

24 Παράδειγμα Instance Attributes / Features Class dayoutlooktemperaturehumiditywindyPlay Golf ? 1sunnyhothighFALSEno 2sunnyhothighTRUEno 3overcasthothighFALSEyes 4rainymildhighFALSEyes 5rainycoolnormalFALSEyes 6rainycoolnormalTRUEno 7overcastcoolnormalTRUEyes 8sunnymildhighFALSEno 9sunnycoolnormalFALSEyes 10rainymildnormalFALSEyes 11sunnymildnormalTRUEyes 12overcastmildhighTRUEyes 13overcasthotnormalFALSEyes 14rainymildhighTRUEno todaysunnycoolhighTRUE?

25 Παράδειγμα: δεδομένα WEKA data file (arff format) outlook {sunny, overcast, temperature {hot, mild, humidity {high, windy {TRUE, play {yes, sunny,hot,high,FALSE,no sunny,hot,high,TRUE,no overcast,hot,high,FALSE,yes rainy,mild,high,FALSE,yes rainy,cool,normal,FALSE,yes rainy,cool,normal,TRUE,no overcast,cool,normal,TRUE,yes sunny,mild,high,FALSE,no sunny,cool,normal,FALSE,yes rainy,mild,normal,FALSE,yes sunny,mild,normal,TRUE,yes overcast,mild,high,TRUE,yes overcast,hot,normal,FALSE,yes rainy,mild,high,TRUE,no Instance Independent features (attributes)Class DayOutlookTemperatureHumidityWindyPlay Golf? 1sunnyhothighFALSEno 2sunnyhothighTRUEno 3overcasthothighFALSEyes 4rainymildhighFALSEyes 5rainycoolnormalFALSEyes 6rainycoolnormalTRUEno 7overcastcoolnormalTRUEyes 8sunnymildhighFALSEno 9sunnycoolnormalFALSEyes 10rainymildnormalFALSEyes 11sunnymildnormalTRUEyes 12overcastmildhighTRUEyes 13overcasthotnormalFALSEyes 14rainymildhighTRUEno

26 Παράδειγμα: σύνθεση χαρακτηριστικών

27 Δέντρο απόφασης J48 pruned tree outlook = sunny | humidity = high: no (3.0) | humidity = normal: yes (2.0) outlook = overcast: yes (4.0) outlook = rainy | windy = TRUE: no (2.0) | windy = FALSE: yes (3.0) Number of Leaves : 5 Size of the tree : 8 Attribute Values Attributes / Features Classes

28 Πειράματα Αξιολόγησης Απόδοσης Σταυρωτή Επικύρωση (Cross-Validation ) 10 fold Data Training Set Test Set Performance Evaluation Classifier ML (9/10) (1/10) 10x

29 Αξιολόγηση και Μετρικές

30 Μετρικές Αξιολόγησης Accuracy The number of correctly classified instances/number of instances Precision The number of correctly classified instances of class X/number of instances classified as belonging to class X Recall The number of correctly classified instances of class X/number of instances in class X Roc καμπύλη (Roc Curve)

31 Μετρικές Αξιολόγησης

32 Ευχαριστώ για την προσοχή σας…


Κατέβασμα ppt "WEKA Εξόρυξη Δεδομένων και Αλγόριθμοι Μάθησης 4 ο Φροντιστήριο Παναγιώτης Αντωνέλλης Σκούρα Αγγελική"

Παρόμοιες παρουσιάσεις


Διαφημίσεις Google