Η παρουσίαση φορτώνεται. Παρακαλείστε να περιμένετε

Η παρουσίαση φορτώνεται. Παρακαλείστε να περιμένετε

Εξόρυξη Δεδομένων και Αλγόριθμοι Μάθησης

Παρόμοιες παρουσιάσεις


Παρουσίαση με θέμα: "Εξόρυξη Δεδομένων και Αλγόριθμοι Μάθησης"— Μεταγράφημα παρουσίασης:

1 Εξόρυξη Δεδομένων και Αλγόριθμοι Μάθησης
WEKA Εξόρυξη Δεδομένων και Αλγόριθμοι Μάθησης 4ο Φροντιστήριο Παναγιώτης Αντωνέλλης Σκούρα Αγγελική

2 Μηχανική Μάθηση Η μηχανική μάθηση είναι μια περιοχή της τεχνητής νοημοσύνης η οποία αφορά αλγορίθμους και μεθόδους που επιτρέπουν στους Η/Υ να «μαθαίνουν». Σκοπός = η εξόρυξη δεδομένων Η μηχανική μάθηση επικαλύπτεται σημαντικά με τη στατιστική, αφού και τα δύο πεδία μελετούν την ανάλυση δεδομένων. Οι αλγόριθμοι μηχανικής μάθησης κατηγοριοποιούνται ως εξής: Επιβλεπόμενη μάθηση (supervised learning), όπου ο αλγόριθμος κατασκευάζει μια συνάρτηση που απεικονίζει δεδομένες εισόδους σε γνωστές, επιθυμητές εξόδους (σύνολο εκπαίδευσης), με απώτερο στόχο τη γενίκευση της συνάρτησης αυτής και για εισόδους με άγνωστη έξοδο (σύνολο ελέγχου). Π.χ. κατηγοριοποίηση Μη επιβλεπόμενη μάθηση (unsupervised learning), όπου ο αλγόριθμος κατασκευάζει ένα μοντέλο για κάποιο σύνολο εισόδων χωρίς να γνωρίζει επιθυμητές εξόδους για το σύνολο εκπαίδευσης. Π.χ. συσταδοποίηση Η ανάλυση των αλγόριθμων μηχανικής μάθησης είναι ένας κλάδος της στατιστικής που ονομάζεται θεωρία μάθησης.

3 Μηχανική Μάθηση Input Data Classifier ML
e.g. Gene Expression Profiles, … Machine Learning Classification: Yes / No

4 Αλγόριθμος κατηγοριοποίησης
Κατηγοριοποίηση Αποτελεί μια από τις βασικές εργασίες στην εξόρυξη δεδομένων Βασίζεται στην εξέταση των χαρακτηριστικών ενός αντικειμένου το όποιο, με βάση τα χαρακτηριστικά αυτά, αντιστοιχίζεται σε ένα προκαθορισμένο σύνολο κλάσεων Αλγόριθμος κατηγοριοποίησης Μετρική ομοιότητας Αναπαράσταση δένδρων

5 Κατηγοριοποίηση Η εργασία της κατηγοριοποίησης χαρακτηρίζεται από έναν καλά καθορισμένο ορισμό των κατηγοριών(κλάσεων) και το σύνολο που χρησιμοποιείται για την εκπαίδευση του μοντέλου αποτελείται από προκατηγοριοποιημένα παραδείγματα Η βασική εργασία είναι να δημιουργηθεί ένα μοντέλο το οποίο θα μπορούσε να εφαρμοστεί για να κατηγοριοποιήσει δεδομένα που δεν έχουν ακόμα κατηγοριοποιηθεί

6 Κατηγοριοποίηση Υπάρχει συνήθως περιορισμένος αριθμός κατηγοριών
Χρησιμοποιούνται τεχνικές όπως: Δέντρα Αποφάσεων (Decision Trees) Νευρωνικά Δίκτυα (Neural Networks) K-Πλησιέστερων Γειτόνων (k-Nearest Neighbors, k-NN) Μηχανές Υποστήριξης Διανυσμάτων (Support Vector Machines, SVM) Bayesian Μέθοδοι Στηρίζεται στην ιδέα της «εκπαίδευσης» με τη βοήθεια ενός υποσυνόλου δεδομένων (σύνολο εκπαίδευσης)

7 Πριν την κατηγοριοποίηση: Προεπεξεργασία δεδομένων
Επιλογή των instances: Απομάκρυνε τα όμοια / ασυνεπή / ανολοκλήρωτα (π.χ. reduction of homologous genes, removal of wrongly annotated genes) Μετασχηματισμός/επιλογή των features: Feature selection techniques Projection techniques (e.g. principal components analysis) Compression techniques (e.g. minimum description length)

8 Πριν την κατηγοριοποίηση: Προεπεξεργασία δεδομένων
Πλεονεκτήματα από την επιλογή των χαρακτηριστικών Πετυχαίνουμε καλύτερα αποτελέσματα κατηγοριοποίησης χρησιμοποιώντας μικρά σύνολα από χαρακτηριστικά Λιγότερος θόρυβος στα δεδομένα Παρέχουμε πιο αποδοτικούς σε κόστος κατηγοριοποιητές Λιγότερα χαρακτηριστικά να λάβουμε υπόψη smaller datasets faster classifiers Αναγνώριση συσχετιζόμενων χαρακτηριστικών για ένα δοθέν πρόβλημα

9 Εκμάθηση του μοντέλου κατηγοριοποίησης
Το μοντέλο κατασκευάζεται περιγράφοντας ένα προκαθορισμένο σύνολο από κατηγορίες δεδομένων Τα δεδομένα εκπαίδευσης αναλύονται από έναν αλγόριθμο κατηγοριοποίησης για να κατασκευάσουν στη συνέχεια το μοντέλο Τα στοιχεία αυτά επιλέγονται τυχαία από ένα πληθυσμό δεδομένων και ανήκουν σε μια από τις προκαθορισμένες κατηγορίες Η κατηγορία των δειγμάτων εκπαίδευσης είναι γνωστή και το βήμα αυτό λέγεται «εποπτευόμενη μάθηση»

10 Αξιολόγηση Κατηγοριοποίησης
Χρησιμοποιούνται τα δοκιμαστικά δεδομένα για να υπολογίσουν την ακρίβεια του μοντέλου Αν η ακρίβεια είναι αποδεκτή το μοντέλο χρησιμοποιείται για κατηγοριοποίηση (classification) μελλοντικών δεδομένων των οποίων η κατηγορία (class) είναι άγνωστη

11 Δένδρα Απόφασης Χρήση της τεχνικής «διαίρει και βασίλευε» για διαίρεση του χώρου αναζήτησης σε υποσύνολα (ορθογώνιες περιοχές) Κάθε εσωτερικός κόμβος ονοματίζεται με το όνομα ενός χαρακτηριστικού Κάθε κλαδί/σύνδεση ονοματίζεται με ένα κατηγόρημα που μπορεί να εφαρμοστεί στο χαρακτηριστικό που αποτελεί το όνομα του κόμβου - πατέρα Κάθε φύλλο ονοματίζεται με το όνομα μιας κλάσης

12 Νευρωνικά Δίκτυα Συνάρτηση Μεταφοράς, η οποία μπορεί να είναι:
Οι νευρώνες είναι το δομικό στοιχείο του δικτύου. Υπάρχουν δύο είδη νευρώνων, οι νευρώνες εισόδου και οι υπολογιστικοί νευρώνες. Οι νευρώνες εισόδου δεν υπολογίζουν τίποτα, μεσολαβούν ανάμεσα στις εισόδους του δικτύου και τους υπολογιστικούς νευρώνες. Οι υπολογιστικοί νευρώνες πολλαπλασιάζουν τις εισόδους τους με τα συναπτικά βάρη και υπολογίζουν το άθροισμα του γινομένου. Το άθροισμα που προκύπτει είναι το όρισμα της συνάρτησης μεταφοράς. Συνάρτηση Μεταφοράς, η οποία μπορεί να είναι: βηματική (step), γραμμική (linear), μη γραμμική (non-linear), στοχαστική (stochastic).

13 K-nn Η τεχνική των κοντινότερων γειτόνων (Nearest Neighbor (NN)) είναι μια απλή προσέγγιση του προβλήματος της κατηγοριοποίησης. Ένα νέο στοιχείο κατηγοριοποιείται χρησιμοποιώντας την πλειοψηφία μεταξύ των κατηγοριών από k παραδείγματα που είναι τα πιο κοντινά σε αυτό που δίνεται για να κατηγοριοποιηθεί Μια τέτοια μέθοδος παράγει συνεχείς και επικαλυπτόμενες, παρά σταθερές γειτονιές. Κ=3

14 Κατηγοριοποίηση k-nn Επίσης είναι εφικτή η εφαρμογή του ΝΝ σε κείμενα
Εύρεση ΝΝ Bucketing Kd tree Περιορισμός με προβολή Περιορισμός με τριγωνική ανισότητα Επίσης είναι εφικτή η εφαρμογή του ΝΝ σε κείμενα

15 Εφαρμογές αναζήτησης ΝΝ
Αναγνώριση προτύπων computer aided diagnosis δηλ. υποστηρίζει τους γιατρούς στην αναγνώριση ευρημάτων οπτική αναγνώριση χαρακτήρων Θεωρεία κωδικοποίησης αποκωδικοποίηση ληφθέντων σημάτων Βάσεις δεδομένων που είναι context based ανάκτηση δεδομένων Ηλεκτρονικό εμπόριο contextual advertising Βιοπληροφορική ταξινόμηση βιολογικών ακολουθιών σε ομάδες Spell checking εφαρμογές όπως Microsoft Word Plagiarism detection ανίχνευση αντιγραφής, ομοιότητας κειμένων

16 Μηχανές Υποστήριξης Διανυσμάτων (SVM)
Αρχικός Χώρος Νέος Χώρος

17 Μηχανές Υποστήριξης Διανυσμάτων (SVM)
Χρησιμοποιούν μια συνάρτηση πυρήνα Π.χ. συνάρτηση πυρήνα ακτινωτής βάσης όπου s είναι τα διανύσματα υποστήριξης, z είναι τα διανύσματα γνωρισμάτων των αντικειμένων ελέγχου και γ παράμετρος που καθορίζει το μέγεθος του πυρήνα το όριο απόφασης της κατηγοριοποίησης Π.χ. ως όπου ns είναι το πλήθος των διανυσμάτων υποστήριξης si, li είναι οι ετικέτες των αντίστοιχων διανυσμάτων υποστήριξης, a, b παράμετροι που υπολογίζονται κατά τη διαδικασία εκμάθησης και Δ η τιμή κατωφλίου για την εξισορρόπηση των ρυθμών των ψευδώς θετικών και ψευδών αρνητικών. Η εξίσωση αυτή ουσιαστικά δείχνει ότι οι δύο κατηγορίες δεδομένων μπορούν να διαχωριστούν από ένα υπερεπίπεδο

18 Μηχανές Υποστήριξης Διανυσμάτων (SVM)
Οι Μηχανές Διανυσμάτων Υποστήριξης είναι μια μέθοδος μηχανικής μάθησης για δυαδικά προβλήματα ταξινόμησης. Προβάλλουν τα σημεία του συνόλου εκπαίδευσης σε έναν χώρο περισσοτέρων διαστάσεων και βρίσκουν το υπερεπίπεδο το οποίο διαχωρίζει βέλτιστα τα σημεία των δύο τάξεων. Τα άγνωστα σημεία ταξινομούνται σύμφωνα με την πλευρά του υπερεπίπεδου στην οποία βρίσκονται. Τα διανύσματα τα οποία ορίζουν το υπερεπίπεδο το οποίο χωρίζει τις δύο τάξεις ονομάζονται διανύσματα υποστήριξης (support vectors). Χαμηλό υπολογιστικό κόστος, ακόμη και στην περίπτωση μη γραμμικότητας

19 Εμφάνιση μεγάλου όγκου δεδομένων
Παραδείγματα: Image processing Spam detection Text mining DNA micro-array data Protein data

20 Εμφάνιση μεγάλου όγκου δεδομένων
Η πολυπλοκότητα προκύπτει από: Πολλά instances (παραδείγματα) Instances με πολλαπλά χαρακτηριστικά (ιδιότητες/ χαρακτηριστικά) Εξαρτήσεις μεταξύ των χαρακτηριστικών (συσχετίσεις)

21 Βήματα του Data Analysis στον Explorer του WEKA
Επιλογή class variable Επιλογή αλγόριθμου Ρυθμίσεις αλγορίθμου Ρυθμίσεις sampling Ρυθμίσεις output Ανάλυση του output

22 Μέθοδοι Κατηγοριοποίησης στο WEKA
Decision Trees Hidden Markov Models (HMMs) Support Vector Machines Artificial Neural Networks Bayesian methods

23 Δέντρα απόφασης Δοθέντος ενός συνόλου από instances (κάθε instance περιέχει ένα σύνολο χαρακτηριστικών), δημιουργείται ένα δέντρο με εσωτερικούς κόμβους τα χαρακτηριστικά και με φύλλα τις κλάσεις.

24 Παράδειγμα Instance Attributes / Features Class day outlook
Class day outlook temperature humidity windy Play Golf ? 1 sunny hot high FALSE no 2 TRUE 3 overcast yes 4 rainy mild 5 cool normal 6 7 8 9 10 11 12 13 14 today ?

25 Παράδειγμα: δεδομένα Independent features (attributes) Class
Instance Independent features (attributes) Class Day Outlook Temperature Humidity Windy Play Golf? 1 sunny hot high FALSE no 2 TRUE 3 overcast yes 4 rainy mild 5 cool normal 6 7 8 9 10 11 12 13 14 WEKA data file (arff format) : @relation weather.symbolic @attribute outlook {sunny, overcast, rainy} @attribute temperature {hot, mild, cool} @attribute humidity {high, normal} @attribute windy {TRUE, FALSE} @attribute play {yes, no} @data sunny,hot,high,FALSE,no sunny,hot,high,TRUE,no overcast,hot,high,FALSE,yes rainy,mild,high,FALSE,yes rainy,cool,normal,FALSE,yes rainy,cool,normal,TRUE,no overcast,cool,normal,TRUE,yes sunny,mild,high,FALSE,no sunny,cool,normal,FALSE,yes rainy,mild,normal,FALSE,yes sunny,mild,normal,TRUE,yes overcast,mild,high,TRUE,yes overcast,hot,normal,FALSE,yes rainy,mild,high,TRUE,no

26 Παράδειγμα: σύνθεση χαρακτηριστικών

27 Δέντρο απόφασης Attributes / Features Attribute Values Classes
J48 pruned tree outlook = sunny | humidity = high: no (3.0) | humidity = normal: yes (2.0) outlook = overcast: yes (4.0) outlook = rainy | windy = TRUE: no (2.0) | windy = FALSE: yes (3.0) Number of Leaves : 5 Size of the tree : 8 Attributes / Features Classes Attribute Values

28 Πειράματα Αξιολόγησης Απόδοσης
Πειράματα Αξιολόγησης Απόδοσης Data (9/10) Training Set Test Set (1/10) 10x Σταυρωτή Επικύρωση (Cross-Validation ) 10 fold ML Classifier Performance Evaluation

29 Αξιολόγηση και Μετρικές

30 Μετρικές Αξιολόγησης Accuracy Precision Recall Roc καμπύλη (Roc Curve)
The number of correctly classified instances/number of instances Precision The number of correctly classified instances of class X/number of instances classified as belonging to class X Recall The number of correctly classified instances of class X/number of instances in class X Roc καμπύλη (Roc Curve)

31 Μετρικές Αξιολόγησης

32 Ευχαριστώ για την προσοχή σας…


Κατέβασμα ppt "Εξόρυξη Δεδομένων και Αλγόριθμοι Μάθησης"

Παρόμοιες παρουσιάσεις


Διαφημίσεις Google