Κατέβασμα παρουσίασης
Η παρουσίαση φορτώνεται. Παρακαλείστε να περιμένετε
ΔημοσίευσεΠοδαργη Βαρνακιώτης Τροποποιήθηκε πριν 6 χρόνια
1
Βασικές Μέθοδοι Μηχανικής Μάθησης και Εξόρυξης Δεδομένων
ΔΠΜΣ Πληροφορική Επιστημών Ζωής Ακαδ. Έτος 2013 – 2014 2ο Φροντιστήριο:
2
Περίληψη 1ου μαθήματος Δεδομένα Βιοπληροφορικής Προεπεξεργασία
Βασικές Μέθοδοι Μηχανικής Μάθησης και Εξόρυξης Δεδομένων Περίληψη 1ου μαθήματος Experimental data Δεδομένα Βιοπληροφορικής Εισαγωγή στο MATLAB Προεπεξεργασία Κανονικοποίηση Ανάλυση Δεδομένων Ομαδοποίηση K-means clustering Ταξινόμηση K- Nearest Neighbor Σύνοψη Preprocessing Higher level analysis Clustering Classification Knowledge Βασικές Μέθοδοι Μηχανικής Μάθησης και Εξόρυξης Δεδομένων
3
Βασικές Μέθοδοι Μηχανικής Μάθησης και Εξόρυξης Δεδομένων
k - Nearest Neighbors Ένα σημείο ταξινομείται σε μια ομάδα με βάση την ομάδα στην οποία ανήκει η πλειοψηφία από τα k πλησιέστερα σημεία Η απόσταση υπολογίζεται μέσω μιας από τις γνωστές μετρικές Το k επιλέγεται τυχαία ή με χρήση ευρετικών τεχνικών
4
Βασικές Μέθοδοι Μηχανικής Μάθησης και Εξόρυξης Δεδομένων
Παράδειγμα load fisheriris x = meas(:,3:4); gscatter(x(:,1),x(:,2),species) set(legend, 'location', 'best') np = [5 1.45]; %introduce new point hold on plot(np(1),np(2),'kx','markersize',10,'linewidth',2) %find 10 nearest points [n,d] = knnsearch(x,np,'k',10) plot(x(n,1),x(n,2),'ko','markersize',10) tabulate(species(n)) %frequency table
5
Descriptive statistics
Βασικές Μέθοδοι Μηχανικής Μάθησης και Εξόρυξης Δεδομένων Descriptive statistics Πως θα απεικονίσω γραφικά τα δεδομένα, έτσι ώστε να βγάλω συμπεράσματα; Παράδειγμα 1: load fisheriris boxplot(meas) %boxplots of all columns in data boxplot([meas(1:50,3) meas(51:100,3)],'labels',{'versicolor','virginica'}) %boxplot of column 3 in both categories
6
Descriptive statistics
Βασικές Μέθοδοι Μηχανικής Μάθησης και Εξόρυξης Δεδομένων Descriptive statistics Παράδειγμα 2: %scatterplots of columns 1 and 2 (x axis) versus 3 and 4 (y axis), grouped by color gplotmatrix(meas(:,1:2),meas(:,3:4),species) %scatterplots of columns 2,3 and their histograms scatterhist(meas(:,2),meas(:,3)) Column 3 Column 3 Column 4 Column 2 Column 1 Column 2
7
Βασικές Μέθοδοι Μηχανικής Μάθησης και Εξόρυξης Δεδομένων
Decision Trees Κατασκευάζεται πάνω σε δεδομένα εκπαίδευσης Κόμβος: έλεγχος γνωρισμάτων Φύλλο: πιθανή κατηγορία Μονοπάτι: κανόνας ταξινόμησης Classification – Regression trees
8
Βασικές Μέθοδοι Μηχανικής Μάθησης και Εξόρυξης Δεδομένων
Decision Trees Παράδειγμα: t = classregtree(meas,species,'names',{'SL' 'SW' 'PL' 'PW'}) Decision tree for classification 1 if PL<2.45 then node 2 elseif PL>=2.45 then node 3 else setosa 2 class = setosa 3 if PW<1.75 then node 4 elseif PW>=1.75 then node 5 else versicolor 4 if PL<4.95 then node 6 elseif PL>=4.95 then node 7 else versicolor 5 class = virginica 6 if PW<1.65 then node 8 elseif PW>=1.65 then node 9 else versicolor 7 class = virginica 8 class = versicolor 9 class = virginica
9
Βασικές Μέθοδοι Μηχανικής Μάθησης και Εξόρυξης Δεδομένων
Decision Trees Πως θα «δω» το δέντρο που κατασκευάστηκε; view(t)
10
Βασικές Μέθοδοι Μηχανικής Μάθησης και Εξόρυξης Δεδομένων
Decision Trees Ταξινόμηση μελλοντικού δείγματος ns=[ ] t(ns)
11
Support Vector Machines (SVMs)
Βασικές Μέθοδοι Μηχανικής Μάθησης και Εξόρυξης Δεδομένων Support Vector Machines (SVMs) Τα SVM είναι ένας δυαδικός ταξινομητής, που προσπαθεί να διαχωρίσει τα δεδομένα σε δύο κλάσεις Ο τρόπος που προσπαθεί να το κάνει είναι μέσω της εύρεσης ενός βέλτιστου υπερεπιπέδου διαχωρισμού των κλάσεων Το υπερεπίπεδο (hyperplane) είναι μια Ν-διάστατη αναλογία της γραμμής, ή του επιπέδου, που διαχωρίζει τον (Ν+1) – διάστατο χώρο στα δύο
12
Βασικές Μέθοδοι Μηχανικής Μάθησης και Εξόρυξης Δεδομένων
Hyperplane
13
Maximum Margin Hyperplane
Βασικές Μέθοδοι Μηχανικής Μάθησης και Εξόρυξης Δεδομένων Maximum Margin Hyperplane Margin: άθροισμα των αποστάσεων από το υπερεπίπεδο στα κοντινότερα θετικά και αρνητικά σωστά ταξινομημένα δείγματα Βέλτιστο υπερεπίπεδο: μέγιστη απόσταση του υπερεπιπέδου από το κοντινότερο σημείο εκπαίδευσης Όσο μεγαλύτερο το margin τόσο πιο σαφής ο διαχωρισμός
14
Βασικές Μέθοδοι Μηχανικής Μάθησης και Εξόρυξης Δεδομένων
Αλγόριθμος class +1 Όπου: Πρέπει να διαλέξουμε τα w, b ώστε να μεγιστοποιούμε το margin Για γραμμικά διαχωρίσιμα δεδομένα, ανάγεται σε πρόβλημα βελτιστοποίησης υπό περιορισμούς (constrained optimization) Μπορεί να επιλυθεί χρησιμοποιώντας πολλαπλασιαστές Lagrange class -1
15
Βασικές Μέθοδοι Μηχανικής Μάθησης και Εξόρυξης Δεδομένων
Support Vectors Βασικές Μέθοδοι Μηχανικής Μάθησης και Εξόρυξης Δεδομένων Support Vectors: τα στοιχεία που ορίζουν τα παράλληλα hyperplanes
16
Μη γραμμική ταξινόμηση
Βασικές Μέθοδοι Μηχανικής Μάθησης και Εξόρυξης Δεδομένων Μη γραμμική ταξινόμηση Πως γενικεύουμε για μη γραμμικά διαχωρίσιμα δεδομένα? Kernel Trick: χρήση γραμμικού ταξινομητή για μη γραμμικά διαχωρίσιμα δεδομένα Χαρτογράφηση δεδομένων σε ένα χώρο υψηλότερων διαστάσεων όπου ο γραμμικός διαχωρισμός τους είναι δυνατός Αντί για εσωτερικά γινόμενα υπολογίζουμε κάποια Kernel Function
17
Βασικές Μέθοδοι Μηχανικής Μάθησης και Εξόρυξης Δεδομένων
Θεώρημα του Cover A complex pattern-classification problem, cast in a high-dimensional space nonlinearly, is more likely to be linearly separable than in a low-dimensional space, provided that the space is not densely populated. Mapping of data
18
Μεταφορά από input space σε feature space
Βασικές Μέθοδοι Μηχανικής Μάθησης και Εξόρυξης Δεδομένων Μεταφορά από input space σε feature space
19
Βασικές Μέθοδοι Μηχανικής Μάθησης και Εξόρυξης Δεδομένων
Kernel Functions Γραμμική Συνάρτηση: Πολυωνυμική Συνάρτηση: Radial Basis Function (RBF):
20
Βασικές Μέθοδοι Μηχανικής Μάθησης και Εξόρυξης Δεδομένων
Training Errors Στις περιπτώσεις λάθους ταξινόμησης, καθορίζουμε ένα penalty of error: η απόσταση ανάμεσα στο σημείο που ταξινομήθηκε λάθος και το υπερεπίπεδο, πολλαπλασιασμένη με ένα κόστος λάθους C soft margin: επιτρέπει σε μερικά παραδείγματα εκπαίδευσης να πέφτουν στην λάθος πλευρά του διαχωριστικού υπερεπιπέδου. πρέπει να καθορίσουμε επιπλέον το magnitude of penalty που θα εφαρμοστεί αν παραβιαστεί το περιθώριο αυτό.
21
Overfitting vs. Underfitting
Βασικές Μέθοδοι Μηχανικής Μάθησης και Εξόρυξης Δεδομένων Overfitting vs. Underfitting
22
Multiclass Classification
Βασικές Μέθοδοι Μηχανικής Μάθησης και Εξόρυξης Δεδομένων Multiclass Classification ONE-versus-ALL ONE-versus-ONE
23
Βασικές Μέθοδοι Μηχανικής Μάθησης και Εξόρυξης Δεδομένων
Παράδειγμα 1. Generate data for classification r = sqrt(rand(100,1)); % radius t = 2*pi*rand(100,1); % angle data1 = [r.*cos(t), r.*sin(t)]; % points r2 = sqrt(3*rand(100,1)+1); % radius t2 = 2*pi*rand(100,1); % angle data2 = [r2.*cos(t2), r2.*sin(t2)]; % points 2. Plot plot(data1(:,1),data1(:,2),'r.') hold on plot(data2(:,1),data2(:,2),'b.') axis equal hold off
24
Βασικές Μέθοδοι Μηχανικής Μάθησης και Εξόρυξης Δεδομένων
Παράδειγμα 3. Prepare data: data3 = [data1;data2]; theclass = ones(200,1); theclass(1:100) = -1; 4. Train an SVM classifier Syntax: SVMstruct = svmtrain(data,groups,'Kernel_Function','rbf'); cl = svmtrain(data3,theclass,'Kernel_Function','rbf', 'boxconstraint',Inf,'showplot',true); hold on axis equal hold off
25
Βασικές Μέθοδοι Μηχανικής Μάθησης και Εξόρυξης Δεδομένων
Aποτέλεσμα
26
Βασικές Μέθοδοι Μηχανικής Μάθησης και Εξόρυξης Δεδομένων
Παράδειγμα 5. Train with different parameters cl = svmtrain(data3,theclass,'Kernel_Function','rbf',... 'showplot',true); hold on axis equal hold off
27
Βασικές Μέθοδοι Μηχανικής Μάθησης και Εξόρυξης Δεδομένων
Επόμενο μάθημα Εργασία! Απορίες;
Παρόμοιες παρουσιάσεις
© 2024 SlidePlayer.gr Inc.
All rights reserved.