ΕΞΌΡΥΞΗ ΔΕΔΟΜΈΝΩΝ ΚΑΙ ΑΛΓΌΡΙΘΜΟΙ ΜΆΘΗΣΗΣ Κατηγοριοποίηση 4 ο Φροντιστήριο Σκούρα Αγγελική

Slides:



Advertisements
Παρόμοιες παρουσιάσεις
Bayes Classifiers.
Advertisements

Εξόρυξη Δεδομένων και Αλγόριθμοι Μάθησης
Κατηγοριοποίηση και Πρόβλεψη
Εξόρυξη Δεδομένων και Αλγόριθμοι Μάθησης
Εξόρυξη Γνώσης Από Χρονικά Δεδομένα
Εξόρυξη Γνώσης Από Χωρικά Δεδομένα Φροντιστήριο Αγγελική Σκούρα
Ανάκτηση Πληροφορίας Αποτίμηση Αποτελεσματικότητας.
Μπεϋζιανά & Νευρωνικά Δίκτυα
Αναγνώριση Προτύπων.
Μετρικές Εκτίμησης Α π όδοσης. Κλασσικές Μετρικές ( Εκτίμηση Α π όδοσης ) Χωρικές / χρονικές π ολυ π λοκότητες δομών δεικτοδότησης Ε π ικοινωνία με το.
Μάθημα 2 ο : Βασικές έννοιες 1 Ακαδημαϊκό Έτος
Εξόρυξη Δεδομένων και Αλγόριθμοι Μάθησης
ΚΛΕΙΣΤΑ ΔΙΚΤΥΑ ΟΥΡΩΝ MARKOV 30/05/2011
Ανάπτυξη και εκπαίδευση ιεραρχίας ταξινομητών για την κατηγοριοποίηση κειμένων Αβραμίδη Γεωργία 719.
Μέθοδοι Monte Carlo Τι είναι: Οποιαδήποτε αριθμητική μέθοδος
Εξόρυξη Δεδομένων και Αλγόριθμοι Μάθησης
Αλγόριθμοι Συσταδοποίησης και Κατηγοριοποίησης Βιολογικών Δεδομένων
Identifying bullies with a computer game Juan F. Mancilla-Caceres,Wen Pu, Eyal Amir Department of Computer Science University of Illinois at Urbana-Champaign.
Ταξινόμηση III Οι διαφάνειες στηρίζονται στο P.-N. Tan, M.Steinbach, V. Kumar, «Introduction to Data Mining», Addison Wesley, 2006.
Εθνικό και Καποδιστριακό Πανεπιστήμιο Αθηνών Τμήμα Πληροφορικής και Τηλεπικοινωνιών Learning to Learn: Algorithmic Inspirations from Human Problem Solving.
Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗ II1 Κατηγοριοποίηση ΙΙ.
Θεωρία Βασικών Δομών Δεδομένων Διδάσκοντες:Μακρής Χρήστος, Τσακαλίδης Αθανάσιος
1 ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΣΧΟΛΗ ΘΕΤΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ Ανακάλυψη Γνώσης από Βιολογικές Αλληλουχίες Αλεξανδρίδου Αναστασία.
ÐñïãíùóôéêÜ íåõñùíéêÜ äßêôõá ( Predictive Modular Neural Networks ) êáé åöáñìïãÝò óå ôáîéíüìçóç êáé ðñüãíùóç ÷ñïíïóåéñþí êáé áíáãíþñéóç äõíáìéêïý óõóôçìÜôùí.
Εμμανουήλ-Μάνος Γεροθανάσης Ευάγγελος Μπέκος
1 Διαχείριση Γνώσης Μ. Γεργατσούλης Χ. Παπαθεοδώρου.
Ταξινόμηση ΙI Οι διαφάνειες στηρίζονται στο P.-N. Tan, M.Steinbach, V. Kumar, «Introduction to Data Mining», Addison Wesley, 2006.
Week 11 Quiz Sentence #2. The sentence. λαλο ῦ μεν ε ἰ δότες ὅ τι ὁ ἐ γείρας τ ὸ ν κύριον Ἰ ησο ῦ ν κα ὶ ἡ μ ᾶ ς σ ὺ ν Ἰ ησο ῦ ἐ γερε ῖ κα ὶ παραστήσει.
1 BrowseRank: Letting Web Users Vote for Page Importance SIGIR 2008 Best Student Paper Award.
Εξόρυξη γνώσης από Βάσεις Δεδομένων και τον Παγκόσμιο Ιστό Ενότητα # 3: Supervised learning Διδάσκων: Μιχάλης Βαζιργιάννης Τμήμα: Προπτυχιακό Πρόγραμμα.
Αριθμητική Επίλυση Διαφορικών Εξισώσεων 1. Συνήθης Δ.Ε. 1 ανεξάρτητη μεταβλητή x 1 εξαρτημένη μεταβλητή y Καθώς και παράγωγοι της y μέχρι n τάξης, στη.
Telco Churn Prediction with Big Data ΚΥΡΙΑΚΟΥ ΜΙΧΑΛΗΣ ΡΟΤΣΙΔΟΥ ΓΕΩΡΓΙΑ ΕΠΛ 646: Προχωρημένα Θέματα Βάσεων Δεδομένων Δεκέμβριος 2015.
1 ΔΗΜΟΠΑΘΟΛΟΓΙΑ ΤΗΣ ΔΙΑΤΡΟΦΗΣ ΠΑΡΑΔΟΣΗ 1Οη (Θ) Στοιχεία Επαγωγικής Στατιστικής.
1 ΔΗΜΟΠΑΘΟΛΟΓΙΑ ΤΗΣ ΔΙΑΤΡΟΦΗΣ ΠΑΡΟΥΣΙΑΣΗ 5 Η (Θ) ΠΡΟΕΤΟΙΜΑΣΙΑ ΕΠΙΔΗΜΙΟΛΟΓΙΚΗΣ ΕΡΕΥΝΑΣ.
Διαχείριση Διαδικτυακής Φήμης! Do the Online Reputation Check! «Ημέρα Ασφαλούς Διαδικτύου 2015» Ε. Κοντοπίδη, ΠΕ19.
Introduction to Latent Variable Models. A comparison of models X1X1 X2X2 X3X3 Y1Y1 δ1δ1 δ2δ2 δ3δ3 Model AModel B ξ1ξ1 X1X1 X2X2 X3X3 δ1δ1 δ2δ2 δ3δ3.
H Μέθοδος του Steffensen f(x n ) f(x n +h) xnxn x n +h Προσέγγιση της f ’(x) με τη συνάρτηση g(x), όπου, g(x)= {f(x+h)-f(x)}/h.
Ασκήσεις WEKA Δέντρα αποφάσεων.
Ασκήσεις WEKA.
Αντισταθμιστική ανάλυση
Αντικειμενοστραφής Προγραμματισμός ΙΙ
Ασκήσεις WEKA Νευρωνικά δίκτυα.
2. Χαρακτηριστικά περιγράμματος.
Αντίληψη Αντίληψη του φυσικού κόσμου που μας περιβάλλει, μέσω του νευρικού μας συστήματος (sensory perception). Η αντίληψη αποτελεί δημιούργημα του εγκεφάλου.
MEDICEXPO 2008 Επίδραση συνθηκών εξομοιωμένου θορύβου στην απόδοση συστήματος αναγνώρισης μορφών ηλεκτροεγκεφαλογραφικού σήματος Ι. Καλατζής, Δ. Γκλώτσος,
ΜΥΕ03: Ανάκτηση Πληροφορίας
Matrix Analytic Techniques
LOCATION.
ΑΓΡΟΤΙΚΗ ΠΟΛΙΤΙΚΗ Οικονομική Ανάλυση.
Γίνε ο "ειδικός" στη χρήση ΟΒΑΣΕ
ΠΑΝΕΠΙΣΤΗΜΙΟ ΙΩΑΝΝΙΝΩΝ ΑΝΟΙΚΤΑ ΑΚΑΔΗΜΑΪΚΑ ΜΑΘΗΜΑΤΑ
ΠΑΝΕΠΙΣΤΗΜΙΟ ΙΩΑΝΝΙΝΩΝ ΑΝΟΙΚΤΑ ΑΚΑΔΗΜΑΪΚΑ ΜΑΘΗΜΑΤΑ
Μάθημα : Αντίληψη 13/4/16 Μαρία Κουτρομάνου.
Ταξινόμηση Πολυφασματικών Εικόνων
Βασικές Μέθοδοι Μηχανικής Μάθησης και Εξόρυξης Δεδομένων
GO.
ΤΕΙ ΚΕΝΤΡΙΚΗΣ ΜΑΚΕΔΟΝΙΑΣ Τμήμα Μηχανικών Πληροφορικής ΤΕ
Προσαρμοστικά μοντέλα
Anti-bullying Campaign
Aρχιτεκτονική άμεσων ενισχύσεων
ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ
Find: φ σ3 = 400 [lb/ft2] CD test Δσ = 1,000 [lb/ft2] Sand 34˚ 36˚ 38˚
aka Mathematical Models and Applications
Ορισμοί support count () ενός στοιχειοσυνόλου
ΜΥΕ03: Ανάκτηση Πληροφορίας
GLY 326 Structural Geology
Choosing between Competing Experimental Designs
Deriving the equations of
Variable-wise and Term-wise Recentering
ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΘΗΝΩΝ ΤΜΗΜΑ ΝΟΣΗΛΕΥΤΙΚΗΣ
Μεταγράφημα παρουσίασης:

ΕΞΌΡΥΞΗ ΔΕΔΟΜΈΝΩΝ ΚΑΙ ΑΛΓΌΡΙΘΜΟΙ ΜΆΘΗΣΗΣ Κατηγοριοποίηση 4 ο Φροντιστήριο Σκούρα Αγγελική

Κατηγοριοποίηση (Classification) Σκοπός: Learn a method for predicting the instance class from pre-labeled (classified) instances Συνήθεις Τεχνικές: 1) Δέντρα Αποφάσεων (Decision Trees) 2) Νευρωνικά Δίκτυα (Neural Networks) 3) K-πλησιέστερων γειτόνων (k-Nearest Neighbors, k- NN) 4) Μηχανές Υποστήριξης Διανυσμάτων (Support Vector Machines, SVMs) 5) Bayesian μέθοδοι Στηρίζεται στην ιδέα της «εκπαίδευσης» με τη βοήθεια ενός υποσυνόλου δεδομένων (σύνολο εκπαίδευσης)

Classification process Classifier Training Training dataModel Testing dataModel Predicted scores/labels Training Phase Testing Phase Classifier parameters

1) Δένδρα Απόφασης

2) Νευρωνικά Δίκτυα

Οι νευρώνες είναι το δομικό στοιχείο του δικτύου. Υπάρχουν δύο είδη νευρώνων, οι νευρώνες εισόδου και οι υπολογιστικοί νευρώνες. – Οι νευρώνες εισόδου δεν υπολογίζουν τίποτα, μεσολαβούν ανάμεσα στις εισόδους του δικτύου και τους υπολογιστικούς νευρώνες. – Οι υπολογιστικοί νευρώνες πολλαπλασιάζουν τις εισόδους τους με τα συναπτικά βάρη και υπολογίζουν το άθροισμα του γινομένου. Το άθροισμα που προκύπτει είναι το όρισμα της συνάρτησης μεταφοράς. Συνάρτηση μεταφοράς, η οποία μπορεί να είναι: – βηματική (step), – γραμμική (linear), – μη γραμμική (non-linear), – στοχαστική (stochastic).

3) k-πλησιέστεροι γείτονες The k-NN Rule: If the number of pre-classified points is large it makes good sense to use, instead of the single nearest neighbor, the majority vote of the nearest k neighbors. This method is referred to as the k-NN rule. The number k should be:  large to minimize the probability of misclassifying x  small (with respect to the number of samples) so that the points are close enough to x to give an accurate estimate of the true class of x Παραλλαγές: Weighted K-nn

4) Μηχανές Διανυσμάτων Υποστήριξης Οι Μηχανές Υποστήριξης Διανυσμάτων είναι μια μέθοδος μηχανικής μάθησης για δυαδικά προβλήματα κατηγοριοποίησης Προβάλλουν τα σημεία του συνόλου εκπαίδευσης σε έναν χώρο περισσοτέρων διαστάσεων και βρίσκουν το υπερεπίπεδο το οποίο διαχωρίζει βέλτιστα τα σημεία των δύο τάξεων Τα άγνωστα σημεία ταξινομούνται σύμφωνα με την πλευρά του υπερεπίπεδου στην οποία βρίσκονται Τα διανύσματα τα οποία ορίζουν το υπερεπίπεδο που χωρίζει τις δύο τάξεις ονομάζονται διανύσματα υποστήριξης (support vectors)

5) Bayesian Μέθοδοι Βασίζεται στη πιθανοτική θεωρία κατηγοριοποίησης του κανόνα του Bayes Στόχος είναι να κατηγοριοποιηθεί ένα δείγμα Χ σε μια από τις δεδομένες κατηγορίες C1,C2,..,Cn χρησιμοποιώντας ένα μοντέλο πιθανότητας που ορίζεται σύμφωνα με τη θεωρία του Bayes Πρόκειται για κατηγοριοποιητές που κάνουν αποτίμηση πιθανοτήτων και όχι πρόβλεψη  Αυτό πολλές φορές είναι πιο χρήσιμο και αποτελεσματικό Εδώ οι προβλέψεις έχουν έναν βαθμό και σκοπός είναι το αναμενόμενο κόστος να ελαχιστοποιείται

Evaluation which method works best for classification No classification model is uniformly the best Comparison by means of  Accuracy, precision, sensitivity, specificity, …  Speed of training  Speed of model application  Noise tolerance  Explanation ability Many times: hybrid, integrated models

Μετρικές Αξιολόγησης Μεθόδων Κατηγοριοποίησης Χρόνος Εκπαίδευσης Χρόνος Εκτέλεσης Ανοχή στο Θόρυβο Χρήση Προϋπάρχου σας Γνώσης Ακρίβεια Κατανοησιμ ότητα Δέντρα Απόφασης Μικρός ΜικρήΌχιΜέτριαΚαλή Νευρωνικά Δίκτυα Μεγάλος Μικρός ΚαλήΌχιΚαλήΜικρή Bayesian Μέθοδοι ΜεγάλοςΜικρός ΚαλήΝαιΚαλή “Αδρή” Σύγκριση Βασικών Μεθόδων Κατηγοριοποίησης

Evaluation: Is my model good? Evaluation metrics: accuracy, precision-recall, Area Under ROC Curve (AUC)… Evaluation options:  Train-Test Split  Use train  Use test  Random split  Cross Validation  3/5/10 folds  Leave-one-out 13

Evaluation metrics Sensitivity or True Positive Rate (TPR) eqv. with hit rate, recall TPR = TP / P = TP / (TP + FN) False Positive Rate (FPR) eqv. with fall out FPR = FP / N = FP / (FP + TN) Accuracy ACC = (TP + TN) / (P + N) Positive Predictive Value (PPV) eqv. with precision PPV = TP / (TP + FP) actual value pntotal prediction outcome p' True Positive False Positive P' n' False Negative True Negativ e N' totalPN

Evaluation metrics: F - score The F score can be interpreted as a weighted average of the precision and recall F score reaches its best value at 1 and worst score at 0 The traditional F-measure or balanced F-score (F score) is the harmonic mean of precision and recall:

Παράδειγμα υπολογισμού μετρικών ακρίβειας Έχοντας ως δεδομένα τα ακόλουθα αποτελέσματα ενός αλγορίθμου κατηγοριοποίησης, υπολογίστε τις μετρικές  TPrate  FPrate  Precision  Recall  F-measure === Confusion Matrix === a b c d e f g <-- classified as | a | b | c | d | e | f | g

Διαφορά μεταξύ Precision και Accuracy Accuracy is how close a measurement comes to the truth Precision is how close a measurement comes to another measurement  Low precision implies uncertainty

ROC καμπύλη In signal detection theory, a receiver operating characteristic (ROC) or simply ROC curve, is a graphical plot of true positive rate vs. false positive rate for a binary classifier system as its discrimination threshold is variedsignal detection theory graphical binary classifier Ο κατακόρυφος άξονας:  Tprate = Sensitivity Ο οριζόντιος άξονας:  Fprate = 1- Specificity Accuracy is measured by the area under the ROC curve  an area of 1 represents a perfect test  an area of.5 represents a worthless test

Παράδειγμα κατασκευής ROC καμπύλης Ερώτημα Υποθέτουμε ότι υπάρχουν 2 κλάσεις για τα δεδομένα  diseased (“positive”, P) and healthy (“negative”, N). Δεδομένα  20 παρατηρήσεις εκ των οποίων 10 είναι Ν και 10 είναι P  οι 10 Ν παρατηρήσεις έχουν τιμές N = {0.3,0.4,0.5,0.5,0.5,0.6,0.7,0.7,0.8,0.9};  οι 10 P παρατηρήσεις έχουν τιμές P = {0.5,0.6,0.6,0.8,0.9,0.9,0.9,1.0,1.2,1.4} Έστω ο αλγόριθμος κατηγοριοποίησης  For a given value of the threshold, t, the classification rule predicts that an observation belongs to P if it is greater than t Να κατασκευαστεί η ROC καμπύλη Λύση To construct the ROC curve, they first set the threshold, t, to be a large value. Consider progressively lowering the value of t. For any value greater than or equal to 1.4, all 20 observations are allocated to group N, so no P individuals are allocated to P (hence tp = 0.0) and all the N individuals are allocated to N (hence fp = 0.0). Μoving t down to 1.2, one individual (the last) in group P is now allocated to N (hence tp = 0.1) while all the N individuals are still allocated to N (hence fp = 0.0 again). Continuing in this fashion generates the ROC curve.

Evaluation options

Επιπλέον σημεία που απαιτούν προσοχή κατά την κατηγοριοποίηση Υπερταύτιση (Overfitting) Unbalanced datasets

Overfitting Η «υπερταύτιση» αποτελεί ένα σύνηθες πρόβλημα κατά την κατασκευή κατηγοριοποιητών Overfitting/Overtraining in supervised learning (e.g. neural network). Training error is shown in blue, validation error in red. If the validation error increases while the training error steadily decreases then a situation of overfitting may have occurred.neural network

Unbalanced datasets

Making most of the data

Not only Weka…Many classification tools Kernel SVM: libsvm, svmlightlibsvmsvmlight Linear SVM/LogReg: liblinearliblinear LogReg: BBKBBK Naïve Bayes, Decision Trees: WekaWeka Bagging, Boosting on trees: FESTFEST rpart package, Orange, Waffle, Shogun, Sgd, etc. 26

Ευχαριστώ για την προσοχή σας…