Η παρουσίαση φορτώνεται. Παρακαλείστε να περιμένετε

Η παρουσίαση φορτώνεται. Παρακαλείστε να περιμένετε

Εξόρυξη Δεδομένων και Αλγόριθμοι Μάθησης 5 ο Φροντιστήριο Αντωνέλλης Παναγιώτης Σκούρα Αγγελική

Παρόμοιες παρουσιάσεις


Παρουσίαση με θέμα: "Εξόρυξη Δεδομένων και Αλγόριθμοι Μάθησης 5 ο Φροντιστήριο Αντωνέλλης Παναγιώτης Σκούρα Αγγελική"— Μεταγράφημα παρουσίασης:

1 Εξόρυξη Δεδομένων και Αλγόριθμοι Μάθησης 5 ο Φροντιστήριο Αντωνέλλης Παναγιώτης Σκούρα Αγγελική

2 Βασικοί Στόχοι της Εξόρυξης Δεδομένων Classification: predicting an item class Clustering: finding clusters in data Associations: e.g. A & B & C occur frequently Visualization: to facilitate human discovery Summarization: describing a group Deviation Detection: finding changes Estimation: predicting a continuous value Link Analysis: finding relationships …

3 Data Mining Data Mining is an interdisciplinary field involving: – Databases – Statistics – Machine Learning – High Performance Computing – Visualization – Mathematics

4 Κατηγοριοποίηση (Classification) Σκοπός: Learn a method for predicting the instance class from pre-labeled (classified) instances Συνήθεις Τεχνικές: Δέντρα Αποφάσεων (Decision Trees) Νευρωνικά Δίκτυα (Neural Networks) K-πλησιέστερων γειτόνων (k-Nearest Neighbors, k- NN) Μηχανές Υποστήριξης Διανυσμάτων (Support Vector Machines, SVM) Bayesian μέθοδοι Στηρίζονται στην ιδέα της «εκπαίδευσης» με τη βοήθεια ενός υποσυνόλου δεδομένων (σύνολο εκπαίδευσης)

5 Συσταδοποίηση (Clustering) Σκοπός: Find “natural” grouping of instances given un-labeled data Συνήθεις Τεχνικές: Διαιρετικοί αλγόριθμοι (K-Means) Ιεραρχικοί αλγόριθμοι (Cure) Βασισμένοι σε γράφους αλγόριθμοι (Chameleon) Βασισμένοι στην πυκνότητα (DBSCAN) Βασισμένοι σε πλέγμα (WaveCluster) Στηρίζονται στην ιδέα της «εκπαίδευσης» με τη βοήθεια ενός υποσυνόλου δεδομένων (σύνολο εκπαίδευσης)

6 Classification VS Clustering Classification Clustering Supervised Learning Unsupervised Learning

7 Κανόνες Συσχέτισης (Association Rules)

8 Οπτικοποίηση (Visulization) Σκοπός: Η οπτικοποίηση των δεδομένων για να διευκολυνθεί η κατανόηση συσχετίσεων Π.χ. Self-Organizes Maps (SOMs) SOMs are commonly used as visualization aids. They can make it easy for us humans to see relationships between vast amounts of data A SOM has been used to classify statistical data describing various quality-of-life factors such as state of health, nutrition, educational services etc.

9 Οπτικοποίηση (Visulization) Countries with similar quality-of-life factors end up clustered together. The countries with better quality-of-life are situated toward the upper left and the most poverty stricken countries are toward the lower right. Each hexagon represents a node in the SOM.

10 Οπτικοποίηση (Visulization) This colour information can then be plotted onto a map of the world like so:

11 Τεχνικές Κατηγοριοποίησης Συνήθεις Τεχνικές: 1. Συσχέτιση (Regression) 2. Δέντρα Απόφασης (Decision Trees) 3. Νευρωνικά Δίκτυα (Neural Networks) 4. K-πλησιέστερων γειτόνων (k-Nearest Neighbors, k-NN) 5. Μηχανές Υποστήριξης Διανυσμάτων (Support Vector Machines, SVM) 6. Bayesian μέθοδοι Εργαλείο Weka Attribute-Relation File Format (ARFF)

12 1) Γραμμική Συσχέτιση

13 2) Δένδρα Απόφασης

14

15 3) Νευρωνικά Δίκτυα

16 Οι νευρώνες είναι το δομικό στοιχείο του δικτύου. Υπάρχουν δύο είδη νευρώνων, οι νευρώνες εισόδου και οι υπολογιστικοί νευρώνες. – Οι νευρώνες εισόδου δεν υπολογίζουν τίποτα, μεσολαβούν ανάμεσα στις εισόδους του δικτύου και τους υπολογιστικούς νευρώνες. – Οι υπολογιστικοί νευρώνες πολλαπλασιάζουν τις εισόδους τους με τα συναπτικά βάρη και υπολογίζουν το άθροισμα του γινομένου. Το άθροισμα που προκύπτει είναι το όρισμα της συνάρτησης μεταφοράς. Συνάρτηση Μεταφοράς, η οποία μπορεί να είναι: – βηματική (step), – γραμμική (linear), – μη γραμμική (non-linear), – στοχαστική (stochastic).

17 4) k-πλησιέστεροι γείτονες The k-NN Rule: If the number of pre-classified points is large it makes good sense to use, instead of the single nearest neighbor, the majority vote of the nearest k neighbors. This method is referred to as the k-NN rule. The number k should be: 1) large to minimize the probability of misclassifying x 2) small (with respect to the number of samples) so that the points are close enough to x to give an accurate estimate of the true class of x Παραλλαγές: Weighted K-nn

18 5) Μηχανές Διανυσμάτων Υποστήριξης Οι Μηχανές Υποστήριξης Διανυσμάτων είναι μια μέθοδος μηχανικής μάθησης για δυαδικά προβλήματα ταξινόμησης Προβάλλουν τα σημεία του συνόλου εκπαίδευσης σε έναν χώρο περισσοτέρων διαστάσεων και βρίσκουν το υπερεπίπεδο το οποίο διαχωρίζει βέλτιστα τα σημεία των δύο τάξεων Τα άγνωστα σημεία ταξινομούνται σύμφωνα με την πλευρά του υπερεπίπεδου στην οποία βρίσκονται Τα διανύσματα τα οποία ορίζουν το υπερεπίπεδο που χωρίζει τις δύο τάξεις ονομάζονται διανύσματα υποστήριξης (support vectors)

19 6) Bayesian Μέθοδοι Βασίζεται στη πιθανοτική θεωρία κατηγοριοποίησης του κανόνα του Bayes Στόχος είναι να κατηγοριοποιηθεί ένα δείγμα Χ σε μια από τις δεδομένες κατηγορίες C1,C2,..,Cn χρησιμοποιώντας ένα μοντέλο πιθανότητας που ορίζεται σύμφωνα με τη θεωρία του Bayes Πρόκειται για κατηγοριοποιητές που κάνουν αποτίμηση πιθανοτήτων και όχι πρόβλεψη Αυτό πολλές φορές είναι πιο χρήσιμο και αποτελεσματικό Εδώ οι προβλέψεις έχουν έναν βαθμό και σκοπός είναι το αναμενόμενο κόστος να ελαχιστοποιείται

20

21 Μετρικές Αξιολόγησης Μεθόδων Κατηγοριοποίησης Χρόνος Εκπαίδευσης Χρόνος Εκτέλεσης Ανοχή στο Θόρυβο Χρήση Προϋπάρχου σας Γνώσης Ακρίβεια Κατανοησιμό τητα Δέντρα Απόφασης Μικρός ΜικρήΌχιΜέτριαΚαλή Νευρωνικά Δίκτυα Μεγάλος Μικρός ΚαλήΌχιΚαλήΜικρή Bayesian Μέθοδοι ΜεγάλοςΜικρός ΚαλήΝαιΚαλή Σύγκριση Βασικών Μεθόδων Κατηγοριοποίησης

22 Μετρικές Ακρίβειας Sensitivity or true positive rate (TPR) eqv. with hit rate, recall TPR = TP / P = TP / (TP + FN) False positive rate (FPR) eqv. with fall out FPR = FP / N = FP / (FP + TN) Accuracy ACC = (TP + TN) / (P + N) Positive predictive value (PPV) eqv. with precision PPV = TP / (TP + FP) actual value pntotal predi ction outc ome p' True Posit ive False Posit ive P' n' False Nega tive True Nega tive N' totalPN

23 F - score The F score can be interpreted as a weighted average of the precision and recall, where an F score reaches its best value at 1 and worst score at 0. The traditional F-measure or balanced F-score (F score) is the harmonic mean of precision and recall:

24 Overfitting/Overtraining in supervised learning (e.g. neural network). Training error is shown in blue, validation error in red. If the validation error increases while the training error steadily decreases then a situation of overfitting may have occurred.neural network

25

26

27

28

29

30

31

32

33

34

35

36

37 Ευχαριστώ για την προσοχή σας…


Κατέβασμα ppt "Εξόρυξη Δεδομένων και Αλγόριθμοι Μάθησης 5 ο Φροντιστήριο Αντωνέλλης Παναγιώτης Σκούρα Αγγελική"

Παρόμοιες παρουσιάσεις


Διαφημίσεις Google