Εξόρυξη Δεδομένων και Αλγόριθμοι Μάθησης

Slides:



Advertisements
Παρόμοιες παρουσιάσεις
Bayes Classifiers.
Advertisements

Εξόρυξη Δεδομένων και Αλγόριθμοι Μάθησης
Κατηγοριοποίηση και Πρόβλεψη
Εξόρυξη Δεδομένων και Αλγόριθμοι Μάθησης
Εξόρυξη Γνώσης Από Χρονικά Δεδομένα
Δομές Δεδομένων - Δυαδικά Δένδρα (binary trees)
Εξόρυξη Γνώσης Από Χωρικά Δεδομένα Φροντιστήριο Αγγελική Σκούρα
Αγγελική Σκούρα Εξόρυξη Γνώσης Από Χωρικά Δεδομένα Φροντιστήριο Αγγελική Σκούρα
Λανθάνουσα Σημασιολογική Ανάλυση (Latent Semantic Analysis)
Μπεϋζιανά & Νευρωνικά Δίκτυα
Εξόρυξη Γνώσης Από Χωρικά Δεδομένα
Μικροσυστοιχίες και ανάλυση δεδομένων
Αναγνώριση Προτύπων.
Συνιστώσες δεδομένων  Αντίληψη(concept):το αντικείμενο μάθησης  Υπόδειγμα(instance):το ξεχωριστό και ανεξάρτητο παράδειγμα(example) ενός concept  Χαρακτηριστικό(attribute):η.
Μεθοδολογίες και Εργαλεία Ανάλυσης και Σχεδιασμού Π.Σ. Σπύρος Κοκολάκης ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΠΛΗΡΟΦΟΡΙΑΚΩΝ ΚΑΙ ΕΠΙΚΟΙΝΩΝΙΑΚΩΝ.
ΕΞΌΡΥΞΗ ΔΕΔΟΜΈΝΩΝ ΚΑΙ ΑΛΓΌΡΙΘΜΟΙ ΜΆΘΗΣΗΣ Κατηγοριοποίηση 4 ο Φροντιστήριο Σκούρα Αγγελική
ΕΥΡΕΣΗ ΚΑΤΗΓΟΡΙΚΩΝ ΕΚΤΟΠΩΝ ΣΕ ΒΙΒΛΙΟΓΡΑΦΙΚΗ ΒΑΣΗ ΔΕΔΟΜΕΝΩΝ
Μάθημα 2 ο : Βασικές έννοιες 1 Ακαδημαϊκό Έτος
ΚΛΕΙΣΤΑ ΔΙΚΤΥΑ ΟΥΡΩΝ MARKOV 30/05/2011
Ανάπτυξη και εκπαίδευση ιεραρχίας ταξινομητών για την κατηγοριοποίηση κειμένων Αβραμίδη Γεωργία 719.
Εξόρυξη Δεδομένων και Αλγόριθμοι Μάθησης
Αλγόριθμοι Συσταδοποίησης και Κατηγοριοποίησης Βιολογικών Δεδομένων
Εθνικό και Καποδιστριακό Πανεπιστήμιο Αθηνών Τμήμα Πληροφορικής και Τηλεπικοινωνιών Learning to Learn: Algorithmic Inspirations from Human Problem Solving.
Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗ II1 Κατηγοριοποίηση ΙΙ.
1 ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΣΧΟΛΗ ΘΕΤΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ Ανακάλυψη Γνώσης από Βιολογικές Αλληλουχίες Αλεξανδρίδου Αναστασία.
Data Mining software Weka. Εισαγωγή Weka: Wekato Environment for knowledge Analysis Η weka είναι ένα software για εξόρυξη δεδομένων γραμμένο σε JAVA το.
Translation Tips LG New Testament Greek Fall 2012.
1 Διαχείριση Γνώσης Μ. Γεργατσούλης Χ. Παπαθεοδώρου.
Προσομοίωση Δικτύων 2n Άσκηση Δημιουργία, διαμόρφωση μελέτη επικοινωνιακών ζεύξεων.
WRITING B LYCEUM Teacher Eleni Rossidou ©Υπουργείο Παιδείας και Πολιτισμού.
Εξόρυξη γνώσης από Βάσεις Δεδομένων και τον Παγκόσμιο Ιστό Ενότητα # 3: Supervised learning Διδάσκων: Μιχάλης Βαζιργιάννης Τμήμα: Προπτυχιακό Πρόγραμμα.
Προσομοίωση Δικτύων 4η Άσκηση Σύνθετες τοπολογίες, διακοπή συνδέσεων, δυναμική δρομολόγηση.
Ενδείξεις κυστεκτομής σε μη μυοδιηθητικό καρκίνο ουροδόχου κύστης Αθανάσιος Γ. Παπατσώρης Επ. Καθηγητής Ουρολογίας Β’ Ουρολογική Κλινική Πανεπιστημίου.
Αριθμητική Επίλυση Διαφορικών Εξισώσεων 1. Συνήθης Δ.Ε. 1 ανεξάρτητη μεταβλητή x 1 εξαρτημένη μεταβλητή y Καθώς και παράγωγοι της y μέχρι n τάξης, στη.
1 ΔΗΜΟΠΑΘΟΛΟΓΙΑ ΤΗΣ ΔΙΑΤΡΟΦΗΣ ΠΑΡΟΥΣΙΑΣΗ 5 Η (Θ) ΠΡΟΕΤΟΙΜΑΣΙΑ ΕΠΙΔΗΜΙΟΛΟΓΙΚΗΣ ΕΡΕΥΝΑΣ.
Guide to Business Planning The Value Chain © Guide to Business Planning A principal use of value chain analysis is to identify a strategy mismatch between.
Guide to Business Planning The Value System © Guide to Business Planning The “value system” is also referred to as the “industry value chain”. In contrast.
Ασκήσεις WEKA Δέντρα αποφάσεων.
Διασύνδεση LAN Γιατί όχι μόνο ένα μεγάλο LAN
Ασκήσεις WEKA.
Ασκήσεις WEKA Νευρωνικά δίκτυα.
Ερωτήσεις –απαντήσεις Ομάδων Εργασίας
Αντίληψη Αντίληψη του φυσικού κόσμου που μας περιβάλλει, μέσω του νευρικού μας συστήματος (sensory perception). Η αντίληψη αποτελεί δημιούργημα του εγκεφάλου.
Επανασχεδιασμός του Ευρωπαϊκού Συστήματος Ενδοκοινοτικών Συναλλαγών (Revised Intrastat) Η συγκεκριμένη παρουσίαση συνοψίζει την ανάλυση των αποτελεσμάτων.
Matrix Analytic Techniques
Υποστηρίζω την άποψη μου επιχειρηματολογώντας
Αναγνώριση Προτύπων (Pattern Recognition)
ΠΑΝΕΠΙΣΤΗΜΙΟ ΙΩΑΝΝΙΝΩΝ ΑΝΟΙΚΤΑ ΑΚΑΔΗΜΑΪΚΑ ΜΑΘΗΜΑΤΑ
ΠΑΝΕΠΙΣΤΗΜΙΟ ΙΩΑΝΝΙΝΩΝ ΑΝΟΙΚΤΑ ΑΚΑΔΗΜΑΪΚΑ ΜΑΘΗΜΑΤΑ
ΠΑΝΕΠΙΣΤΗΜΙΟ ΙΩΑΝΝΙΝΩΝ ΑΝΟΙΚΤΑ ΑΚΑΔΗΜΑΪΚΑ ΜΑΘΗΜΑΤΑ
Βασικές Μέθοδοι Μηχανικής Μάθησης και Εξόρυξης Δεδομένων
GO.
Αιτιολογία και φυσική ιστορία ΑΚΑ
ΤΕΙ ΚΕΝΤΡΙΚΗΣ ΜΑΚΕΔΟΝΙΑΣ Τμήμα Μηχανικών Πληροφορικής ΤΕ
Μία πρακτική εισαγωγή στην χρήση του R
Αθανάσιος Δ Πρωτογέρου / Αναπληρωτής Καθηγητής
Πανεπιστήμιο Θεσσαλίας
ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ
DATA MINING ΕΞΑΜΗΝΙΑΙΟ ΘΕΜΑ ΣΤΟ ΜΑΘΗΜΑ ‘ΕΙΔΙΚΑ ΘΕΜΑΤΑ ΒΑΣΕΩΝ ΧΩΡΙΚΩΝ ΔΕΔΟΜΕΝΩΝ ΚΑΙ ΘΕΩΡΙΑ ΣΥΣΤΗΜΑΤΩΝ’
Find: φ σ3 = 400 [lb/ft2] CD test Δσ = 1,000 [lb/ft2] Sand 34˚ 36˚ 38˚
Εισαγωγή στα Τρόφιμα This publication has been produced with the support of the European Commission. The contents of this publication are the sole responsibility.
aka Mathematical Models and Applications
GLY 326 Structural Geology
Choosing between Competing Experimental Designs
Find: ρc [in] from load γT=110 [lb/ft3] γT=100 [lb/ft3]
Find: σ1 [kPa] for CD test at failure
ΜΕΤΑΦΡΑΣΗ ‘ABC of Selling’. ΤΟ ΑΛΦΑΒΗΤΑΡΙ ΤΩΝ ΠΩΛΗΣΕΩΝ
Τμήμα Πληροφορικής Α.Π.Θ. Παρουσίαση της Κατεύθυνσης
Εθνικό Μουσείο Σύγχρονης Τέχνης Faceforward … into my home!
Erasmus + An experience with and for refugees Fay Pliagou.
Μεταγράφημα παρουσίασης:

Εξόρυξη Δεδομένων και Αλγόριθμοι Μάθησης Κατηγοριοποίηση Εξόρυξη Δεδομένων και Αλγόριθμοι Μάθησης 5ο Φροντιστήριο Αντωνέλλης Παναγιώτης adonel@ceid.upatras.gr Σκούρα Αγγελική skoura@ceid.upatras.gr

Βασικοί Στόχοι της Εξόρυξης Δεδομένων Classification: predicting an item class Clustering: finding clusters in data Associations: e.g. A & B & C occur frequently Visualization: to facilitate human discovery Summarization: describing a group Deviation Detection: finding changes Estimation: predicting a continuous value Link Analysis: finding relationships …

Data Mining Data Mining is an interdisciplinary field involving: – Databases – Statistics – Machine Learning – High Performance Computing – Visualization – Mathematics

Κατηγοριοποίηση (Classification) Σκοπός: Learn a method for predicting the instance class from pre-labeled (classified) instances Συνήθεις Τεχνικές: Δέντρα Αποφάσεων (Decision Trees) Νευρωνικά Δίκτυα (Neural Networks) K-πλησιέστερων γειτόνων (k-Nearest Neighbors, k-NN) Μηχανές Υποστήριξης Διανυσμάτων (Support Vector Machines, SVM) Bayesian μέθοδοι Στηρίζονται στην ιδέα της «εκπαίδευσης» με τη βοήθεια ενός υποσυνόλου δεδομένων (σύνολο εκπαίδευσης)

Συσταδοποίηση (Clustering) Σκοπός: Find “natural” grouping of instances given un-labeled data Συνήθεις Τεχνικές: Διαιρετικοί αλγόριθμοι (K-Means) Ιεραρχικοί αλγόριθμοι (Cure) Βασισμένοι σε γράφους αλγόριθμοι (Chameleon) Βασισμένοι στην πυκνότητα (DBSCAN) Βασισμένοι σε πλέγμα (WaveCluster) Στηρίζονται στην ιδέα της «εκπαίδευσης» με τη βοήθεια ενός υποσυνόλου δεδομένων (σύνολο εκπαίδευσης)

Classification VS Clustering Supervised Learning Unsupervised Learning

Κανόνες Συσχέτισης (Association Rules)

Οπτικοποίηση (Visulization) Σκοπός: Η οπτικοποίηση των δεδομένων για να διευκολυνθεί η κατανόηση συσχετίσεων Π.χ. Self-Organizes Maps (SOMs) SOMs are commonly used as visualization aids. They can make it easy for us humans to see relationships between vast amounts of data A SOM has been used to classify statistical data describing various quality-of-life factors such as state of health, nutrition, educational services etc.

Οπτικοποίηση (Visulization) Countries with similar quality-of-life factors end up clustered together. The countries with better quality-of-life are situated toward the upper left and the most poverty stricken countries are toward the lower right. Each hexagon represents a node in the SOM.

Οπτικοποίηση (Visulization) This colour information can then be plotted onto a map of the world like so:

Τεχνικές Κατηγοριοποίησης Συνήθεις Τεχνικές: Συσχέτιση (Regression) Δέντρα Απόφασης (Decision Trees) Νευρωνικά Δίκτυα (Neural Networks) K-πλησιέστερων γειτόνων (k-Nearest Neighbors, k-NN) Μηχανές Υποστήριξης Διανυσμάτων (Support Vector Machines, SVM) Bayesian μέθοδοι Εργαλείο Weka Attribute-Relation File Format (ARFF)

1) Γραμμική Συσχέτιση

2) Δένδρα Απόφασης

2) Δένδρα Απόφασης

3) Νευρωνικά Δίκτυα

3) Νευρωνικά Δίκτυα Συνάρτηση Μεταφοράς, η οποία μπορεί να είναι: Οι νευρώνες είναι το δομικό στοιχείο του δικτύου. Υπάρχουν δύο είδη νευρώνων, οι νευρώνες εισόδου και οι υπολογιστικοί νευρώνες. Οι νευρώνες εισόδου δεν υπολογίζουν τίποτα, μεσολαβούν ανάμεσα στις εισόδους του δικτύου και τους υπολογιστικούς νευρώνες. Οι υπολογιστικοί νευρώνες πολλαπλασιάζουν τις εισόδους τους με τα συναπτικά βάρη και υπολογίζουν το άθροισμα του γινομένου. Το άθροισμα που προκύπτει είναι το όρισμα της συνάρτησης μεταφοράς. Συνάρτηση Μεταφοράς, η οποία μπορεί να είναι: βηματική (step), γραμμική (linear), μη γραμμική (non-linear), στοχαστική (stochastic).

4) k-πλησιέστεροι γείτονες The k-NN Rule: If the number of pre-classified points is large it makes good sense to use, instead of the single nearest neighbor, the majority vote of the nearest k neighbors. This method is referred to as the k-NN rule. The number k should be: 1) large to minimize the probability of misclassifying x 2) small (with respect to the number of samples) so that the points are close enough to x to give an accurate estimate of the true class of x Παραλλαγές: Weighted K-nn

5) Μηχανές Διανυσμάτων Υποστήριξης Οι Μηχανές Υποστήριξης Διανυσμάτων είναι μια μέθοδος μηχανικής μάθησης για δυαδικά προβλήματα ταξινόμησης Προβάλλουν τα σημεία του συνόλου εκπαίδευσης σε έναν χώρο περισσοτέρων διαστάσεων και βρίσκουν το υπερεπίπεδο το οποίο διαχωρίζει βέλτιστα τα σημεία των δύο τάξεων Τα άγνωστα σημεία ταξινομούνται σύμφωνα με την πλευρά του υπερεπίπεδου στην οποία βρίσκονται Τα διανύσματα τα οποία ορίζουν το υπερεπίπεδο που χωρίζει τις δύο τάξεις ονομάζονται διανύσματα υποστήριξης (support vectors)

6) Bayesian Μέθοδοι Βασίζεται στη πιθανοτική θεωρία κατηγοριοποίησης του κανόνα του Bayes Στόχος είναι να κατηγοριοποιηθεί ένα δείγμα Χ σε μια από τις δεδομένες κατηγορίες C1,C2,..,Cn χρησιμοποιώντας ένα μοντέλο πιθανότητας που ορίζεται σύμφωνα με τη θεωρία του Bayes Πρόκειται για κατηγοριοποιητές που κάνουν αποτίμηση πιθανοτήτων και όχι πρόβλεψη Αυτό πολλές φορές είναι πιο χρήσιμο και αποτελεσματικό Εδώ οι προβλέψεις έχουν έναν βαθμό και σκοπός είναι το αναμενόμενο κόστος να ελαχιστοποιείται

Σύγκριση Βασικών Μεθόδων Κατηγοριοποίησης Μετρικές Αξιολόγησης Μεθόδων Κατηγοριοποίησης Χρόνος Εκπαίδευσης Χρόνος Εκτέλεσης Ανοχή στο Θόρυβο Χρήση Προϋπάρχουσας Γνώσης Ακρίβεια Κατανοησιμότητα Δέντρα Απόφασης Μικρός Μικρή Όχι Μέτρια Καλή Νευρωνικά Δίκτυα Μεγάλος Bayesian Μέθοδοι Ναι

Μετρικές Ακρίβειας Sensitivity or true positive rate (TPR) eqv. with hit rate, recall TPR = TP / P = TP / (TP + FN) False positive rate (FPR) eqv. with fall out FPR = FP / N = FP / (FP + TN) Accuracy ACC = (TP + TN) / (P + N) Positive predictive value (PPV) eqv. with precision PPV = TP / (TP + FP)   actual value p n total prediction outcome p' True Positive False Positive P' n' False Negative True Negative N' P N

F - score The F score can be interpreted as a weighted average of the precision and recall, where an F score reaches its best value at 1 and worst score at 0. The traditional F-measure or balanced F-score (F score) is the harmonic mean of precision and recall:

Overfitting/Overtraining in supervised learning (e. g. neural network) Overfitting/Overtraining in supervised learning (e.g. neural network). Training error is shown in blue, validation error in red. If the validation error increases while the training error steadily decreases then a situation of overfitting may have occurred.

Ευχαριστώ για την προσοχή σας…