Εξόρυξη Δεδομένων και Αλγόριθμοι Μάθησης. K-means k-windows k-means: 2 φάσεις 1. Μια διαμέριση των στοιχείων σε k clusters 2. Η ποιότητα της διαμέρισης.

Slides:



Advertisements
Παρόμοιες παρουσιάσεις
Γεωργία Σκίντζη Γιώργος Ιωάννου Γρηγόρης Πραστάκος
Advertisements

Nikos Louloudakis Nikos Orfanoudakis Irini Genitsaridi
Δένδρα van Emde Boas TexPoint fonts used in EMF. Read the TexPoint manual before you delete this box.: AA A A A Μελετάμε την περίπτωση όπου αποθηκεύουμε.
Κεφάλαιο 8 Πειρατεία Λογισμικού Πληροφορική Α’ Γυμνασίου Κεφάλαιο 8.
Aυτόνομοι Πράκτορεσ Ενισχυτική μαθηση σto Peg Solitaire
1 ΥΠΟΛΟΓΙΣΤΙΚΉ ΓΕΩΜΕΤΡΊΑ. 2 Πρόβλημα:  Δυναμική διατήρηση N διαστημάτων με διαφορετικά ανά δύο σημεία αρχής και τέλους (σύνορα) έτσι ώστε να απαντάμε.
Eπιμέλεια Τίκβα Χριστίνα
Πιθανοκρατικοί Αλγόριθμοι
Χαρακτηριστικά συνθετικής κίνησης 1 Ελληνογαλλική Σχολή Καλαμαρί - Τίκβα Χριστίνα.
Ειδικά & Υβριδικά Εργαλεία Αναζήτησης. Εισαγωγή  Υπάρχει μια πλειάδα από ειδικά και υβριδικά εργαλεία αναζήτησης που αξίζουν ιδιαίτερης αναφοράς.  Αυτά.
ΥΠΟΠΡΟΓΡΑΜΜΑΤΑ ΤΜΗΜΑΤΙΚΟΣ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟΣ
ΣΤΟΙΧΕΙΑ ΨΕΥΔΟΚΩΔΙΚΑ ΒΑΣΙΚΕΣ ΔΟΜΕΣ ΒΑΣΙΚΟΙ ΑΛΓΟΡΙΘΜΟΙ ΠΙΝΑΚΩΝ
Εισαγωγικές Έννοιες Διδάσκοντες: Σ. Ζάχος, Δ. Φωτάκης Επιμέλεια διαφανειών: Δ. Φωτάκης Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών Εθνικό Μετσόβιο.
Στατιστική Ι Παράδοση 5 Οι Δείκτες Διασποράς Διασπορά ή σκεδασμός.
1 Εισαγωγή στις Βάσεις Δεδομένων  Ανάγκη Αποθήκευσης και Διαχείρισης Δεδομένων  Συστήματα Αρχείων  Συστήματα Βάσεων Δεδομένων  Παραδοσιακές και Σύγχρονες.
Εργασία Η υλοποίηση του αλγορίθμου συγχώνευσης θα πρέπει να χρησιμοποιεί την ιδέα των ροών (streams). Θα πρέπει να υπάρχουν δύο διαφορετικά είδη.
Ενότητα Η Δομή Επανάληψης
Γραφήματα & Επίπεδα Γραφήματα
Διαίρει και Βασίλευε πρόβλημα μεγέθους Ν διάσπαση πρόβλημα μεγέθους Ν-k πρόβλημα μεγέθους k.
1 ΕΝΤΟΛΕΣ ΠΛΗΡΟΦΟΡΙΩΝ ΓΕΝΙΚΕΣ ΠΛΗΡΟΦΟΡΙΕΣΓΕΝΙΚΕΣ ΠΛΗΡΟΦΟΡΙΕΣ ΘΕΣΗ ΣΗΜΕΙΟΥΘΕΣΗ ΣΗΜΕΙΟΥ ΑΠΟΣΤΑΣΗΑΠΟΣΤΑΣΗ ΕΜΒΑΔΟΝΕΜΒΑΔΟΝ.
Κοντινότεροι Κοινοί Πρόγονοι α βγ θ δεζ η π ν ι κλμ ρσ τ κκπ(λ,ι)=α, κκπ(τ,σ)=ν, κκπ(λ,π)=η κκπ(π,σ)=γ, κκπ(ξ,ο)=κ ξο κκπ(ι,ξ)=β, κκπ(τ,θ)=θ, κκπ(ο,μ)=α.
Προσεγγιστικοί Αλγόριθμοι
Αριθμητικές Μέθοδοι Βελτιστοποίησης Θεωρία & Λογισμικό Τμήμα Πληροφορικής - Πανεπιστήμιο Ιωαννίνων Ι. Η. Λαγαρής.
Εισαγωγή στις Αρχές της Επιστήμης των Η/Υ» Β΄ τάξης Γενικού Λυκείου
Τυχαιοκρατικοί Αλγόριθμοι TexPoint fonts used in EMF. Read the TexPoint manual before you delete this box.: AA Πιθανότητες και Αλγόριθμοι Ανάλυση μέσης.
Ισορροπημένα Δένδρα TexPoint fonts used in EMF. Read the TexPoint manual before you delete this box.: AA A A A Μπορούμε να επιτύχουμε χρόνο εκτέλεσης για.
Αριθμητική Ανάλυση Μεταπτυχιακού 6η Ε Β Δ Ο Μ Α Δ Α Ακαδημαϊκό Έτος Τετάρτη 26, Νοεμβρίου 2008 ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΑΤΡΩΝ ΤΜΗΜΑ ΜΑΘΗΜΑΤΙΚΩΝ ΤΟΜΕΑΣ ΥΠΟΛΟΓΙΣΤΙΚΩΝ.
Είδη δειγμάτων Τυχαίο/ μη τυχαίο
ΕΠΛ 231 – Δομές Δεδομένων και Αλγόριθμοι12-1 Στην ενότητα αυτή θα μελετηθούν τα εξής επιμέρους θέματα: Ο αλγόριθμος του Prim και ο αλγόριθμος του Kruskal.
1 Εισαγωγή στις Βάσεις Δεδομένων  Ανάγκη Αποθήκευσης και Διαχείρισης Δεδομένων  Συστήματα Αρχείων  Συστήματα Βάσεων Δεδομένων  Παραδοσιακές και Σύγχρονες.
Αλγόριθμοι Συσταδοποίησης και Κατηγοριοποίησης Βιολογικών Δεδομένων
Ενεργή επιλογή αλγορίθμου, Active Algorithm Selection, Feilong Chen and Rong Jin Εύα Σιταρίδη.
Διδάσκοντες: Σ. Ζάχος, Δ. Φωτάκης
Διάλεξη 9η: Εφαρμογή της μεθόδου Simplex στο γραμμικό προγραμματισμό κατά τη μεγιστοποίηση Μέθοδος Simplex 1.Όταν υπάρχουν μέχρι πέντε κλάδοι παραγωγής.
Αλγόριθμοι 2.1.1,
ΠΟΛΥΤΕΧΝΕΙΟ ΚΡΗΤΗΣ Τμήμα Ηλεκτρονικών Μηχανικών και Μηχανικών Υπολογιστών Εργαστήριο Τηλεπικοινωνιών και Πληροφορίας & Δικτύων ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ “Χρονοπρογραμματισμός.
Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1 Σχεδιασμός Σχεσιακών Σχημάτων.
Διδακτική της Πληροφορικής ΗΥ302 Εργασία :Παρουσίαση σχολικού βιβλίου Γ’ Λυκείου Τεχνολογικής Κατεύθυνσης «Ανάπτυξη εφαρμογών σε προγραμματιστικό περιβάλλον»
ΜΑΘΗΜΑ: ΣΧΕΔΙΑΣΗ ΑΛΓΟΡΙΘΜΩΝ ΔΙΔΑΣΚΩΝ: Π. ΚΑΤΣΑΡΟΣ Παρασκευή, 3 Απριλίου 2015Παρασκευή, 3 Απριλίου 2015Παρασκευή, 3 Απριλίου 2015Παρασκευή, 3 Απριλίου 2015Τμ.
Ελάχιστο Συνδετικό Δέντρο
ΘΕΜΑΤΙΚΗ ΕΝΟΤΗΤΑ 2: ΘΕΜΑΤΑ ΘΕΩΡΗΤΙΚΗΣ ΕΠΙΣΤΗΜΗΣ Η/Υ
Λεξικό, Union – Find Διδάσκοντες: Σ. Ζάχος, Δ. Φωτάκης Επιμέλεια διαφανειών: Δ. Φωτάκης Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών Εθνικό Μετσόβιο.
Advanced Data Indexing (Προηγμένη ευρετηρίαση δεδομένων) Κατακερματισμός – Hashing (1 ο Μέρος)
ΑΝΑΠΤΥΞΗ ΕΦΑΡΜΟΓΩΝ ΣΕ ΠΡΟΓΡΑΜΜΑΤΙΣΤΙΚΟ ΠΕΡΙΒΑΛΛΟΝ §3.7 ΤΑΞΙΝΟΜΗΣΗ
Μέγιστη ροή TexPoint fonts used in EMF. Read the TexPoint manual before you delete this box.: AA A AA A A Συνάρτηση χωρητικότητας Κατευθυνόμενο γράφημα.
Δομές Δεδομένων 1 Θέματα Απόδοσης. Δομές Δεδομένων 2 Οργανώνοντας τα Δεδομένα  Η επιλογή της δομής δεδομένων και του αλγορίθμου επηρεάζουν το χρόνο εκτέλεσης.
Data Mining software Weka. Εισαγωγή Weka: Wekato Environment for knowledge Analysis Η weka είναι ένα software για εξόρυξη δεδομένων γραμμένο σε JAVA το.
Βάσεις Δεδομένων Ευαγγελία Πιτουρά1 Λογικός Σχεδιασμός Σχεσιακών Σχημάτων.
Advanced Data Indexing (Προηγμένη ευρετηρίαση δεδομένων) Ροές Δεδομένων (3 ο Μέρος)
Αυτόνομοι Πράκτορες Ενισχυτική Μάθηση (Q-learning algorithm) in PONG Χανιά, 4/3/2011 Μπαμπαλής Μπάμπης.
ΤΕΙ ΙΟΝΙΩΝ ΝΗΣΩΝ ΤΜΗΜΑ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ ΠΑΡΆΡΤΗΜΑ ΛΕΥΚΑΔΑΣ ΥΠΕΥΘΥΝΗ ΚΑΘΗΓΉΤΡΙΑ Δρ. ΤΣΙΝΤΖΑ ΠΑΝΑΓΙΩΤΑ Οι παρουσιάσεις του μαθήματος βασίζονται στο.
ΤΕΙ ΙΟΝΙΩΝ ΝΗΣΩΝ ΤΜΗΜΑ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ ΠΑΡΆΡΤΗΜΑ ΛΕΥΚΑΔΑΣ ΥΠΕΥΘΥΝΗ ΚΑΘΗΓΉΤΡΙΑ Δρ. ΤΣΙΝΤΖΑ ΠΑΝΑΓΙΩΤΑ Οι παρουσιάσεις του μαθήματος βασίζονται στο.
ΕΙΣΑΓΩΓΗ ΣΤΙΣ ΕΥΡΕΤΙΚΕΣ ΜΕΘΟΔΟΥΣ Άπληστη Αναζήτηση και Αναζήτηση Α* ΣΠΥΡΟΣ ΛΥΚΟΘΑΝΑΣΗΣ, ΚΑΘΗΓΗΤΗΣ.
Παρουσίαση πτυχιακής εργασίας Σαλιάρη Αικατερίνη Επιβλέπων καθηγητής: Αθανάσιος Νικολαΐδης.
ΥΝ Ι: ΑΝΑΠΑΡΑΣΤΑΣΗ ΓΝΩΣΗΣ 1 ΥΠΟΛΟΓΙΣΤΙΚΗ ΝΟΗΜΟΣΥΝΗ (Τεχνητά Νευρωνικά Δίκτυα και Γενετικοί Αλγόριθμοι) ΣΠΥΡΟΣ ΛΥΚΟΘΑΝΑΣΗΣ, ΚΑΘΗΓΗΤΗΣ ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΑΤΡΩΝ.
ΔΥΑΔΙΚΗ ΑΝΑΖΗΤΗΣΗ & ΤΑΞΙΝΟΜΗΣΗ ΜΕ ΣΥΓΧΩΝΕΥΣΗ. Δυαδική αναζήτηση (Binary search) ΔΕΔΟΜΕΝΟ: ένα μεγάλο αρχείο που περιέχει τιμές z [0,1,…,n-1] ταξινομημένες.
ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ
ΟΜΑΔΕΣ Δημιουργία Ομάδων
Επίλυση Προβλημάτων με Αναζήτηση
ΑΛΓΟΡΙΘΜΟΣ ΠΡΟΒΛΗΜΑ ΑΛΓΟΡΙΘΜΟΣ ΛΥΣΗ
Ψηφιακή Επεξεργασία Εικόνας
Βάσεις Δεδομένων ΙΙ 7η διάλεξη
Μέγιστη ροή Κατευθυνόμενο γράφημα 12 Συνάρτηση χωρητικότητας
ΤΕΙ ΚΕΝΤΡΙΚΗΣ ΜΑΚΕΔΟΝΙΑΣ Τμήμα Μηχανικών Πληροφορικής ΤΕ
Ανάπτυξη Εφαρμογών σε Προγραμματιστικό Περιβάλλον ΑΕΠΠ
Μεταπτυχιακή Διπλωματική Εργασία του Ταλαγκόζη Χρήστου
Μη Γραμμικός Προγραμματισμός
Εξωτερική Αναζήτηση Ιεραρχία Μνήμης Υπολογιστή Εξωτερική Μνήμη
Μη Γραμμικός Προγραμματισμός
Μεταγράφημα παρουσίασης:

Εξόρυξη Δεδομένων και Αλγόριθμοι Μάθησης

K-means k-windows k-means: 2 φάσεις 1. Μια διαμέριση των στοιχείων σε k clusters 2. Η ποιότητα της διαμέρισης προσδιορίζεται Υλοποιείται από μια επαναληπτική διαδικασία με αρχική τυχαία διαμέριση και αναθεωρείται μέχρι να φτάσουμε στη βέλτιστη ποιότητα k-windows: ασχολείται μ’ αυτό το πρόβλημα χρησιμοποιώντας τη τεχνική Παραθύρων (επιτρέπει την εξέταση μόνο ενός ορισμένου αριθμού στοιχείων σε κάθε επανάληψη)

k-windows τροποποίηση του κλασσικού αλγορίθμου συσταδοποίησης k-means στόχος: καλύτερη χρονική πολυπλοκότητα μεγαλύτερη ακρίβεια στο χωρισμό των clusters Σύλληψη όλων των στοιχείων που ανήκουν σ’ ένα cluster μέσα στο d-διάστατο window Κεντρική Ιδέα: χρήση ενός window για να καθοριστεί ένα cluster. 3

The window Είναι μια ορθογώνια περιοχή στο d- διαστάσεων Ευκλείδιο Χώρο, όπου το d είναι ο αριθμός των διαφορετικών αριθμητικών χαρακτηριστικών Κάθε window είναι ένα d-range μιας σταθερής α και έχει συγκεκριμένο μέγεθος Προσπαθούμε να τοποθετήσουμε ένα d- διαστάσεων window έτσι ώστε να περιέχει όλα τα στοιχεία που ανήκουν σε ένα μόνο cluster 4

Διαδικασίες Movement-Μετακίνηση στόχος: τοποθέτηση κάθε window όσο γίνεται πιο κοντά στο κέντρο του cluster Κάθε window μετακινείται μέσα στον Ευκλείδειο Χώρο για να κεντράρει τον εαυτό του ανάλογα με το μέσο όρο των σημείων που περιλαμβάνει. 5

Διαδικασίες Enlargement-Διεύρυνση Βελτίωση της ποιότητας του κάθε window Προσπάθεια αύξησης του window έτσι ώστε να περιλαμβάνει όσο το δυνατόν περισσότερα στοιχεία της τρέχουσας συστάδας. 6

Διαδικασίες Μετακινήσεις και διευρύνσεις σε ένα παράθυρο 7 Διαδικασίες

Αλγόριθμος 8

Α΄Φάση 1. k κέντρα επιλέγονται(ίσως και με τυχαίο τρόπο). Τα d-range έχουν σα κέντρα τα k μέσα και καθένα είναι στη περιοχή α 2. Βρίσκουμε τα σημεία που ανήκουν σε καθένα από τα d-range(χρήση του range tree) 3. Ο μέσος όρος των σημείων που ανήκουν στο παράθυρο υπολογίζεται! Κάθε τέτοιος όρος καθορίζει ένα νέο d-range. 4. Επανάληψη των 2,3 μέχρι να μην έχουμε μετακίνηση. 9

Range-tree Ταξινομημένη tree data structure που κρατά ένα κατάλογο σημείων Τοποθετεί όλα τα σημεία σε μια δεδομένη περιοχή όπου πρόκειται να κρατηθούν αποτελεσματικά 10

Αλγόριθμος Β΄Φάση: υπολογισμός της ποιότητας 1. Τα d-ranges αυξάνονται προκειμένου να περιέχουν όσο δυνατό περισσότερα στοιχεία από το cluster, διατηρώντας το μέσο όρο τους κατά τη διάρκεια της διερεύνησης. 2. If r < v τότε επαναϋπολογίζω το παράθυρο 3. Αυξάνω και τη περιοχή σε α΄ > α ή ξεκινώ με διαφορετικά αρχικά kmeans. 11

Παράδειγμα a) Έχουμε 3 clusters και 6 windows b) Μετά τη συγχώνευση, ο αλγόριθμος έχει προσδιορίσει σωστά τις 3 συστάδες 12

k-Windows – Βασικά βήματα 13 Move windows to find cluster centers (fig a) 1.Select k points as centers of d-windows of size a. 2.Window means becomes new center. 3.Repeat until stopping criterion (movement of center). Enlarge windows to determine cluster edges (fig b) 1.Enlarge one dimension by a specified percent. 2.Relocate window as above. 3.Keep only if increase in instances in window exceeds threshold

Unsupervised K-Windows (UKW) 14 Ξεκινάμε με ένα αρκετά μεγάλο αριθμό παραθύρων Συγχώνευση για να καθοριστεί αυτόματα ο αριθμός των clusters Για κάθε ζευγάρι επικαλυπτόμενων παραθύρων, υπολογίζω το ποσοστό % επικάλυψης για κάθε παράθυρο a)Μεγάλη επικάλυψη, θεωρείται ίδιο cluster, το W1 διαγράφεται. b)Πολλά σημεία από κοινού, θεωρείται το ίδιο cluster. c)Μικρή επικάλυψη, θεωρούνται δύο διαφορετικά clusters.

k-windows Πλεονεκτήματα Μειώνει τον αριθμό των σημείων που πρέπει να εξεταστούν για πιθανή ομοιότητα Μικρή Χρονική πολυπλοκότητα Αποτελέσματα υψηλής ποιότητας Μειονεκτήματα Δε μπορεί να εφαρμοστεί σε «μεγάλες» τοποθετήσεις λόγω υπερ-γραμμικών απαιτήσεων για το range tree. 15

16 k-means Vs k-windows Ο πιο διαδεδομένος Συχνά συγκλίνει σε τοπικό ελάχιστο Υπολογιστικά μπορεί να είναι πολύ δαπανηρός Καλύτερος χρόνος εκτέλεσης Καλύτερη ακρίβεια διαίρεσης αντικειμένων Μπορεί να βρει τον κατάλληλο αριθμό συστάδων Μπορεί εύκολα να εκτελεστεί παράλληλα