Μεταπτυχιακή Διπλωματική Εργασία του Ταλαγκόζη Χρήστου Τεχνικες παραλληλης επεξεργασιας για επιλογη χαρακτηριστικων με τον αλγοριθμο Feature Subset Selection Μεταπτυχιακή Διπλωματική Εργασία του Ταλαγκόζη Χρήστου Επιβλέπων Καθηγητής Επίκουρος Καθηγητής Βαρσάμης Δημήτριος
Τι ειναι οι τεχνικεσ επιλογησ χαρακτηριστικων και τι κανει ο feature subset selection ? Η επιλογή χαρακτηριστικών στην μηχανική μάθηση είναι η διαδικασία επιλογής ενός υποσυνόλου σχετικών χαρακτηριστικών για χρήση στην κατασκευή μοντέλου. Οι τεχνικές επιλογής χαρακτηριστικών χρησιμοποιούνται για τέσσερις λόγους: Απλούστευση των μοντέλων ώστε να διευκολυνθεί η ερμηνεία τους από ερευνητές / χρήστες, Βραχύτερους χρόνους μάθησης, Για να αποφύγουμε την κατάρα των διαστάσεων (Curse of dimensionality), Βελτιωμένη γενίκευση με τη μείωση της υπερφόρτωσης
Ποιο ειναι το προβλημα που προσπαθει να λυσει η διπλωματικη ? Δυστυχώς, οι περισσότεροι υπάρχοντες αλγόριθμοι επιλογής χαρακτηριστικών δεν κλιμακώνονται(scale) εύκολα και η αποτελεσματικότητά τους υποβαθμίζεται σημαντικά ή και καθίσταται ανεφάρμοστη, όταν το μέγεθος των δεδομένων φθάνει σε εκατοντάδες gigabytes. Δεύτερη λύση Αντικατάσταση της συχνής χρήσης του αλγορίθμου k-means, μέσα στον αλγόριθμο Feature Subset Selection Πρώτη λύση Εφαρμογή τεχνικών παράλληλης επεξεργασίας στον αλγόριθμο Feature Subset Selection
Τι kanei ο αλγοριθμοσ κ-means ? Ο k-means προσπαθεί να ομαδοποιήσει (συσταδοποιήσει) μια συλλογή από πρότυπα (patterns) σε ομάδες (clusters) με βάση κάποιο μέτρο ομοιότητας. Η διαδικασία αυτή αναφέρεται και ως μη επιβλεπόμενη μάθηση.
Κατασκευαστηκαν δυο εκδοσεις του k-means kmeansRC Αρχικοποίηση με τυχαία κεντροειδή
Κατασκευαστηκαν δυο εκδοσεις του k-means kmeansRΑ Αρχικοποίηση με τυχαίες αναθέσεις των προτύπων σε ομάδες
Κατασκευαστηκαν δυο εκδοσεις του k-means με χρηση τεχνικων παραλληλης επεξεργασιασ Επεκτείνοντας τους kmeansRC και kmeansRA, εφαρμόστηκαν επάνω τους τεχνικές παραλληλοποίηση με την χρήση του εργαλείου Matlab και κατασκευάστηκαν οι παράλληλης επεξεργασίας εκδόσεις τους, kmeansRCP και kmeansRAP αντίστοιχα.
Συγκριση υλοποιησεων του k-means Κλάσεις kmeanRC kmeansRA kmeansRCP kmeansRAP Kmeans Matlab Time(seconds) 2 11.9789 10.2150 3.7436 3.2328 16.6779 4 34.8854 34.9167 10.0661 9.8696 50.2354 5 45.6323 46.8906 13.5520 13.7951 64.1366 100.000 Πρότυπα 5 Χαρακτηριστικά 2,4 και 5 Κλάσεις
Εφαρμογη τεχνικων παρaλληλης επεξεργασiας στον αλγοριθμο Feature Subset Selection Για να εφαρμοστούν τεχνικές παράλληλης επεξεργασίας ο αλγόριθμος έπρεπε να αλλάξει μορφή ως προς την υλοποίηση του στο Matlab Εφαρμογή του βρόχου parfor (fssPkmeans) Χρήση των εντολών spmd (fssSPMDkmeans)
Πρωτη Συγκριση υλοποιησεων των αλγοριθμων Feature subset selection Χαρ/κά fsskmeansRa fsskmeansRAP fssPkmeans fssSPMDkmeans fss Time(seconds) 10 0.9321 1.6480 0.5810 - 4.8296 50 3.8414 8.1565 1.1136 24.6746 100 14.5106 24.7715 4.7709 13.7951 109.791 100 Πρότυπα 2 Κλάσεις 10, 50 και 100 Χαρακτηριστικά
δευτερη Συγκριση υλοποιησεων των αλγοριθμων Feature subset selection Χαρ/κά fsskmeansRa fsskmeansRAP fssPkmeans fssSPMDkmeans fss Time(seconds) 10 2.2610 2.7417 0.7698 - 20.9207 50 11.9746 14.8648 3.2991 85.2409 100 27.1529 31.0435 7.2701 7.7203 717.148 500 Πρότυπα 2 Κλάσεις 10, 50 και 100 Χαρακτηριστικά
τριτη Συγκριση υλοποιησεων των αλγοριθμων Feature subset selection Χαρ/κά fsskmeansRa fsskmeansRAP fssPkmeans fssSPMDkmeans fss Time(seconds) 10 4.2202 3.5962 1.3490 - 18.2973 50 17.0633 17.9306 4.6280 122.161 100 33.5761 35.1833 8.6876 9.2055 368.614 1.000 Πρότυπα 2 Κλάσεις 10, 50 και 100 Χαρακτηριστικά
τεταρτη Συγκριση υλοποιησεων των αλγοριθμων Feature subset selection Χαρ/κά fsskmeansRa fsskmeansRAP fssPkmeans fssSPMDkmeans fss Time(seconds) 10 29.987 17.402 8.217 - 62.6601 50 161.44 94.27 43.624 2361.35 100 305.78 184.8 73.852 76.949 2171.44 10.000 Πρότυπα 2 Κλάσεις 10, 50 και 100 Χαρακτηριστικά