Y ΠΟΛΟΓΙΣΜΟΣ Y ΠΟΛΟΓΙΣΜΟΣ ΤΗΣ Ε ΠΙΔΡΑΣΗΣ Ε ΠΙΔΡΑΣΗΣ ΤΩΝ ΤΩΝ Ε ΙΣΟΔΩΝ Χ ΑΡΑΚΤΗΡΙΣΤΙΚΩΝ Χ ΑΡΑΚΤΗΡΙΣΤΙΚΩΝ ΣΕ ΕΝΑ Ν ΕΥΡΩΝΙΚΟ Ν ΕΥΡΩΝΙΚΟ Δ ΙΚΤΥΟ Χάρης Παπαδόπουλος Τμήμα Πληροφορικής Πανεπιστήμιο Ιωαννίνων
Γενική Επισκόπηση Γενική Περιγραφή Γενική Περιγραφή Τεχνικές υπολογισμού συσχέτισης εισόδων χαρακτηριστικών. Τεχνικές υπολογισμού συσχέτισης εισόδων χαρακτηριστικών. Μέθοδοι που συγκρίνουν τις παραπάνω τεχνικές. Μέθοδοι που συγκρίνουν τις παραπάνω τεχνικές. Αποτελέσματα από το LIC1 πρόβλημα Αποτελέσματα από το LIC1 πρόβλημα Το πρόβλημα της Οστεοπόροσης Το πρόβλημα της Οστεοπόροσης Το Level-Off πρόβλημα Το Level-Off πρόβλημα Συμπεράσματα-Κατευθύνσεις Συμπεράσματα-Κατευθύνσεις
Γενική Περιγραφή Αναγνώριση των σημαντικών χαρακτηριστικών κατά την προεπεξεργασία των δεδομένων για την ψηλή απόδόση του MLP. “Weighting Product” και “Clamping Technique”. Εξέταση των τεχνικών σε διαφορετικά διαμορφωμένα δίκτυα και συσχέτιση των αποτελεσμάτων(ταξινομήσεων) τους. Σύγκριση πάνω σε πρόβλημα που ελέγχουμε την ακρίβεια των αποτελεσμάτων, αλλά και σε δύο πραγματικά προβλήματα: εκτίμηση πιθανότητας νοσεμένων οστών και έλεγχος συμφώρησης αεροπλάνων. Παράγουμε MLP’s με το μικρότερο αριθμό εισόδων και την μεγαλύτερη δυνατή ακρίβεια, χωρίς πρώτα να χρειάζεται να παράγουμε βέλτιστα εκπαιδευμένα δίκτυα.
Weight Product Technique Μεγάλη αρνητική τιμή: σημαντική ελάττωση εξόδου και Μεγάλη θετική τιμή: σημαντική αύξηση εξόδου. Εξαρτάται άμεσα από τα πρότυπα εισόδου και την συνάρηση του δικτύου. xixi w ij ojoj w jk okok
2)Έλεγχος του δικτύου με test set που περιέχει Ρ πρότυπα (x = {x ip : i=1... n, p=1 … P}) και υπολογισμός του g(x). Clamping Technique Στηρίζεται στο γεγονός ότι όσο πιο σημαντική είναι η επίδραση ενός χαρακτηριστικού, τόσο πιο απότομη θα είναι η αλλαγή στην απόδοση του δικτύου όταν η είσοδος του χαρακτηριστικού μετακινείται την μέση τιμή της. Ορίζουμε τον λόγο: γενική απόδοση δικτύου 1)Εκπαίδευση του MLP
Clamping Technique 3)Υπολογισμός της μέσης τιμής για κάθε χαρακτηριστικό: 4)Για όλα τα πρότυπα ελέγχου αντικατέστησε την τιμή τους με την μέση τιμή τους και υπολόγισε για το καθένα την απόδοση: 5)Υπολογισμός ξ(x i ) και ταξινόμηση σε φθίνουσα τάξη. Μεγαλύτερο ξ(x i ) δείχνει ότι το χαρακτηριστικό x i έχει σημαντική συνεισφορά στην έξοδο.
Με τις προηγούμενες τεχνικές παράγουμε διάφορες ταξινομήσεις των χαρακτηριστών. Διαφορές και Ομοιότητες των τεχνικών Υποθέτουμε δύο ταξινομήσεις Ρ = {…p i …} και Q = {…q i …} που παράγονται από ένα πρόβλημα με n χαρακτηριστικά. (p i δηλώνει την θέση του x i στην ταξινόμηση Ρ ) Ορίζουμε d i = p i - q i ως τη διαφορά της θέσης x i σε κάθε ταξινόμηση. Manhattan Distance: Με την τιμή του D εξετάζουμε την ανομοιότητα των ταξινομήσεων. Μικρό D => μικρή διαφορά μεταξύ τους.
Ο συντελεστής συσχέτησης Spearman’s ορίζεται ως: Για r s = 1 οι ταξινομήσεις είναι ίδιες. Για r s = -1 είναι σε αντίστροφη σειρά. Για r s = 0 δεν υπάρχει καμία συσχέτιση μεταξύ τους. Μέτρηση με βάρη που θεωρεί πιο σημαντικά τα χαρακτηριστικά που ταξινομούνται σε ψηλότερες θέσεις Για β = 0 οι ταξινομήσεις είναι ίδιες και όσο πιο μεγάλο είναι τόσο πιο ανόμοιες είναι οι ταξινομήσεις Με τις προηγούμενες τεχνικές παράγουμε Ν ταξινομήσεις από την κάθε μια και χρησιμοποιούμε τις παραπάνω μετρήσεις για να συγκρίνουμε κάθε δυνατό ζευγάρι. Παίρνουμε την μέση τιμή και την τυπική απόκλιση από τα Ν(Ν-1)/2 ζεύγη.
H παράμετρος length είναι η πιο κρίσιμη στην απόφαση που παίρνουμε. Οι άλλες τέσσερις παράμετροι είναι εξίσου σημαντικές αλλά όχι όσο το length. LIC1 Νευρωνικό δίκτυο με 6 χαρακτηριστικά εισόδου (χρησιμοποιούμε μια dummy είσοδο inp6 για να εξετάσουμε την συνεισφορά της), μια έξοδο πρότυπα εισόδου εκπαίδευσης (μέχρι 200 εποχές). Πείραμε 27 αποτελέσματα, από 3 διαφορετικά σύνολα δεδομένων με 3 διαφορετικές αρχικοποιήσεις βαρών και με 3 διαφορετικές αρχιτεκτονικές (5, 10, 15 κρυμένους νευρώνες). Οι τιμές από τη μέθοδο “weight product” κλιμακώθηκαν στο διάστημα [-100, 100].
Η “clamping” τεχνική δείχνει καθαρά ότι η παράμετρος length είναι η πιο σημαντική, οι x 1, y 1, x 2, y 2 είναι εξίσου σημαντικές και η inp6 είναι άσχετη. Η μικρή τυπική απόκλιση δείχνει ότι τα αποτέλέσματα είναι συνεπή και σε διαφορετικά δίκτυα. LIC1 Η “weight product” τεχνική αναγνωρίζει ότι το length είναι το πιο σημαντικό αλλά δεν υποδεικνύει τίποτα για όλες τις άλλες. Οι τιμές των D και β δείχνουν ότι οι ταξινομήσεις από την “clamping” τεχνική είναι πολύ λιγότερο ανόμοιες μεταξύ τους απ’ ότι αυτές της weighting. Το Spearman’s δείχνει την συσχέτιση των ταξινομήσεων στη clamping (μικρή τυπκή απόκλιση).
Επαναλάβαμε το προηγούμενο πείραμα με inp6 = x 1 - x 2, που περιέχει τις πληροφορίες των x 1, x 2 για τον υπολογισμό της απόστασης. Σε αυτή τη περίπτωση περιμένουμε να μην χρειάζονται σημαντικά οι τιμές των x 1, x 2. LIC1 Πάλι αναγνωρίζεται η length ως το πιο σημαντικό. Η clamping τεχνική παρέχει επίσης την πληροφορία ότι οι y 1, y 2 inp6 είναι εξ’ίσου σημαντικές ενώ οι x 1, x 2 είναι οι λιγότερο απαραίτητες. Η weight product δίνει μόνο την πληροφορία για το length.
Ένα πολύ σημαντικό πρόβλημα είναι η αναγνώριση των πιο κρίσιμων και επικίνδυνων παραγόντων για την πάθηση της οστεοπόρωσης. Εξετάστηκαν πάνω από 700 περιπτώσεις και ειδικοί ξεχώρισαν 31 παραμέτρους (πάρα πολλές, συνήθως 5-10). Έτσι επιθυμούμε να μειωθούν, αναγνωρίζοντας τις πιο σημαντικές. Osteoporosis Problem Για την εφαρμογή νευρωνικών δικτύων το σύνολο δεδομένων χωρίστηκε σε 3 υποσύνολα(317 train, 200 valid, 200 test) και διαλέξαμε 9 MLP’s για την εξαγωγή ταξινομήσεων. Οι τέσσερις πρωτες είναι πολύ σημαντικές (ξ>0.1). Οι επόμενες 9 με 0.05 < ξ < 0.1 μέτρια σημαντικές και αυτές που είναι μεταξύ 0.01< ξ < 0.05 λιγότερο σημαντικές. Τις υπόλοιπες τις αγνοούμε.
Οι 9 ταξινομήσεις που πήραμε από την clamping τεχνική είναι πάλι πιο συνεπής από αυτές του weight product. Για να επεκτείνουμε τον έλεγχο των τεχνικών, διαλέξαμε τα 10, 15 και 20 καλύτερα χαρακτηριστικά για την εκπαίδευση των 9 νευρωνικών δικτύων. Τα δίκτυα που εκπαιδεύτικαν από τα σημαντικότερα 10, 15 και 20 χαρακτηριστικά της clamping τεχνικής δίνουν καλύτερα αποτελέσματα από τα δίκτυα που κατασκεύασαν τα καλύτερα χαρακτηριστικά της weighting τεχνικής.
Level-off Problem Η αλλαγή των επιπέδων των αεροπλάνων πρέπει να πιθαναλογείται με μεγάλη ακρίβεια. Τα δεδομένα έχουν προέλθει από στοίβες που κρατούνται στο Hearthrow καθώς σε κάθε στοίβα υπάρχει ένας αριθμός επιπέδου στο οποίο μπορεί ή όχι ένα αεροπλάνο να μεταπηδήσει. 28 χαρακτηριστικά εισόδου με πραγματικές και boolean τιμές: 1 boolean έξοδο : αν πρέπει να αλλάξει επίπεδο. Καταγράφτηκαν πραγματικά δεδομένα σε διάστημα 3 εβδομάδων ( πρότυπα). Εκπαιδεύτηκαν 3 δίκτυα χρησιμοποιώντας διαφορετικά 8/9 των δεδομένων, με διάφορους κρυμμένους νευρώνες και αρχικά βάρη και καθορισμένο αριθμό εποχών(20).
Βρέθηκε ότι η clamping είχε συνεπή αποτελέσματα σε όλα τα δίκτυα, ενώ η weighting άλλαζε σε διαφορετικά δίκτυα. Η ταξινόμηση του clamping δείχνει τα πρώτα 5 χαρακτηριστικά ότι είναι τα πιο σημαντικά, ενώ από την weighting δεν προκύπτει κανένα σύνολο από χαρακτηριστικά. Εκπαιδεύσαμε τα δίκτυα με τα καλύτερα 5, 10 και 15 χαρακτηριστικά με διαφορετικό αριθμό κρυμμένων μονάδων και αρχικά βάρη σε διαφορετικά υποσύνολα δεδομένων από τις 2 πρώτες βδομ. και τα ελέγξαμε με τα δεδομένα της 3ης βδομ. Με 5 και 10 χαρακτηριστικά η clamping οδηγεί σε καλύτερα αποτελέσματα απ’ ότι η weighting. Ειδικότερα τα 5 καλύτερα χαρακτηριστικά της clamping οδηγούν σε αρκετά ψηλή γενίκευση.
Εξετάζουν μόνο εισόδους δικτύων που δίνονται απ’ευθείας από το πρόβλημα και δεν αποσκοπεί στην εξαγωγή χαρακτηριστικών που που μπορεί να έχει κωδικοποιηθεί σε μια είσοδο (να περιέχει και άλλες εισόδους). Σε όλες τις περιπτώσεις η clamping τεχνική δίνει σωστά και συνεπή αποτελέσματα για πολλά χαρακτηριστικά. Η weighting δίνει μόνο την πληροφορία για το καλύτερο από όλα χαρακτηριστικό. Συμπεράσματα - Κατευθύνσεις Μειώνονται χαρακτηριστικά με περιττή πληροφορία ή ακόμα και θόρυβο. Ακόμα και το 20% των αρχικών χαρακτηριστικών μπορούν να δώσουν αποτελέσματα που διαφέρουν ελάχιστα από τη γενικευτική ικανότητα των αρχικών. Ανάγκη τεχνικών που είναι πιο περιεκτικοί, συγκριτικοί και με μεγαλύτερη δυνατότητα επιλογής των παραμέτρων που χρειάζονται.