Ενεργή επιλογή αλγορίθμου, Active Algorithm Selection, Feilong Chen and Rong Jin Εύα Σιταρίδη
Εισαγωγή Οι μέχρι τώρα έρευνες έχουν εστιάσει στο πρόβλημα της ενεργής επιλογής μοντέλου. Πρόβλημα επιλογής μοντέλου: Δεδομένου ενός συνόλου δεδομένων απαιτείται επιλογή των παραδειγμάτων με τη μέγιστη ποσότητα πληροφορίας για την επιλογή του βέλτιστου από μία προκαθορισμένη οικογένεια μοντέλων με όσο το δυνατόν μικρότερο αριθμό παραδειγμάτων εκπαίδευσης (παραδειγμάτων για την κατασκευή του μοντέλου) Στόχος: βελτιστοποίηση απόδοσης του χρησιμοποιούμενου αλγόριθμου μηχανικής μάθησης. Ιδέα κλειδί: επιλογή παραδειγμάτων με τη μεγαλύτερη αβεβαιότητα ταξινόμησης
Ενεργή επιλογή αλγορίθμου-Το πρόβλημα Ορισμός: Δεδομένου ενός συνόλου δεδομένων και ενός συνόλου αλγορίθμων μηχανικής μάθησης για δυαδική ταξινόμηση ο στόχος είναι η αναγνώριση του βέλτιστου αλγορίθμου με χρήση του ελάχιστου αριθμού παραδειγμάτων. Μήπως ο μικρός αριθμός παραδειγμάτων μειώνει την απόδοση του αλγορίθμου ; Απάντηση Έχει αποδειχτεί ότι η προσεχτική επιλογή των παραδειγμάτων που χρησιμοποιούνται δεν επηρεάζει τον αλγόριθμο που επιλέγεται ως βέλτιστος.
Προηγούμενη εργασία στον τομέα Ενεργή μάθηση: ευρέως μελετημένο πρόβλημα στην εκμάθηση μηχανών. - επαναληπτικοί αλγόριθμοι - σε κάθε επανάληψη επιλογή παραδείγματος με τη μέγιστη ποσότητα πληροφορίας και πρόσθεσή του στο σύνολο εκπαίδευσης. - τερματισμός με την επίτευξη ικανοποιητικής ακρίβειας ταξινόμησης. Αλγόριθμος Μέγιστης Διάκρισης Εντροπίας: επεκτάθηκε για υπολογισμό βαρών κάθε αλγορίθμου σε συνδυασμό τους. Αλγόριθμος Hedge: συνδυάζει πολλά μοντέλα για να βελτιστοποιήσει την ακρίβεια ταξινόμησης.
Προηγούμενη εργασία στον τομέα- Έννοιες αλγόριθμου Hedge(1) Έστω Μ= {Μ 1, Μ 2, …,Μ s } μοντέλα δυαδικής ταξινόμησης και y t {-1,1} ετικέτες κλάσεων ταξινόμησης Συνδυασμός μοντέλων και ανάθεση βάρους σε αυτά για περισσότερη ακρίβεια ταξινόμησης Συνάρτηση απώλειας μοντέλου: Έστω l(y,y’) η συνάρτηση απώλειας μεταξύ της τιμής- «ετικέτα» που αντιστοιχεί στην πραγματική κλάση και σε αυτή που αντιστοιχεί στην προβλεπόμενη από το μοντέλο. Συνολικό σφάλμα ταξινόμησης για συνδυασμό μοντέλων
Προηγούμενη εργασία στον τομέα- Έννοιες αλγόριθμου Hedge(2) Παράγοντας ποινής β: ορίζεται για τον καθορισμό της μείωσης του βάρους ενός μοντέλου για κάθε λάθος πρόβλεψη Βάρος μοντέλου (για περισσότερη ακρίβεια ταξινόμησης) 1. Αρχικά ομοιόμορφη κατανομή των βαρών 2. Για κάθε παράδειγμα :
Ενεργή επιλογή αλγορίθμου – Min-Max πλαίσιο Εκτέλεση των δοθέντων αλγορίθμων πάνω σε σύνολο παραδειγμάτων D -> Μ={Μ 1,Μ 2,…, Μ s } Σε κάθε επανάληψη επιλέγεται για ταξινόμηση x που μεγιστοποιεί τη συνάρτηση απώλειας βάρους: Το βάρος ενός μοντέλου μπορεί να θεωρηθεί η πιθανότητα να επιλεγεί. Αν p(y|x,M): πιθανότητα του x να ταξινομηθεί στην κλάση y από το μοντέλο M
Πληροφορίας συνάφειας παραδειγμάτων Μειονέκτημα MinMax: αντιμετωπίζει ανεξάρτητα τα παραδείγματα Εισαγωγή πίνακα P συσχέτισης ανά ζεύγους: - P ij : πιθανότητα x i και x j στην ίδια κλάση - Υπολογίζεται από προβλέψεις μοντέλων στο M Τότε το πρόβλημα βελτιστοποίησης γράφεται ως εξής: για P ij = προκύπτει το προηγούμενο πρόβλημα
Εκτίμηση βαρών συνδυασμού παραδειγμάτων Πρόβλημα σε υπολογισμό βαρών αλγορίθμου Hedge: ίδιο β για κάθε μοντέλο Απαίτηση: μικρό β για παραδείγματα με μεγάλη ποσότητα πληροφορίας και αντίστροφα Λύση: Υπολογισμός w από το πρόβλημα βελτιστοποίησης: γ:συντελεστής τη σημασία ενός λαθών ταξινόμησης Ο αλγόριθμος τείνει να αποδώσει πιο μικρά βάρη σε αλγορίθμους που κάνουν περισσότερα λάθη
Πειραματική αξιολόγηση(1) Τα πειράματα αφορούσαν τους εξής τομείς: – ανίχνευση φαρμάκων – προώθηση προϊόντων – αναγνώριση ψηφίων Χρησιμοποιήθηκαν 10 διαφορετικοί αλγόριθμοι Για κάθε σύνολο δεδομένων μοναδικός βέλτιστος σημαντικά καλύτερος αλγόριθμος από τους υπόλοιπους.
Πειραματική αξιολόγηση(2) Τρεις παραλλαγές του αλγορίθμου: – Αλγόριθμος Hedge με β=0.7 – Αλγόριθμος Hedge + Correlation με β=0.7 – MED+Correlation και δύο «αφελείς» αλγόριθμοι – Τυχαία επιλογή παραδειγμάτων – Ισότιμοι αλγόριθμοι, επιλογή παραδειγμάτων τη μεγαλύτερη ασυμφωνία σε προβλέψεις Μέτρηση απόδοσης αλγορίθμων με : – Αριθμός απαιτούμενων παραδειγμάτων για επικράτηση αλγορίθμου – Ακρίβεια αλγορίθμου για συγκεκριμένο αριθμό παραδειγμάτων
Αποτελέσματα Ο αλγόριθμος Hedge και οι δύο απλοί τρόποι δεν έχουν σημαντικά χειρότερη απόδοση από τους άλλους MED+Correlation καλύτερος από τον Hedge+ Correlation γιατί προσαρμόζει τους συντελεστές βt Προτιμάται η χρήση του βέλτιστου αλγορίθμου από το συνδυασμό τους (για μικρά σύνολα εκπαίδευσης μικρή διαφορά απόδοσης).
Σύνοψη και μελλοντική έρευνα Το πρόβλημα: επιλογή του βέλτιστου από ένα καθορισμένο σύνολο αλγορίθμων μάθησης με τον ελάχιστο αριθμό παραδειγμάτων Προτείνεται αλγόριθμος βασισμένος σε αλγόριθμο του Hedge και την αρχή MaxMin. Επέκταση: εκμετάλλευση πληροφορίας συνάφειας μεταξύ των παραδειγμάτων και αυτόματος υπολογισμός των βαρών τους Μελλοντική έρευνα: καλύπτονται περιπτώσεις όπου δεν υπάρχει σημαντική διαφορά μεταξύ της απόδοσης των δύο πρώτων αλγορίθμων αλλά και περιπτώσεις όπου πάνω από ένας αλγόριθμοι είναι βέλτιστοι.
Ερωτήσεις