ΠΕΡΙΒΑΛΛΟΝΤΙΚΗ ΠΡΟΒΛΕΨΗ ΜΕ ΜΕΘΟΔΟΥΣ ΜΗΧΑΝΙΚΗΣ ΜΑΘΗΣΗΣ ΗΛΙΑΣ Θ. ΚΑΛΑΠΑΝΙΔΑΣ ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΑΤΡΩΝ 2003
Η διάρθρωση της παρουσίασης 1.Μηχανική Μάθηση 2.Περιβαλλοντική Πληροφορική 3.Προ-επεξεργασία 4.Μείωση των διαστάσεων 5.Εφαρμογή των αλγορίθμων 6.Κατανεμημένη υλοποίηση 7.Προς ένα ολοκληρωμένο σύστημα 8.Συμπεράσματα
1. ΜΗΧΑΝΙΚΗ ΜΑΘΗΣΗ Ορισμός Μορφοποίηση συνόλου δεδομένων Εφαρμογές Αλγόριθμοι 1.Μηχανική Μάθηση
ΜΗΧΑΝΙΚΗ ΜΑΘΗΣΗ Ορισμός: «Η αναζήτηση σε ένα χώρο πιθανών υποθέσεων εκείνης της υπόθεσης που ταιριάζει καλύτερα στα υπό εξέταση δεδομένα και στην πιθανώς προϋπάρχουσα γνώση» 1.Μηχανική Μάθηση
Ένα παράδειγμα Αναγνώριση του λουλουδιού της ίριδας Πιθανές κλάσεις που αυτό ανήκει: –Iris Setosa –Iris Virginica –Iris Versicolour 4 ιδιότητες –Μήκος πετάλου –Πλάτος πετάλου –Μήκος σεπάλου –Πλάτος σεπάλου 1.Μηχανική Μάθηση
Μορφοποιημένο σύνολο δεδομένων Iris-setosa Iris-setosa Iris-setosa Iris-setosa Iris-setosa …………… Iris-versicolor Iris-versicolor …………… Iris-virginica Iris-virginica 1.Μηχανική Μάθηση ΙδιότητεςΜεταβλητή κλάσης Παράδειγμα Μήκος σεπάλου Πλάτος σεπάλου Πλάτος πετάλου Μήκος πετάλου
Εκπαίδευση του αλγόριθμου Iris-setosa Iris-setosa …………… Iris-virginica 1.Μηχανική Μάθηση Σύνολο εκπαίδευσης Αλγόριθμος Εκπαιδευμένο μοντέλο αλγορίθμου Υ’ = f(X) + ε
Αξιολόγηση του αλγόριθμου Iris-setosa Iris-setosa …………… Iris-virginica Σύνολο αξιολόγησης Υ’ = f(X) + ε Αλγόριθμος Μέτρα Απόδοσης Εκπαιδευμένου Μοντέλου 1.Μηχανική Μάθηση
Νέο παράδειγμα Εφαρμογή του αλγόριθμου Iris-setosa Υ’ = f(X) + ε Αλγόριθμος Πρόβλεψη 1.Μηχανική Μάθηση
Εφαρμογές Χρηματιστήριο Βιομηχανία Περιβάλλον Βιοτεχνολογία/ Γενετική Τραπεζικός/ Ασφαλιστικός τομέας 1.Μηχανική Μάθηση
Αλγόριθμοι Είδη Μηχ.Μάθησης –Υπό επίβλεψη –Χωρίς επίβλεψη Τύποι προβλημάτων υπό επίβλεψη –Παλινδρόμησης –Ταξινόμησης 1.Μηχανική Μάθηση
Αλγόριθμοι K-κοντινότεροι γείτονες Παλινδρόμηση Τεχνητά Νευρωνικά Δίκτυα Περιπτωσιακός Λογισμός Δέντρα Απόφασης Δίκτυα Bayes Γενετικοί Αλγόριθμοι 1.Μηχανική Μάθηση
Κ-κοντινότεροι γείτονες 1.Μηχανική Μάθηση ? R
Κ-κοντινότεροι γείτονες Πλεονεκτήματα: –Απλή υλοποίηση –Αποδεκτά αποτελέσματα σε μεγάλο πεδίο εφαρμογών –Πολύχρονη εμπειρία χρήσης Μειονεκτήματα: –Χρονοβόρος σε μεγάλα σύνολα δεδομένων 1.Μηχανική Μάθηση
Παλινδρόμηση 1.Μηχανική Μάθηση
Τεχνητά Νευρωνικά Δίκτυα 1.Μηχανική Μάθηση Πρώτη κρυμμένη ζώνη Δεύτερη κρυμμένη ζώνη Είσοδος 3Είσοδος 1 Είσοδος 2Είσοδος 4 Είσοδος 5 Είσοδος 6 Είσοδος 7 Είσοδος 8 Είσοδος 9 Είσοδος 10 Έξοδος
Τεχνητά Νευρωνικά Δίκτυα Πλεονεκτήματα –Ανοχή στον θόρυβο –Ικανότητα γενίκευσης Μειονεκτήματα –Δυσνόητο μοντέλο (μαύρο κουτί) –Δυσανάλογος χρόνος εκπαίδευσης 1.Μηχανική Μάθηση
Περιπτωσιακός Λογισμός 1.Μηχανική Μάθηση Νέα περίπτωσ η Πρόβλημα Παλαιά περίπτωση Νέα περίπτωσ η Λυμένη περίπτωση Δοκιμασμένη/ διορθωμένη λύση Διδαχθείσα περίπτωση Ανάκληση περιπτώσεων Επαναχρησιμοποίηση παλιών λύσεων Προσαρμογή λύσης Αιτιολόγηση λύσης Γενική Γνώση Παλαιά περίπτωση Παλαιές περιπτώσεις Προτεινόμενη λύσηΕγκεκριμένη λύση
Δέντρα Απόφασης 1.Μηχανική Μάθηση
Δίκτυα Bayes 1.Μηχανική Μάθηση Χ1Χ1 Χ2Χ2 Χ3Χ3 Χ4Χ4 Χ5Χ5 Υ P(X1, X2, X3, X4, X5, Y) = P(X1)·P(X2)·P(X3|X1, X2)·P(Y|X1, X2, X3)·P(X4|Y)· P(X5|X4, Y)
Γενετικοί Αλγόριθμοι 1.Μηχανική Μάθηση Αρχικός πληθυσμός Αξιολόγηση συνάρτησης προσαρμογής Επιλογή Διασταύρωση Μετάλλαξη Γέννηση νέου πληθυσμού Επιτεύχθηκαν τα κριτήρια βελτιστοποίησης; Εξαγωγή λύσης Ναι Όχι
Περιβαλλοντική Πληροφορική Θέματα: –Ολοκληρωμένες πλατφόρμες αξιολόγησης και μελέτες περιπτώσεων –Ανάλυση περιβαλλοντικών συστημάτων –Πρόβλεψη περιβαλλοντικών αλλαγών –Παρακολούθηση του περιβάλλοντος σε πραγματικό χρόνο –Πιστοποίηση ποιότητας περιβαλλοντικών μοντέλων –Εφαρμογές μοντελοποίησης με agents και εξομοίωσης σε περιβαλλοντικά συστήματα 2.Περιβαλλοντική Πληροφορική
Περιβαλλοντική Πληροφορική Πεδία Εφαρμογής: –Ποιότητα Αέρα –Ποιότητα Εδάφους –Ποιότητα Υδάτων –Διαχείριση Αποβλήτων 2.Περιβαλλοντική Πληροφορική
Αέρια Ρύπανση Παρακολούθηση και πρόβλεψη των επιβλαβών ρύπων: –Ο 3 –ΝΟ x –PM10 Σωματίδια –Καπνός 2.Περιβαλλοντική Πληροφορική
Τα προβλήματα του ΠΕΡΠΑ Πρόβλεψη της μέγιστης συγκέντρωσης για τους ρύπους: –ΝΟ 2 –Ο 3 Για τις χρονικές περιόδους: –Ίδια ημέρα μετά τις 10 π.μ. –Επόμενη ημέρα 2.Περιβαλλοντική Πληροφορική
Π1/Π2 Πρόβλεψη την ίδια ημέρα ΠρόβλεψηΣυλλογή δεδομένων O 3 max NO 2 max 2.Περιβαλλοντική Πληροφορική
Π3/Π4 Πρόβλεψη για την επόμενη ημέρα ΠρόβλεψηΣυλλογή δεδομένων O 3 max NO 2 max 2.Περιβαλλοντική Πληροφορική
Προ-επεξεργασία των δεδομένων Αντιμετώπιση θορύβου Αντικατάσταση ελλιπών τιμών 3.Προ-επεξεργασία
Μελέτη θορύβου 2 μοντέλα θορύβου: –Ύπαρξη θορύβου μόνο στις ιδιότητες –Ύπαρξη θορύβου και στις ιδιότητες και στην εξαρτημένη μεταβλητή Εκτίμηση απόκλισης τιμής ιδιότητας λόγω θορύβου: 3.Προ-επεξεργασία
Αποτελέσματα μελέτης θορύβου- 1ο μοντέλο 3.Προ-επεξεργασία
Αποτελέσματα μελέτης θορύβου- 2ο μοντέλο 3.Προ-επεξεργασία
Μελέτη μεθόδων αντικατάστασης ελλιπών τιμών Ελλιπής τιμή στο παράδειγμα p στην ιδιότητα Χ i που ανήκει στην κλάση Υ j 1.Αντικατάσταση με τη μέση τιμή της ιδιότητας 2.Αντικατάσταση με τη μέση τιμή της ιδιότητας ανάμεσα στα παραδείγματα που ανήκουν στην κλάση Υ j 3.Δημιουργία k συνόλων δεδομένων από το αρχικό σύνολο, όπου οι ελλιπείς τιμές έχουν αντικατασταθεί από κατάλληλα υπολογισμένες τιμές με τη μέθοδο της μεγιστοποίησης της προσδοκίας (Expecation Maximization –EM) 4.Εφαρμογή επίμονου προβλέπτη, δηλαδή αντικατάσταση με την τιμή X i | p-1 3.Προ-επεξεργασία
Αποτελέσματα ελλιπών τιμών- RMSE 3.Προ-επεξεργασία
Αποτελέσματα ελλιπών τιμών– Χρόνος ανάπτυξης μοντέλου 3.Προ-επεξεργασία
Μείωση των διαστάσεων Ορισμός, γιατί και πως Μέθοδοι επιλογής ιδιοτήτων Περιτύλιξη με γενετικό αλγόριθμο Λεπτομέρειες της υλοποίησης Ρύθμιση των παραμέτρων Αποτελέσματα Σύγκριση με άλλη μέθοδο επιλογής ιδιοτήτων 4.Μείωση των Διαστάσεων
Επιλογή των ιδιοτήτων ν πιθανοί συνδυασμοί ν!/μ!(ν-μ)! πιθανοί συνδυασμοί από μ ιδιότητες 4.Μείωση των Διαστάσεων
Πως ορίζεται η ιδιότητα Ορισμός ιδιότητας: –Η συγκέντρωση του ρύπου P, στο σταθμό μέτρησης S, την ώρα H, Ο ημέρες πριν την ημέρα της πρόβλεψης D (D-O) Ή –Η συγκεντρωτική συνάρτηση F της συγκέντρωσης του ρύπου P, στο σταθμό μέτρησης S, από την ώρα H1 έως H2, Ο ημέρες πριν την ημέρα της πρόβλεψης D (D-O) 4.Μείωση των Διαστάσεων
Λόγοι επιλογής ιδιοτήτων Πάρα πολλές ιδιότητες από τις οποίες μπορεί να κατασκευαστεί ένα σύνολο δεδομένων Μερικές ιδιότητες είναι περιττές ή μη σχετιζόμενες με την εξαρτημένη μεταβλητή Απλοποίηση του μοντέλου πολλές φορές βελτιώνει την ικανότητα γενίκευσης (κανόνας του Occam) Η ανεύρεση των σημαντικών ιδιοτήτων συμβάλει στην κατανόηση του προβλήματος 4.Μείωση των Διαστάσεων
Μέθοδοι Αντιμετώπισης Μέθοδοι –Φιλτραρίσματος –Περιτύλιξης 4.Μείωση των Διαστάσεων
Μέθοδος φιλτραρίσματος 4.Μείωση των Διαστάσεων Αποθήκη ιδιοτήτων Υποσύνολο ιδιοτήτων υπό αξιολόγηση Επιλογή υποσυνόλου ιδιοτήτων Υπολογισμός μέτρων ποιότητας των ιδιοτήτων Επαύξηση ή μείωση των ιδιοτήτων Είναι αποδεκτό το αξιολογημένο υποσύνολο; Όχι Ναι Επιλεγμένο υποσύνολο ιδιοτήτων Επιλογή νέου υποσυνόλου ιδιοτήτων Μέθοδος φιλτραρίσματος
Γενετικός Αλγόριθμος Μέθοδος περιτύλιξης 4.Μείωση των Διαστάσεων Αποθήκη ιδιοτήτων Υποσύνολο ιδιοτήτων υπό αξιολόγηση Επιλογή υποσυνόλου ιδιοτήτων Εκπαιδευμένο Μοντέλο Σύνολο δεδομένων Κατασκευή συνόλου δεδομένων Αξιολογημένο Μοντέλο Εκπαίδευση ΑλγορίθμουΑξιολόγηση Αλγορίθμου Είναι αποδεκτό το αξιολογημένο μοντέλο; Επιλογή νέου υποσυνόλου ιδιοτήτων Όχι Ναι Επιλεγμένο υποσύνολο ιδιοτήτων Κ-κοντινότεροι γείτονες
Περιτύλιξη με Γενετικό Αλγόριθμο Δημιουργία πληθυσμού από υποσύνολα ιδιοτήτων Συνάρτηση προσαρμογής δύο κριτηρίων: –Απόδοση συνόλου δεδομένων του υποσυνόλου ιδιοτήτων στον αλγόριθμο κ-κοντινότερων γειτόνων –Μέγεθος υποσυνόλου ιδιοτήτων Εξέλιξη πληθυσμού ανά γενιά εφαρμόζοντας γενετικούς τελεστές 4.Μείωση των Διαστάσεων
B1 B2 B3 B4 B5 Δυναμικός πίνακας των συμβολοσειρών των ιδιοτήτων Επέλεξε τη συγκέντρωση του ΝΟ 2 στο σταθμό μέτρησης με κωδικό 104 (Γεωπονική) στις 5 μ.μ P = ΝΟ 2 S = 104 F = αδιάφορο H1 = 1700 O = 0 H2 = αδιάφορο Σημαία Συγκεντρωτικής ιδιότητας = 0 Επέλεξε τη μέση συγκέντρωση του SΟ 2 στο σταθμό μέτρησης με κωδικό 108 (Περιστέρι) από τις 4 π.μ. μέχρι τις 9 μ.μ P = ΝΟ 2 S = 108 F = Μέση τιμή-Avg H1 = 400 O = -2 H2 = 2100 Σημαία Συγκεντρωτικής ιδιότητας = 1 Η Κωδικοποίηση του γενότυπου
Η συνάρτηση προσαρμογής Πολυαντικειμενική (δύο στόχοι): Ελαχιστοποίηση σφάλματος πρόβλεψης του αλγόριθμου κ-κοντινότερων γειτόνων Ελαχιστοποίηση αριθμού ιδιοτήτων στο υποσύνολο ιδιοτήτων της λύσης, a <= 1, b <= 1, a + b = 1 4.Μείωση των Διαστάσεων
Οι παράμετροι της συνάρτησης προσαρμογής {a, b} 4.Μείωση των Διαστάσεων
Το τροποποιημένο μέτρο αξιολόγησης μοντέλων WSE e t = X t – F t X t είναι η πραγματική τιμή της εξαρτημένης μεταβλητής F t είναι η εκτίμηση της X t από τον αλγόριθμο 4.Μείωση των Διαστάσεων
Ρύθμιση του μεγέθους πληθυσμού 4.Μείωση των Διαστάσεων
Ρύθμιση συντελεστών {a, b} 4.Μείωση των Διαστάσεων
Ρύθμιση του ρυθμού μετάλλαξης 4.Μείωση των Διαστάσεων
Ρύθμιση αριθμού ελίτ μελών 4.Μείωση των Διαστάσεων
Η μέθοδος CFS Προσθαφαίρεση ιδιοτήτων στο επιλεγμένο υποσύνολο ιδιοτήτων με κριτήρια: –Υψηλή συσχέτιση των ιδιοτήτων με την εξαρτημένη μεταβλητή κλάσης –Χαμηλή ενδοσυσχέτιση ανάμεσα στις ιδιότητες του υποσυνόλου 4.Μείωση των Διαστάσεων
Σύγκριση των δύο μεθόδων 4.Μείωση των Διαστάσεων
Η μηχανική μάθηση στην πρόβλεψη της αέριας ρύπανσης 4 επίπεδα της εξαρτημένης μεταβλητής 3 αλγόριθμοι επίλυσης: –σύστημα ‘ΝΕΜΟ’ Περιπτωσιακού Λογισμού –Νευρωνικό Δίκτυο MLP –Δέντρο απόφασης CART Συνδυασμένος ταξινομητής 5.Λύνοντας το πρόβλημα Π1 5.Λύνοντας το πρόβλημα Π1
Το σύστημα ΠΛ ΝΕΜΟ (1) Όμοιες περιπτώσεις Επιλογέας κοντινών περιπτώσεων Φίλτρο κοντινών περιπτώσεων Προσαρμογέας κοντινών περιπτώσεων/ Προβλέπτης λύσης Προτεινόμενη λύση ΝΕΜΟ Βάση περιπτώσεων Κοντινές περιπτώσεις Βάση Γνώσης Νέα περίπτωση 5.Λύνοντας το πρόβλημα Π1 5.Λύνοντας το πρόβλημα Π1
Το Τεχνητό Νευρωνικό Δίκτυο ηλ. ακτινοβολία αναστροφή βροχόπτωση άνεμος NO στις 10 π.μ. NO στις 9 π.μ. NO στις 8 π.μ. NO2 στις 10 π.μ. NO2 στις 9 π.μ. NO2 στις 8 π.μ. 5.Λύνοντας το πρόβλημα Π1 5.Λύνοντας το πρόβλημα Π1 Πρώτη κρυμμένη ζώνη Δεύτερη κρυμμένη ζώνη Έξοδος
Το δέντρο απόφασης (1) NOat10 Wind NOat9 Rain Inversion NOat9 NO 2 at8 Wind Radiation 1(265/18) 1(23/5) 2(44/12) 1(8/3)2(10/4) 1(10/0) 2(10/1)1(10/1) 2(100/35) 3(53/13) 4(8/0) 4(12/4)3(9/1) <=0.27>0.27 <=0.21 >0.67 >0.21 <=0.67 <=0.4>0.4 <=0.57>0.57 <=0.66>0.66 <=0.47>0.47 <=0.21>0.21 =0=1 <=0.21>0.21 <=0.8>0.8 <=0.36> Λύνοντας το πρόβλημα Π1 5.Λύνοντας το πρόβλημα Π1
Το δέντρο απόφασης (2) /21/ / ΝΟ στις10π.μ. Θερμοκρασιακή αναστροφή 5.Λύνοντας το πρόβλημα Π1 5.Λύνοντας το πρόβλημα Π1
Ο συνδυασμένος ταξινομητής Πλειοψηφικός Συνδυαστής των τριών ταξινομητών ΝΕΜΟ, ΔΑ, ΤΝΔ 5.Λύνοντας το πρόβλημα Π1 5.Λύνοντας το πρόβλημα Π1
Αποτελέσματα: Πίνακες Σύγχυσης (1) 5.Λύνοντας το πρόβλημα Π1 5.Λύνοντας το πρόβλημα Π1
Αποτελέσματα: Πίνακες Σύγχυσης (2) 5.Λύνοντας το πρόβλημα Π1 5.Λύνοντας το πρόβλημα Π1
Αποτελέσματα: Πίνακες Σύγχυσης (3) 5.Λύνοντας το πρόβλημα Π1 5.Λύνοντας το πρόβλημα Π1
Αποτελέσματα: Πίνακες Σύγχυσης (4) 5.Λύνοντας το πρόβλημα Π1 5.Λύνοντας το πρόβλημα Π1
Στατιστικά για τους 4 αλγόριθμους 5.Λύνοντας το πρόβλημα Π1 5.Λύνοντας το πρόβλημα Π1
Σύγκριση με συστήματα πρόβλεψης του εξωτερικού 5.Λύνοντας το πρόβλημα Π1 5.Λύνοντας το πρόβλημα Π1
Κατανεμημένη υλοποίηση: Το σύστημα D-NEMO 6.Το κατανεμημένο σύστημα DNEMO Απαιτήσεις Αρχιτεκτονική Η πλατφόρμα Lalo Η γλώσσα KQML Συμπεριφορά των agents Υποκύκλοι λειτουργίας
Απαιτήσεις/ Περιπτώσεις χρήσης 6.Το κατανεμημένο σύστημα DNEMO
Αρχιτεκτονική 6.Το κατανεμημένο σύστημα DNEMO
Ο Lalo Agent 6.Το κατανεμημένο σύστημα DNEMO Άλλοι agents Περιβάλλον του agent Επίπεδο Βάσεων Κανόνων Κανόνες ΕκτέλεσηςΚανόνες ΕπικοινωνίαςΓενικοί Κανόνες Επίπεδο Νοητικής Κατάστασης ΙκανότητεςΠεποιθήσεις ΑποφάσειςΥποχρεώσεις Ικανότητες συναναστροφών Επίπεδο Συμπεριφοράς Αποστολή μηνυμάτωνΕπεξεργασία μηνυμάτων Εκτέλεση ενέργειαςΧρονοπαρακολούθηση Επικοινωνιακό Επίπεδο Διευθύνσεις συναναστροφών Ενταμιευτής εισόδου Δρομολογητής εισόδου Δρομολογητής εξόδου
Η γλώσσα KQML (1) Τυποποιημένα μηνύματα –εκτελεστικά Παράμετροι εκτελεστικών: –:sender –:receiver –:reply-with –:in-reply-to –:content –:language –:ontology 6.Το κατανεμημένο σύστημα DNEMO
Η γλώσσα KQML (2) Σημαντικά εκτελεστικά που υποστηρίζει το Lalo –Achieve/Unachieve –Ask-one –Ask-if –Deny –Register/Unregister –Reply –Tell/Untell –Transport-address 6.Το κατανεμημένο σύστημα DNEMO
Υποκύκλος πρωινής συντήρησης 6.Το κατανεμημένο σύστημα DNEMO
Υποκύκλος απόφασης 6.Το κατανεμημένο σύστημα DNEMO
Υποκύκλος πρόβλεψης 6.Το κατανεμημένο σύστημα DNEMO
Αποτελέσματα 6.Το κατανεμημένο σύστημα DNEMO
Προς ένα ολοκληρωμένο επιχειρησιακό κέντρο πρόγνωσης της αέριας ρύπανσης
Απαιτήσεις/ Περιπτώσεις χρήσης 7.Προς ένα ολοκληρωμένο σύστημα
Σταθερότητα/ Βιωσιμότητα (1) 7.Προς ένα ολοκληρωμένο σύστημα
Σταθερότητα/ Βιωσιμότητα (2) 7.Προς ένα ολοκληρωμένο σύστημα
Ολοκληρώνοντας Μελέτη του κύκλου εφαρμογής της Μηχανικής Μάθησης σε ένα περιβαλλοντικό πρόβλημα Ανάπτυξη συστήματος ΠΛ ΝΕΜΟ Ανάπτυξη ειδικού σκοπού ΓΑ για επιλογή ιδιοτήτων Σχεδίαση και υλοποίηση συστήματος πολλαπλών agents για την ολοκλήρωση και αυτοματοποίηση της πρόβλεψης των αέριων ρύπων σε καθημερινή βάση 8.Συμπεράσματα
Μελλοντικές Επεκτάσεις Ολοκλήρωση της εφαρμογής των αλγόριθμων σε όλα τα προβλήματα Π1-Π4 Υλοποίηση υποσυστήματος πρόβλεψης και ενοποίηση σε επιχειρησιακό κέντρο παρακολούθησης και πρόβλεψης αέριας ρύπανσης Επέκταση της μεθοδολογίας σε άλλα περιβαλλοντικά προβλήματα 8.Συμπεράσματα