Εξόρυξη γνώσης 3η διάλεξη
Προβλήματα εξόρυξης γνώσης Επανάληψη Ασάφεια Προβλήματα εξόρυξης γνώσης Μετρικές εξόρυξης γνώσης (ανάκτησης πληροφορίας) Αποθήκες δεδομένων / επιχειρησιακά δεδομένα / πληροφοριακά δεδομένα
1 Τεχνικές Εξόρυξης γνώσης
Παλινδρόμηση και συσχέτιση Αλγόριθμοι συσχέτισης Δέντρα απόφασης Σύνοψη… Στατιστικές Εκτίμηση σημείου Σύνοψη Θεώρημα Bayes Έλεγχος υπόθεσης Παλινδρόμηση και συσχέτιση Αλγόριθμοι συσχέτισης Δέντρα απόφασης Νευρωνικά δίκτυα Γενετικοί αλγόριθμοι
Εκτίμηση παραμέτρου θ ενός πληθυσμού Στατιστικές μέθοδοι Μέσος Εκτίμηση σημείου Εκτίμηση παραμέτρου θ ενός πληθυσμού Στατιστικές μέθοδοι Μέσος Διακύμανση Τυπική απόκλιση …στατιστική παράμετρος Υπολογισμός για δείγμα Υπολογισμός για τιμή που απουσιάζει
Μέσο τετραγωνικό σφάλμα 𝑀𝑆𝐸 Θ =Ε( Θ −Θ ) 2 Σφάλματα εκτίμησης Μεροληψία (BIAS) 𝐵𝑖𝑎𝑠 =𝐸 Θ −Θ Μέσο τετραγωνικό σφάλμα 𝑀𝑆𝐸 Θ =Ε( Θ −Θ ) 2 γιατί επιλέγουμε το τετράγωνο;
Ρίζα μέσου τετραγώνων (RMS) 𝑗−1 𝑛 𝑥 𝑗 2 𝑛 Περισσότερα σφάλματα Ρίζα μέσου τετραγώνων (RMS) 𝑗−1 𝑛 𝑥 𝑗 2 𝑛 …εναλλακτικά μπορεί να βρούμε τη ρίζα του MSE – σφάλμα ρίζας μέσου τετραγώνων (RMSE)
Ένα σύνολο από n τιμές X = { 𝑥 1 ,…, 𝑥 𝑛 } Jackknife Η εκτίμηση της παραμέτρου θ γίνεται με παράλειψη μιας τιμής από το σύνολο τιμών. Ένα σύνολο από n τιμές X = { 𝑥 1 ,…, 𝑥 𝑛 } 𝜇 (𝜄) = 𝑗=1 𝑖−1 𝑥 𝑗 + 𝑗=1+1 𝑛 𝑥 𝑗 𝑛−1 Αν πάρουμε το σύνολο των εκτιμήσεων Jackknife 𝜃 (𝜄) τότε μπορούμε να πάρουμε μια συνολική εκτίμηση από τις μέσες τιμές αυτών 𝜃 . = 𝑗=1 𝑛 𝜃 (𝑗) 𝑛
Εκτίμηση μέγιστης πιθανοφάνειας (MLE) Μια τιμή ανάλογη προς την πραγματική πιθανότητα ότι σε μια συγκεκριμένη κατανομή ένα δεδομένα παράδειγμα υπάρχει
Αν το νόμισμα είναι τέλειο τότε το αποτέλεσμα είναι: Παράδειγμα MLE Στρίβουμε ένα νόμισμα 5 φορές και τα αποτελέσματα είναι {1, 1, 1, 1, 0} Αν το νόμισμα είναι τέλειο τότε το αποτέλεσμα είναι:
Αν όμως η πιθανότητα να έρθει 1 είναι 0.7 τότε ο τύπος είναι: Παράδειγμα MLE Αν όμως η πιθανότητα να έρθει 1 είναι 0.7 τότε ο τύπος είναι: 𝐿 𝑝 1, 1, 1, 1, 0 =0.7𝑥0.7𝑥0.7𝑥0.7𝑥0.3=0.07203 Ποια είναι εκείνη η πιθανότητα που πραγματοποιεί μεγιστοποίηση;
Μεγιστοποίηση MLE
Αλγόριθμος προσδοκίας μεγιστοποίησης (ΕΜ) Κάνουμε μια εκτίμηση για κάποιες αρχικές τιμές. Υπολογίζουμε σύμφωνα με αυτές τα ελλιπή δεδομένα Επαναλαμβάνουμε συμπληρώνοντας στις αρχικές τιμές τις εκτιμήσεις που κάναμε
Αλγόριθμος προσδοκίας μεγιστοποίησης (ΕΜ)
Μοντέλα που βασίζονται στη σύνοψη Σύνοψη είναι η διαδικασία με την οποία αφαιρώ δεδομένα από το σύνολο θεωρώντας ότι όσα απομένουν είναι αρκετά ώστε να μου δώσουν το επιθυμητό σωστό αποτέλεσμα Στατιστικές μέθοδοι: μέσος, διακύμανση, τυπική απόκλιση, διάμεσος, επικρατούσα τιμή Ταίριασμα πληθυσμού σε κατανομή συχνοτήτων
Θηκόγραμμα
Διασπορά
Θεώρημα του Bayes
Απομνημόνευση 𝑃 Α Β = 𝑃 Α 𝑃(Β|Α) 𝑃(Β) ΑΒ = Α * ΒΑ / Β ΑΒ ΑΒ ΑΒ
Πιθανότητα να έχεις αλλεργία αν το τεστ απαντήσει θετικά? Παράδειγμα Bayes Έστω ότι υπάρχει ένα τεστ που μου δείχνει αν έχω αλλεργία ή όχι (ΝΑΙ/ΌΧΙ) Σε όσους έχουν αλλεργία το τεστ απαντάει θετικά στο 80% των περιπτώσεων Σε όσους δεν έχουν αλλεργία το τεστ απαντάει θετικά στο 10% των περιπτώσεων Το 1% του πληθυσμού έχει αλλεργία Πιθανότητα να έχεις αλλεργία αν το τεστ απαντήσει θετικά?
Σύμφωνα με το θεώρημα ισχύει: Επίλυση P(Allergy|Yes) Σύμφωνα με το θεώρημα ισχύει: 𝑃 𝐴𝑙𝑙𝑒𝑟𝑔𝑦 𝑌𝑒𝑠 = 𝑃 𝐴𝑙𝑙𝑒𝑟𝑔𝑦 𝑃(𝑌𝑒𝑠|𝐴𝑙𝑙𝑒𝑟𝑔𝑦) 𝑃(𝑌𝑒𝑠)
P(Allergy) = 1% P(Yes|Allergy) = 80% P(Yes) = ? Επίλυση P(Allergy) = 1% P(Yes|Allergy) = 80% P(Yes) = ? Λέει ΝΑΙ στο 80% των περιπτώσεων που έχουν αλλεργία (1%) και στο 10% των υπόλοιπων(99%) Άρα λέει ΝΑΙ σε 0.8*0.01 + 0.99*0.1 = 10.7%
Συνεπώς συμπληρώνοντας στον τύπο έχουμε: Eπίλυση Συνεπώς συμπληρώνοντας στον τύπο έχουμε: 1%*80%/10.7% = 7.48% (πιθανότητα να έχεις αλλεργία αν το τεστ πει ΝΑΙ).
Έλεγχος υπόθεσης …παράξενο Επιχειρεί να βρει ένα μοντέλο που να εξηγεί τα υπάρχοντα δεδομένα σύμφωνα με μια υπόθεση. Στη συνέχεια εφαρμόζει την υπόθεση στα δεδομένα Η αρχική υπόθεση που καλείται να ελεγχθεί λέγεται μηδενική υπόθεση ενώ αν αποδειχθεί λανθασμένη υπάρχει και εναλλακτική υπόθεση
Τεχνική στατιστικής χ τετραγώνου! 𝑥 2 = (𝑂−𝐸) 2 𝑂 Chi square Τεχνική στατιστικής χ τετραγώνου! 𝑥 2 = (𝑂−𝐸) 2 𝑂 Όπου Ο τα δεδομένα που παρατηρούμε και Ε οι αναμενόμενες τιμές σύμφωνα με την υπόθεση
Αποτελέσματα διαγωνισμάτων σε 5 σχολεία Παράδειγμα Chi Square Αποτελέσματα διαγωνισμάτων σε 5 σχολεία Συνολικό αποτέλεσμα βαθμών 375. Αναμενόμενο αποτέλεσμα κάθε σχολείου: 375/5 = 75 (E = 75) Πραγματικά αποτελέσματα O = {50,93,67,78,87} Σύμφωνα με τη στατιστική χ τετραγώνου: 𝜒 2 = (50−75) 2 75 + (93−75) 2 75 + (67−75) 2 75 + (78−75) 2 75 + (87−75) 2 75 𝜒 2 =15.55
Κρίσιμες τιμές για chi-square Upper-tail critical values of chi-square distribution with ν degrees of freedom Probability less than the critical value ν 0.90 0.95 0.975 0.99 0.999 1 2.706 3.841 5.024 6.635 10.828 2 4.605 5.991 7.378 9.210 13.816 3 6.251 7.815 9.348 11.345 16.266 4 7.779 9.488 11.143 13.277 18.467 5 9.236 11.070 12.833 15.086 20.515 6 10.645 12.592 14.449 16.812 22.458 7 12.017 14.067 16.013 18.475 24.322 8 13.362 15.507 17.535 20.090 26.125 9 14.684 16.919 19.023 21.666 27.877 10 15.987 18.307 20.483 23.209 29.588
Παλινδρόμηση και συσχέτιση Η παλινδρόμηση έχει σαν σκοπό να προβλέψει μελλοντικές τιμές έχοντας σα βάση προηγούμενες τιμές Η συσχέτιση εξετάζει το βαθμό στον οποίο οι τιμές για δύο μεταβλητές συμπεριφέρονται παρόμοια
Παλινδρόμηση και συσχέτιση Η παλινδρόμηση έχει σαν σκοπό να προβλέψει μελλοντικές τιμές έχοντας σα βάση προηγούμενες τιμές Η συσχέτιση εξετάζει το βαθμό στον οποίο οι τιμές για δύο μεταβλητές συμπεριφέρονται παρόμοια
Γραμμική παλινδρόμηση Υποθέτει ότι υπάρχει μια γραμμική συσχέτιση μεταξύ των δεδομένων εισόδου και εξόδου y = c0 + c1 x1 + … + cn xn n μεταβλητές εισόδου (προγνώστες) Μια μεταβλητή εξόδου (y: απόκριση) n+1 σταθερές …επίλυση συστήματος
Υπάρχει ορισμένος φόρος στις πωλήσεις αλλά δεν ξέρω πόσο είναι αυτός Παράδειγμα Υπάρχει ορισμένος φόρος στις πωλήσεις αλλά δεν ξέρω πόσο είναι αυτός Αν ξέρω το ποσό των αγορών να βρω πόσο είναι ο φόρος. Έστω ότι η γραμμική εξίσωση είναι: y = c0 + c1 x1 Γνωρίζω τα ζεύγη τιμών <10, 0.5> και <25, 1.25> Επιλύω το σύστημα και προκύπτει: y = 0 + 0.05 x
Προσέγγιση γραμμικής παλινδρόμησης
Τρόπος μέτρησης: Συντελεστής συσχέτισης r 𝑟∈ −1,1 Συσχέτιση Το πρόβλημα καθορισμού πόσο όμοιες είναι δύο μεταβλητές Χ και Υ στην πραγματικότητα. Τρόπος μέτρησης: Συντελεστής συσχέτισης r 𝑟∈ −1,1
r = -1: απόλυτη συσχέτιση (αντίστροφη) r = 0: καμία συσχέτισης Συσχέτιση r = 1: απόλυτη συσχέτιση r = -1: απόλυτη συσχέτιση (αντίστροφη) r = 0: καμία συσχέτισης
Μέτρα ομοιότητας Θέλω να εντοπίσω τη σχετικότητα που μπορεί να υπάρχει ανάμεσα σε δύο αντικείμενα ΟΡΙΣΜΟΣ: Η ομοιότητα ανάμεσα σε δύο πλειάδες ti και tj, sim(ti,tj), σε μια ΒΔ είναι μια απεικόνιση από το DxD στο διάστημα [0, 1]
Σύμφωνα με τον ορισμό ∀ 𝑡 𝑖 ∈𝐷, 𝑠𝑖𝑚( 𝑡 𝑖 , 𝑡 𝑖 ) = 1 ∀ 𝑡 𝑖 , 𝑡 𝑗 ∈𝐷,𝑠𝑖𝑚( 𝑡 𝑖 , 𝑡 𝑗 ) = 0 (εάν δε μοιάζουν ΚΑΘΟΛΟΥ μεταξύ τους) ∀ 𝑡 𝑖 , 𝑡 𝑗 , 𝑡 𝑘 ∈𝐷,𝑠𝑖𝑚( 𝑡 𝑖 , 𝑡 𝑗 ) <𝑠𝑖𝑚( 𝑡 𝑖 , 𝑡 𝑘 ) αν το ti μοιάζει περισσότερο με το tk παρά με το tj
Πως καθορίζουμε την ομοιότητα;
Ομοιότητα ανάμεσα σε σύνολα όσον αφορά την τομή των δύο συνόλων Μέτρηση συσχέτισης Ομοιότητα ανάμεσα σε σύνολα όσον αφορά την τομή των δύο συνόλων
Μετρούν πόσο ανόμοια είναι δύο στοιχεία Μέτρηση απόστασης Μετρούν πόσο ανόμοια είναι δύο στοιχεία
Παραδείγματα προς συσχέτιση ti = {1, 4, 5, 7} tj = {2, 12, 3, 4} Σti tj= 1*2 + 4*12 + 5*3 + 7*4 = 93 Σti2=91 Σtj2=173