Εξόρυξη γνώσης 3η διάλεξη

Slides:



Advertisements
Παρόμοιες παρουσιάσεις
Διπλωματική Εργασία με θέμα: «ΠΡΟΣΤΙΘΕΜΕΝΗ ΑΞΙΑ ΕΣΩΤΕΡΙΚΟΥ ΕΛΕΓΧΟΥ
Advertisements

PowerPoint presentation to accompany Heizer/Render – Principles of Operations Management, 5e, and Operations Management, 7e © 2004 by Prentice Hall, Inc.,
Για το σχεδιασμό και την ανάλυση οποιουδήποτε Συστήματος Αυτομάτου Ελέγχου Είναι ανάγκη να γνωρίζουμε ΠΟΣΟΤΙΚΑ ΜΑΘΗΜΑΤΙΚΑ ΜΟΝΤΕΛΑ Διαφορικές εξισώσεις.
ΕΞΕΛΙΚΤΙΚΑ ΝΕΥΡΩΝΙΚΑ ΔΙΚΤΥΑ Σπύρος Λυκοθανάσης, Καθηγητής Διευθυντής Εργαστηρίου Αναγνώρισης Προτύπων Τμήμα Μηχανικών Η/Υ & Πληροφορικής Πανεπιστημίου.
ΑΝΑΚΥΚΛΩΣΗ ΕΜΙΛΗ ΚΑΙ ΔΙΟΝΥΣΙΑ Ε2. Ποια είναι τα σκουπίδια που πετάμε πιο συχνά και από τι υλικό είναι φτιαγμένα; ΧΑΡΤΙ ΜΕΤΑΛΟ ΑΛΟΥΜΙΝΙΟ ΓΥΑΛΙ ΠΛΑΣΤΙΚΟ.
ΣΤΟΙΧΕΙΑ ΚΛΙΝΙΚΗΣ ΑΝΑΤΟΜΙΚΗΣ & EMBΡΥΟΛΟΓΙΑΣ ΟΥΡΟΠΟΙΗΤΙΚΟΥ ΚΩΣΤΗΣ Ι. ΓΥΦΤΟΠΟΥΛΟΣ ΧΕΙΡΟΥΡΓΟΣ - ΟΥΡΟΛΟΓΟΣ ΕΠΙΚ. ΚΑΘΗΓΗΤΗΣ ΑΝΑΤΟΜΙΚΗΣ.
4 ο Εργαστήριο επιδημιολογίας. Διαγνωστικές δοκιμασίες Όταν αξιολογούμε μια διαγνωστική δοκιμασία πρέπει να σκεφτούμε 3 πράγματα. Είναι χρήσιμη ; Είναι.
8 Ο ΚΕΦΑΛΑΙΟ - ΚΟΜΠΟΣΤΟΠΟΙΗΣΗ Δρ. Σαββίδης Γ. Σεραφείμ Καθηγητής Τ. Ε. Ι Δυτικής Μακεδονίας.
Απλή Γραμμική Παλινδρόμηση & Συσχέτιση
Οικονομικά Μαθηματικά
Τι είναι η Κατανομή (Distribution)
SURVIVOR GREECE 2017.
Διαδικασία συλλογής των δεδομένων – Δειγματοληψία Απώτερος στόχος η διερεύνηση των σχέσεων μεταξύ μεταβλητών και παραγωγή γνώσης με το σχήμα «αίτιο – αποτέλεσμα».
Σχεδιασμός των Μεταφορών
Στατιστικές Υποθέσεις
Fourier Ορθοκανονικών - Περιοδικών Συναρτήσεων
Μάθημα 4 ΙΣΧΥΣ ΣΤΗΝ Η.Μ.Κ.
Χρηματοοικονομική Λογιστική
Μια Μπεϋζιανή Μέθοδος για την Επαγωγή Πιθανοτικών Δικτύων από Δεδομένα
ΑΣΚΗΣΗ ΔΙΑΘΛΑΣΗΣ (4.9) Για να μελετηθεί μία γεωφυσική δομή χρησιμοποιήθηκε η μέθοδος της σεισμικής διάθλασης με την εφαρμογή σεισμικού προφίλ 10 γεωφώνων.
Η Ύλη του Μαθήματος Επανάληψη της πολλαπλή παλινδρόμησης και Ασυμπτωτική κατανομή της εκτιμήτριας ελαχίστων τετραγώνων. Βοηθητικές μεταβλητές και παλινδρόμηση.
Παλινδρόμηση – Συσχέτιση
Στατιστικές Υποθέσεις III
Χρονικός Προγραμματισμός Έργου Μάθημα : Οργάνωση και Διοίκηση Εργοταξίου Τσιτσιφλής θάνος 2011.
Έλεγχος ανεξαρτησίας (συσχέτισης) 2 κατηγορικών μεταβλητών
ΤΕΙ ΚΕΝΤΡΙΚΗΣ ΜΑΚΕΔΟΝΙΑΣ-ΣΕΡΡΕΣ ΜΗΧΑΝΙΚΩΝ ΠΛΗΡΟΦΟΡΙΚΗΣ
Βασικά στοιχεία της θεωρίας πιθανοτήτων
ΜΑΘΗΜΑΤΙΚΑ ΓΙΑ ΟΙΚΟΝΟΜΟΛΟΓΟΥΣ (Κ105)
ΤΕΧΝΟΛΟΓΙΚΟ ΕΚΠΑΙΔΕΥΤΙΚΟ ΙΔΡΥΜΑ ΑΜΘ ΣΧΟΛΗ ΤΕΧΝΟΛΟΓΙΚΩΝ ΕΦΑΡΜΟΓΩΝ ΤΜΗΜΑ ΗΛΕΚΤΡΟΛΟΓΩΝ ΤΕ Βιομάζα.
2η διάλεξη: Αμινοξέα και πρωτεΐνες, μέρος Α
ΣΤΑΤΙΣΤΙΚΗ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ
Empirical properties of stock prices and returns
Π.Π.Γ.Ε.Σ.Σ. Σοφία-Άρτεμις-Δυσσινή Τσιάπου Β’ Θρησκευτικά
Αν. Καθηγητής Γεώργιος Ευθύμογλου
Παρουσίαση: Γεωργιάδου Σεβαστή Α.Μ.:
Διαχειριση εργων: εισαγωγη
Αρχές Χρηματοοικονομικής Διοίκησης
ΡΑΤΣΙΣΜΟΣ στα σχολεια.
Οικιακή Οικονομία Α’ Γυμνασίου Μάθημα 6ο. Διδάσκων καθηγητής
Find: φ σ3 = 400 [lb/ft2] CD test Δσ = 1,000 [lb/ft2] Sand 34˚ 36˚ 38˚
CHỌN MÔ HÌNH VÀ KIỂM ĐỊNH CHỌN MÔ HÌNH
2.1. Phân tích tương quan 2.2. Phân tích hồi qui
الباب الثالث: المقاييس الإحصائية الوصفية: 1- مقاييس النزعة المركزية:هى قيم مركزية (متوسطة) تتمركز او تتوزع حولها معظم البيانات. 2- مقاييس التشتت: هى.
مدرسة الروضة الثانوية بنات القيم القصوى ( العظمى / الصغرى ) للدوال
ملاحظات إحصائية د. سعيد بن علي بن عبدالله الحضرمي
ΕΠΑΓΩΓΙΚΗ ΣΤΑΤΙΣΤΙΚΗ Η ΣΤΑΤΙΣΤΙΚΗ ΣΥΜΠΕΡΑΣΜΑΤΟΛΟΓΙΑ Β. ΚΑΡΑΓΙΑΝΝΗ
Xác suất Thống kê Lý thuyết Xác suất: xác suất, biến ngẫu nhiên (1 chiều, 2 chiều); luật phân phối xác suất thường gặp Thống kê Cơ bản: lý thuyết mẫu,
Βιοστατιστική (Θ) Ενότητα 7: Μη-Παραμετρικές Δοκιμασίες
Find: angle of failure, α
النمو السكانى والاسقاطات السكانية
ΑΛΕΞΑΝΔΡΑ ΜΟΣΧΟΥ ΕΘΝΙΚΟ ΚΑΙ ΚΑΠΟΔΙΣΤΡΙΑΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΘΗΝΩΝ
Find: ρc [in] from load γT=110 [lb/ft3] γT=100 [lb/ft3]
Find: ρc [in] from load γT=106 [lb/ft3] γT=112 [lb/ft3]
Κοβάλτιο Co βιταμίνη B12.
Διαδικασία συλλογής των δεδομένων – Δειγματοληψία Απώτερος στόχος η διερεύνηση των σχέσεων μεταξύ μεταβλητών και παραγωγή γνώσης με το σχήμα «αίτιο – αποτέλεσμα».
Στατιστικές Υποθέσεις
τ [lb/ft2] σ [lb/ft2] Find: c in [lb/ft2] σ1 = 2,000 [lb/ft2]
Financial Market Theory
Find: Force on culvert in [lb/ft]
xBSM meeting, problems with C-line CA
ΜΥΕ003: Ανάκτηση Πληροφορίας
Παρουσίαση Αριθμητικών Χαρακτηριστικών 1) Διακριτών
Κεφάλαιο 12 Απλή Γραμμική Παλινδρόμηση.
Эксперыментальныя метады ядзернай фізікі
TRAFFICKING-ΣΥΓΧΡΟΝΗ ΔΟΥΛΕΙΑ
Βιοστατιστική (Θ) Ενότητα 5: Μη-Παραμετρικές Δοκιμασίες ΤΕΙ Αθήνας
ΜΑΘΗΜΑΤΙΚΑ ΓΙΑ ΟΙΚΟΝΟΜΟΛΟΓΟΥΣ (Κ105)
Προκήρυξη - Ανακοίνωση Πρόγραμμα Μεταπτυχιακών Σπουδών
Προκήρυξη - Ανακοίνωση
Στατιστική Επαγωγή Ένα τεράστιο μέρος της έρευνας διενεργείται μέσω της ανάλυσης δειγμάτων προκειμένου να εξάγουμε συμπεράσματα για τον πληθυσμό. Αυτό.
Μεταγράφημα παρουσίασης:

Εξόρυξη γνώσης 3η διάλεξη

Προβλήματα εξόρυξης γνώσης Επανάληψη Ασάφεια Προβλήματα εξόρυξης γνώσης Μετρικές εξόρυξης γνώσης (ανάκτησης πληροφορίας) Αποθήκες δεδομένων / επιχειρησιακά δεδομένα / πληροφοριακά δεδομένα

1 Τεχνικές Εξόρυξης γνώσης

Παλινδρόμηση και συσχέτιση Αλγόριθμοι συσχέτισης Δέντρα απόφασης Σύνοψη… Στατιστικές Εκτίμηση σημείου Σύνοψη Θεώρημα Bayes Έλεγχος υπόθεσης Παλινδρόμηση και συσχέτιση Αλγόριθμοι συσχέτισης Δέντρα απόφασης Νευρωνικά δίκτυα Γενετικοί αλγόριθμοι

Εκτίμηση παραμέτρου θ ενός πληθυσμού Στατιστικές μέθοδοι Μέσος Εκτίμηση σημείου Εκτίμηση παραμέτρου θ ενός πληθυσμού Στατιστικές μέθοδοι Μέσος Διακύμανση Τυπική απόκλιση …στατιστική παράμετρος Υπολογισμός για δείγμα Υπολογισμός για τιμή που απουσιάζει

Μέσο τετραγωνικό σφάλμα 𝑀𝑆𝐸 Θ =Ε( Θ −Θ ) 2 Σφάλματα εκτίμησης Μεροληψία (BIAS) 𝐵𝑖𝑎𝑠 =𝐸 Θ −Θ Μέσο τετραγωνικό σφάλμα 𝑀𝑆𝐸 Θ =Ε( Θ −Θ ) 2 γιατί επιλέγουμε το τετράγωνο;

Ρίζα μέσου τετραγώνων (RMS) 𝑗−1 𝑛 𝑥 𝑗 2 𝑛 Περισσότερα σφάλματα Ρίζα μέσου τετραγώνων (RMS) 𝑗−1 𝑛 𝑥 𝑗 2 𝑛 …εναλλακτικά μπορεί να βρούμε τη ρίζα του MSE – σφάλμα ρίζας μέσου τετραγώνων (RMSE)

Ένα σύνολο από n τιμές X = { 𝑥 1 ,…, 𝑥 𝑛 } Jackknife Η εκτίμηση της παραμέτρου θ γίνεται με παράλειψη μιας τιμής από το σύνολο τιμών. Ένα σύνολο από n τιμές X = { 𝑥 1 ,…, 𝑥 𝑛 } 𝜇 (𝜄) = 𝑗=1 𝑖−1 𝑥 𝑗 + 𝑗=1+1 𝑛 𝑥 𝑗 𝑛−1 Αν πάρουμε το σύνολο των εκτιμήσεων Jackknife 𝜃 (𝜄) τότε μπορούμε να πάρουμε μια συνολική εκτίμηση από τις μέσες τιμές αυτών 𝜃 . = 𝑗=1 𝑛 𝜃 (𝑗) 𝑛

Εκτίμηση μέγιστης πιθανοφάνειας (MLE) Μια τιμή ανάλογη προς την πραγματική πιθανότητα ότι σε μια συγκεκριμένη κατανομή ένα δεδομένα παράδειγμα υπάρχει

Αν το νόμισμα είναι τέλειο τότε το αποτέλεσμα είναι: Παράδειγμα MLE Στρίβουμε ένα νόμισμα 5 φορές και τα αποτελέσματα είναι {1, 1, 1, 1, 0} Αν το νόμισμα είναι τέλειο τότε το αποτέλεσμα είναι:

Αν όμως η πιθανότητα να έρθει 1 είναι 0.7 τότε ο τύπος είναι: Παράδειγμα MLE Αν όμως η πιθανότητα να έρθει 1 είναι 0.7 τότε ο τύπος είναι: 𝐿 𝑝 1, 1, 1, 1, 0 =0.7𝑥0.7𝑥0.7𝑥0.7𝑥0.3=0.07203 Ποια είναι εκείνη η πιθανότητα που πραγματοποιεί μεγιστοποίηση;

Μεγιστοποίηση MLE

Αλγόριθμος προσδοκίας μεγιστοποίησης (ΕΜ) Κάνουμε μια εκτίμηση για κάποιες αρχικές τιμές. Υπολογίζουμε σύμφωνα με αυτές τα ελλιπή δεδομένα Επαναλαμβάνουμε συμπληρώνοντας στις αρχικές τιμές τις εκτιμήσεις που κάναμε

Αλγόριθμος προσδοκίας μεγιστοποίησης (ΕΜ)

Μοντέλα που βασίζονται στη σύνοψη Σύνοψη είναι η διαδικασία με την οποία αφαιρώ δεδομένα από το σύνολο θεωρώντας ότι όσα απομένουν είναι αρκετά ώστε να μου δώσουν το επιθυμητό σωστό αποτέλεσμα Στατιστικές μέθοδοι: μέσος, διακύμανση, τυπική απόκλιση, διάμεσος, επικρατούσα τιμή Ταίριασμα πληθυσμού σε κατανομή συχνοτήτων

Θηκόγραμμα

Διασπορά

Θεώρημα του Bayes

Απομνημόνευση 𝑃 Α Β = 𝑃 Α 𝑃(Β|Α) 𝑃(Β) ΑΒ = Α * ΒΑ / Β ΑΒ ΑΒ ΑΒ

Πιθανότητα να έχεις αλλεργία αν το τεστ απαντήσει θετικά? Παράδειγμα Bayes Έστω ότι υπάρχει ένα τεστ που μου δείχνει αν έχω αλλεργία ή όχι (ΝΑΙ/ΌΧΙ) Σε όσους έχουν αλλεργία το τεστ απαντάει θετικά στο 80% των περιπτώσεων Σε όσους δεν έχουν αλλεργία το τεστ απαντάει θετικά στο 10% των περιπτώσεων Το 1% του πληθυσμού έχει αλλεργία Πιθανότητα να έχεις αλλεργία αν το τεστ απαντήσει θετικά?

Σύμφωνα με το θεώρημα ισχύει: Επίλυση P(Allergy|Yes) Σύμφωνα με το θεώρημα ισχύει: 𝑃 𝐴𝑙𝑙𝑒𝑟𝑔𝑦 𝑌𝑒𝑠 = 𝑃 𝐴𝑙𝑙𝑒𝑟𝑔𝑦 𝑃(𝑌𝑒𝑠|𝐴𝑙𝑙𝑒𝑟𝑔𝑦) 𝑃(𝑌𝑒𝑠)

P(Allergy) = 1% P(Yes|Allergy) = 80% P(Yes) = ? Επίλυση P(Allergy) = 1% P(Yes|Allergy) = 80% P(Yes) = ? Λέει ΝΑΙ στο 80% των περιπτώσεων που έχουν αλλεργία (1%) και στο 10% των υπόλοιπων(99%) Άρα λέει ΝΑΙ σε 0.8*0.01 + 0.99*0.1 = 10.7%

Συνεπώς συμπληρώνοντας στον τύπο έχουμε: Eπίλυση Συνεπώς συμπληρώνοντας στον τύπο έχουμε: 1%*80%/10.7% = 7.48% (πιθανότητα να έχεις αλλεργία αν το τεστ πει ΝΑΙ).

Έλεγχος υπόθεσης …παράξενο Επιχειρεί να βρει ένα μοντέλο που να εξηγεί τα υπάρχοντα δεδομένα σύμφωνα με μια υπόθεση. Στη συνέχεια εφαρμόζει την υπόθεση στα δεδομένα Η αρχική υπόθεση που καλείται να ελεγχθεί λέγεται μηδενική υπόθεση ενώ αν αποδειχθεί λανθασμένη υπάρχει και εναλλακτική υπόθεση

Τεχνική στατιστικής χ τετραγώνου! 𝑥 2 = (𝑂−𝐸) 2 𝑂 Chi square Τεχνική στατιστικής χ τετραγώνου! 𝑥 2 = (𝑂−𝐸) 2 𝑂 Όπου Ο τα δεδομένα που παρατηρούμε και Ε οι αναμενόμενες τιμές σύμφωνα με την υπόθεση

Αποτελέσματα διαγωνισμάτων σε 5 σχολεία Παράδειγμα Chi Square Αποτελέσματα διαγωνισμάτων σε 5 σχολεία Συνολικό αποτέλεσμα βαθμών 375. Αναμενόμενο αποτέλεσμα κάθε σχολείου: 375/5 = 75 (E = 75) Πραγματικά αποτελέσματα O = {50,93,67,78,87} Σύμφωνα με τη στατιστική χ τετραγώνου: 𝜒 2 = (50−75) 2 75 + (93−75) 2 75 + (67−75) 2 75 + (78−75) 2 75 + (87−75) 2 75 𝜒 2 =15.55

Κρίσιμες τιμές για chi-square Upper-tail critical values of chi-square distribution with ν degrees of freedom Probability less than the critical value ν 0.90 0.95 0.975 0.99 0.999 1 2.706 3.841 5.024 6.635 10.828 2 4.605 5.991 7.378 9.210 13.816 3 6.251 7.815 9.348 11.345 16.266 4 7.779 9.488 11.143 13.277 18.467 5 9.236 11.070 12.833 15.086 20.515 6 10.645 12.592 14.449 16.812 22.458 7 12.017 14.067 16.013 18.475 24.322 8 13.362 15.507 17.535 20.090 26.125 9 14.684 16.919 19.023 21.666 27.877 10 15.987 18.307 20.483 23.209 29.588

Παλινδρόμηση και συσχέτιση Η παλινδρόμηση έχει σαν σκοπό να προβλέψει μελλοντικές τιμές έχοντας σα βάση προηγούμενες τιμές Η συσχέτιση εξετάζει το βαθμό στον οποίο οι τιμές για δύο μεταβλητές συμπεριφέρονται παρόμοια

Παλινδρόμηση και συσχέτιση Η παλινδρόμηση έχει σαν σκοπό να προβλέψει μελλοντικές τιμές έχοντας σα βάση προηγούμενες τιμές Η συσχέτιση εξετάζει το βαθμό στον οποίο οι τιμές για δύο μεταβλητές συμπεριφέρονται παρόμοια

Γραμμική παλινδρόμηση Υποθέτει ότι υπάρχει μια γραμμική συσχέτιση μεταξύ των δεδομένων εισόδου και εξόδου y = c0 + c1 x1 + … + cn xn n μεταβλητές εισόδου (προγνώστες) Μια μεταβλητή εξόδου (y: απόκριση) n+1 σταθερές …επίλυση συστήματος

Υπάρχει ορισμένος φόρος στις πωλήσεις αλλά δεν ξέρω πόσο είναι αυτός Παράδειγμα Υπάρχει ορισμένος φόρος στις πωλήσεις αλλά δεν ξέρω πόσο είναι αυτός Αν ξέρω το ποσό των αγορών να βρω πόσο είναι ο φόρος. Έστω ότι η γραμμική εξίσωση είναι: y = c0 + c1 x1 Γνωρίζω τα ζεύγη τιμών <10, 0.5> και <25, 1.25> Επιλύω το σύστημα και προκύπτει: y = 0 + 0.05 x

Προσέγγιση γραμμικής παλινδρόμησης

Τρόπος μέτρησης: Συντελεστής συσχέτισης r 𝑟∈ −1,1 Συσχέτιση Το πρόβλημα καθορισμού πόσο όμοιες είναι δύο μεταβλητές Χ και Υ στην πραγματικότητα. Τρόπος μέτρησης: Συντελεστής συσχέτισης r 𝑟∈ −1,1

r = -1: απόλυτη συσχέτιση (αντίστροφη) r = 0: καμία συσχέτισης Συσχέτιση r = 1: απόλυτη συσχέτιση r = -1: απόλυτη συσχέτιση (αντίστροφη) r = 0: καμία συσχέτισης

Μέτρα ομοιότητας Θέλω να εντοπίσω τη σχετικότητα που μπορεί να υπάρχει ανάμεσα σε δύο αντικείμενα ΟΡΙΣΜΟΣ: Η ομοιότητα ανάμεσα σε δύο πλειάδες ti και tj, sim(ti,tj), σε μια ΒΔ είναι μια απεικόνιση από το DxD στο διάστημα [0, 1]

Σύμφωνα με τον ορισμό ∀ 𝑡 𝑖 ∈𝐷, 𝑠𝑖𝑚( 𝑡 𝑖 , 𝑡 𝑖 ) = 1 ∀ 𝑡 𝑖 , 𝑡 𝑗 ∈𝐷,𝑠𝑖𝑚( 𝑡 𝑖 , 𝑡 𝑗 ) = 0 (εάν δε μοιάζουν ΚΑΘΟΛΟΥ μεταξύ τους) ∀ 𝑡 𝑖 , 𝑡 𝑗 , 𝑡 𝑘 ∈𝐷,𝑠𝑖𝑚( 𝑡 𝑖 , 𝑡 𝑗 ) <𝑠𝑖𝑚( 𝑡 𝑖 , 𝑡 𝑘 ) αν το ti μοιάζει περισσότερο με το tk παρά με το tj

Πως καθορίζουμε την ομοιότητα;

Ομοιότητα ανάμεσα σε σύνολα όσον αφορά την τομή των δύο συνόλων Μέτρηση συσχέτισης Ομοιότητα ανάμεσα σε σύνολα όσον αφορά την τομή των δύο συνόλων

Μετρούν πόσο ανόμοια είναι δύο στοιχεία Μέτρηση απόστασης Μετρούν πόσο ανόμοια είναι δύο στοιχεία

Παραδείγματα προς συσχέτιση ti = {1, 4, 5, 7} tj = {2, 12, 3, 4} Σti tj= 1*2 + 4*12 + 5*3 + 7*4 = 93 Σti2=91 Σtj2=173