Η παρουσίαση φορτώνεται. Παρακαλείστε να περιμένετε

Η παρουσίαση φορτώνεται. Παρακαλείστε να περιμένετε

DATA MINING ΕΞΑΜΗΝΙΑΙΟ ΘΕΜΑ ΣΤΟ ΜΑΘΗΜΑ ‘ΕΙΔΙΚΑ ΘΕΜΑΤΑ ΒΑΣΕΩΝ ΧΩΡΙΚΩΝ ΔΕΔΟΜΕΝΩΝ ΚΑΙ ΘΕΩΡΙΑ ΣΥΣΤΗΜΑΤΩΝ’

Παρόμοιες παρουσιάσεις


Παρουσίαση με θέμα: "DATA MINING ΕΞΑΜΗΝΙΑΙΟ ΘΕΜΑ ΣΤΟ ΜΑΘΗΜΑ ‘ΕΙΔΙΚΑ ΘΕΜΑΤΑ ΒΑΣΕΩΝ ΧΩΡΙΚΩΝ ΔΕΔΟΜΕΝΩΝ ΚΑΙ ΘΕΩΡΙΑ ΣΥΣΤΗΜΑΤΩΝ’"— Μεταγράφημα παρουσίασης:

1 DATA MINING ΕΞΑΜΗΝΙΑΙΟ ΘΕΜΑ ΣΤΟ ΜΑΘΗΜΑ ‘ΕΙΔΙΚΑ ΘΕΜΑΤΑ ΒΑΣΕΩΝ ΧΩΡΙΚΩΝ ΔΕΔΟΜΕΝΩΝ ΚΑΙ ΘΕΩΡΙΑ ΣΥΣΤΗΜΑΤΩΝ’

2 ΟΡΙΣΜΟΣ Data Mining Data Mining (ένας ευρύς ορισμός): Η διαδικασία ημι-αυτόματης ανάλυσης μεγάλων ΒΔ με στόχο την εύρεση χρήσιμης πληροφορίας –«γνώσης». (Θεοδωρίδης Γιάννης, Πελέκης Νίκος, Εισαγωγή στις Αποθήκες Δεδομένων και την Εξόρυξη Γνώσης, Οκτώβριος 2012) Data Mining :Η σύνθετη διαδικασία εξαγωγής συγκεκριμένης, προηγουμένως άγνωστης και δυνητικά ωφέλιμης, γνώσης από δεδομένα. (W. Frawley and G. Piatetsky-Shapiro and C. Matheus (Fall 1992).)

3 Η εξόρυξη δεδομένων υποστηρίζεται από τρεις τεχνολογίες:
Η εξόρυξη δεδομένων υποστηρίζεται από τρεις τεχνολογίες: Μαζική συλλογή δεδομένων Ισχυροί υπολογιστές με πολυεπεξεργαστές Αλγόριθμοι εξόρυξης δεδομένων

4 Μέσω της εξόρυξης δεδομένων, οι προοπτικές που δίνονται είναι:
Αυτοματοποιημένη πρόβλεψη των τάσεων και συμπεριφορών. Η εξόρυξη δεδομένων αυτοματοποιεί τη διαδικασία της πρόβλεψης εύρεσης πληροφοριών σε μεγάλες βάσεις δεδομένων .Τυπικό παράδειγμα είναι ένα πρόβλημα στον κλάδο του marketing . Αυτόματη ανακάλυψη των άγνωστων μοτίβων και προτύπων. Τα εργαλεία εξόρυξης δεδομένων "σαρώνουν" τις βάσεις δεδομένων για να εντοπίσουν κρυφά μοτίβα σε ένα βήμα. Ένα τέτοιο παράδειγμα είναι η ανάλυση των λιανικών πωλήσεων για τον προσδιορισμό φαινομενικά ασύνδετων μεταξύ τους προϊόντων που αγοράζονται συχνά μαζί.

5 Τα δεδομένα τα οποία αναλύονται είναι:
Σχεσιακές βάσεις δεδομένων (70.8%) Χρονοσειρές (34.0%) Κείμενα (33.0%) Αρχεία συναλλαγών (28.3%) Ανώνυμα δεδομένα (25.5%) Χωρικά δεδομένα (14.2%) s (10.4%) Ρεύματα από web clicks (8.5%) Δίκτυα (8.5%) Εικόνες / Video (7.5%) XML δεδομένα (6.6%) Web περιεχόμενο (5.7%) Μουσική / Ήχος (4.7%) Πηγή : (Jul. 2006))

6 Ο χώρος στον οποίο αποθηκεύονται τα δεδομένα μετά την εφαρμογή του Data Mining ονομάζεται Data Warehouse. Πηγή: (

7 Τεχνικές Εξόρυξης Δεδομένων
Ταξινόμηση (Classification) Συσταδοποίηση (Clustering) Εύρεση Συχνών Προτύπων, Εξαρτήσεων και Συσχετίσεων (Dependencies and associations) Συνοψίσεις (Summarization)

8 ΤΑΞΙΝΟΜΗΣΗ Η διαδικασία της ταξινόμησης απαιτεί ένα καλά προσδιορισμένο σύνολο από κλάσεις και ένα σύνολο από προταξινομημένα δείγματα που θα χρησιμοποιηθεί για την εκπαίδευση του μοντέλου. Συγκεκριμένα, αν ένα σύνολο από δεδομένα δοθούν σαν είσοδο σε ένα αλγόριθμο ταξινόμησης, ο αλγόριθμος «μαθαίνει» από το πώς αυτά τα δεδομένα έχουν ταξινομηθεί. Το «μαθαίνει» αντιστοιχεί στην δημιουργία ενός συνόλου από κανόνες. Στην συνέχεια, βασιζόμενος σε αυτούς τους κανόνες, ο αλγόριθμος μπορεί να ταξινομήσει νέα δεδομένα στις προκαθορισμένες κλάσεις (classes).

9 Οι πιο διαδεδομένοι αλγόριθμοι ταξινόμησης είναι αυτοί που κατασκευάζουν δένδρα απόφασης όπως οι ID3, CART, CN2, C45. Στα δένδρα απόφασης κάθε διαδρομή από την ρίζα σε ένα τερματικό κόμβο αποτελεί ένα κανόνα ταξινόμησης.

10 ΣΥΣΤΑΔΟΠΟΙΗΣΗ Η διαδικασία του να οργανώσουμε τα δεδομένα μας σε ομάδες, όπου τα μέλη κάθε ομάδας είναι όμοια κατά κάποιο τρόπο. Έτσι ονομάζεται cluster μια ομάδα ή αλλιώς μια συστάδα από δεδομένα που έχουν ομαδοποιηθεί σε αυτό το cluster σύμφωνα με κάποιο κριτήριο ομοιότητας . Στην παραπάνω εικόνα μπορούμε εύκολα να διακρίνουμε τα 4 clusters που έχουν δημιουργηθεί. Ακόμη μπορούμε να καταλάβουμε πως το κριτήριο της ομοιότητας εδώ είναι η απόσταση.

11 Οι αλγόριθμοι που χρησιμοποιούνται για το clustering μπορούν να κατηγοριοποιηθούν σε 4 μεγάλες κατηγορίες: Overlapping Clustering Exclusive Clustering Τα δεδομένα ομαδοποιούνται με έναν συγκεκριμένο τρόπο έτσι ώστε εάν ένα δεδομένο ανήκει σε ένα cluster, να μην μπορεί να ανήκει σε κανένα άλλο. Χρησιμοποιούνται ‘’θολά’’ σύνολα, έτσι ώστε κάθε δεδομένο μπορεί να ανήκει σε δύο ή και σε περισσότερα clusters με διαφορετικούς βαθμούς σημαντικότητας (membership) σε κάθε cluster.

12 Hierarchical Clustering
Probabilistic Clustering Χρησιμοποιεί μια εντελώς πιθανολογική προσέγγιση στο θέμα της συσταδοποίησης. Ένας αλγόριθμος ιεραρχικού clustering, βασίζεται στην ένωση μεταξύ των δύο κοντινότερων cluster.

13 Ένα παράδειγμα αλγορίθμων που ανήκουν σε αυτές τις κατηγορίες είναι ο αλγόριθμος k-means που ανήκει στην κατηγορία των exclusive algorithms, ο fuzzy c means που ανήκει στην κατηγορία των overlapping algorithms, ο αλγόριθμος hierarchical clustering είναι προφανές που ανήκει, και ο αλγόριθμος Mixture of Gaussians που ανήκει στην κατηγορία των πιθανολογικών αλγορίθμων.

14 ΣΥΣΧΕΤΙΣΗ Ως συσχέτιση (Association) ορίζεται η ανακάλυψη συχνά εμφανιζόμενων προτύπων, αλληλεξαρτήσεων, συσχετισμών ή αιτιολογικών δομών μεταξύ των πεδίων μιας σχεσιακής βάσης δεδομένων ή άλλων repositories πληροφοριών. Τα πρότυπα αυτά εκφράζονται σε μορφή κανόνων (rules) “ΑUΒ”, όπως για παράδειγμα «το 72% όλων των εγγραφών που περιέχουν τα αντικείμενα Α και Β να περιέχουν επίσης και τα αντικείμενα D,E». Ο πιο διαδεδομένος αλγόριθμος κανόνων συσχέτισης είναι ο A-Priori στον οποίο βασίζονται και άλλοι αλγόριθμοι.

15 Εφαρμόζοντας την μέθοδο της Συσχέτισης για θέματα Διαχείρισης Χαρτοφυλακίου χρησιμοποιώντας τον αλγόριθμο συσχέτισης Apriori: Τα δεδομένα που έχουμε στην διάθεσή μας αφορούν δύο μετοχές του τραπεζικού κλάδου, της τράπεζας Πειραιώς (PEIRAIWS BANK) και της τράπεζας Άλφα (ALFA BANK).

16 Στις δύο βάσεις που έχουμε στην διάθεσή μας όσον αφορά τις δύο μετοχές έχουμε τα εξής πεδία που μας ενδιαφέρουνε: CLASS, αναφέρεται στο εάν αυξήθηκε ή μειώθηκε η τιμή της μετοχής σε σχέση με την προηγούμενη μέρα-συνεδρίαση. Ο κωδικός 10 συμβολίζει την αύξηση της τιμής ενώ ο 11 ότι επήλθε μείωση. Max, αναφέρεται στην μέγιστη τιμή που έφτασε η μετοχή κατά την διάρκεια της συνεδρίασης. Ο κωδικός 20 σημαίνει ότι είχαμε άνοδο, ο κωδικός 21 ότι επήλθε μείωση και τέλος ο 22 ότι παρέμεινε σταθερό. Αναφέρουμε ότι οι συγκρίσεις όλες γίνονται με βάση την προηγούμενη μέρα. Min, αντιπροσωπεύει το ελάχιστο της τιμής με τον κωδικό 30 να δηλώνει αύξηση, τον 31 να δηλώνει μείωση και τον 32 να είναι σταθερό. Sell, δηλώνει τον μέσο όρο των τιμών όπου πωλούνταν η μετοχές εκείνη την ημέρα (για την συγκεκριμένη μετοχή), και οι κωδικοί 40,41,42 εκφράζουν αντίστοιχα την αύξηση, την μείωση και το ότι παρέμεινε σταθερή η τιμή. Buy, δηλώνει τον μέσο όρο των τιμών που αγοράστηκε η μετοχή στην συνεδρίαση. Ο κωδικός 50 αναφέρεται στην αύξηση, ο κωδικός 51 στην μείωση και ο 52 στο ότι παρέμεινε σταθερή η τιμή. Τέλος με την Diafora, συμβολίζουμε την διαφορά μεταξύ του όγκου αγοράς και πώλησης των μετοχών. Δηλαδή στην περίπτωση που ο όγκος των μετοχών που προορίζονταν για πώληση, ήταν μεγαλύτερος από εκείνον για αγορά, σε μία συνεδρίαση θα έχουμε τον κωδικό 60, ενώ στην αντίθετη περίπτωση τον κωδικό 61. Στην περίπτωση που θα είναι οι ίδιοι θα έχουμε το 62.

17

18 Παράδειγμα επιλογής κανόνα:
If 61 then 11 .Confidence = 0, and Support = 72 Αυτός μεταφράζεται ως εξής: If όγκος αγοράς > όγκος πωλήσεων then μείωση τιμής .Confidence = 0, and Support = 72 Ο κανόνας δηλώνει ότι σε 72 περιπτώσεις από τις 249, δηλαδή σε ένα ποσοστό 30% επί του συνόλου των εγγραφών, όταν ο όγκος αγορών των μετοχών ήταν μεγαλύτερος από τον όγκο πωλήσεων είχαμε και μείωση της τιμής της μετοχής στο τέλος της συνεδρίασης. Επίσης ένα ποσοστό της τάξης του 59% των συνολικών εγγραφών μας δίνει ότι είχαμε μείωση της τιμής της μετοχής όταν ο όγκος των αγορών είναι μεγαλύτερος από εκείνο των πωλήσεων.

19 ΣΥΝΟΨΙΣΕΙΣ Η Συνόψιση περιέχει μεθόδους οι οποίες βρίσκουν αποδειχθείσες περιγραφές για ένα υποσύνολο δεδομένων. Οι τεχνικές της Συγκεφαλαίωσης συνήθως έχουν εφαρμογή και εστιάζονται σε αυτοματοποιημένες αναφορές (automated report generation) και στην εξερεύνηση και ανάλυση δεδομένων (interactive exploratory data analysis).

20 Αρχιτεκτονική OLAP Αντιπροσωπεύει μια θεμελιώδη μετατόπιση από τα συμβατικά συστήματα υποστήριξης αποφάσεων. Αντί απλά να παραδοθούν τα δεδομένα στον τελικό χρήστη μέσω ερωτημάτων και να υποβληθούν εκθέσεις του λογισμικού, o Advanced Analysis Server εφαρμόζει επιχειρηματικά μοντέλα των χρηστών απευθείας στην αποθήκη και επιστρέφει μια δυναμική ανάλυση των πιο σχετικών πληροφοριών. Τα αποτελέσματα αυτά ενισχύουν τα μεταδεδομένα στο διακομιστή OLAP, παρέχοντας ένα δυναμικό στρώμα μεταδεδομένων που αντιπροσωπεύει μία αποσταγμένη προβολή των δεδομένων.

21 Αρχιτεκτονική OLAP Για τη διευκόλυνση της ανάλυσης και της οπτικοποίησης, τα δεδομένα σε ένα αρχιτεκτόνημα δεδομένων οργανώνονται τυπικά σε ένα πολυδιάστατο μοντέλο. Τα OLAP εργαλεία απεικονίζουν τα δεδομένα σαν να βρίσκονται αποθηκευμένα σε έναν ή περισσότερους πολυδιάστατους πίνακες, γνωστούς και ως κύβους (cubes). Συνήθως οι κύβοι αποτελούνται από περισσότερες από 3 διαστάσεις και έτσι καλούνται υπερκύβοι (hypercubes).

22 ΤΥΠΟΙ OLAP ο ιεραρχικός OLAP (ROLAP) ο πολυδιάστατος OLAP (MOLAP)
ο υβριδικός (HOLAP). Η ουσιαστική διαφορά μεταξύ των τριών (3) τύπων έγκειται στον τρόπο αποθήκευσης των δεδομένων καθώς και των συναθροίσεων τους.

23 ΕΥΧΑΡΙΣΤΩ ΓΙΑ ΤΗΝ ΠΡΟΣΟΧΗ ΣΑΣ!!!


Κατέβασμα ppt "DATA MINING ΕΞΑΜΗΝΙΑΙΟ ΘΕΜΑ ΣΤΟ ΜΑΘΗΜΑ ‘ΕΙΔΙΚΑ ΘΕΜΑΤΑ ΒΑΣΕΩΝ ΧΩΡΙΚΩΝ ΔΕΔΟΜΕΝΩΝ ΚΑΙ ΘΕΩΡΙΑ ΣΥΣΤΗΜΑΤΩΝ’"

Παρόμοιες παρουσιάσεις


Διαφημίσεις Google