Data Mining software Weka
Εισαγωγή Weka: Wekato Environment for knowledge Analysis Η weka είναι ένα software για εξόρυξη δεδομένων γραμμένο σε JAVA το οποίο περιέχει υλοποιημένες μεθόδους για : Προεπεξεργασία Δεδομένων Ταξινόμηση Συσταδοποίηση Εύρεση Κανόνων Συσχέτισης
Εγκατάσταση To software είναι διαθέσιμο για εγκατάσταση από την ιστιοσελίδα : Για το περιβάλλον των windows, σε περίπτωση που κάποια έκδοση της java δεν είναι ήδη εγκατεστημένη, το εκτελέσιμο που θα αποθηκευτεί είναι η έκδοση (developers version) που περιλαμβάνει την java VM 5.0
Περιβάλλον weka Ανοίγοντας το πρόγραμμα, μέσω του μενού Application →Exporer→Open file δίνεται η δυνατότητα να επιλεγεί ένα σύνολο δεδομένων στο οποίο μπορούν να εφαρμοστούν τεχνικές που αφορούν : Preprocess Classify Cluster Associate Select Attributes Visualize Επιλέγοντας ένα σύνολο δεδομένων (αρχείο.arff ), εμφανίζονται γραφικά τα δεδομένα για καθένα από τα γνωρίσματα ξεχωριστά καθώς και στατιστικές πληροφορίες για αυτά. Εάν στο σύνολο δεδομένων δίνεται και κάποια κλάση στην οποία ταξινομούνται, τα δεδομένα που ανήκουν στην ίδια κλάση εμφανίζονται με το ίδιο χρώμα
Αρχεία.arff Τα αρχεία που περιέχουν το σύνολο δεδομένων πρέπει να έχουν συγκεκριμένο format και να αποθηκεύονται με την επέκταση.arff Στον φάκελο C:\Program Files\Weka-3-5\data περιέχονται κάποια παραδείγματα τέτοιων αρχείων. Δεδομένα μπορούν επίσης να δοθούν από ένα URL ή από μία SQL βάση.
age sex { female, chest_pain_type { typ_angina, asympt, non_anginal, cholesterol exercise_induced_angina { no, class { present, 63,male,typ_angina,233,no,not_present 67,male,asympt,286,yes,present 67,male,asympt,229,yes,present 38,female,non_anginal,?,no,not_present...
Οπτικοποίηση δεδομένων Από την καρτέλα visualize υπάρχει η δυνατότητα να εμφανιστεί η γραφική αναπαράσταση κάθε γνωρίσματος σε συνάρτηση με κάθε άλλο γνώρισμα.
Συσταδοποίηση δεδομένων Αφού έχει επιλεγεί ένα σύνολο δεδομένων είναι δυνατόν να γίνει συσταδοποίηση ( εύρεση ομάδων ‘ όμοιων ’ δεδομένων ). Από την καρτέλα cluster μπορεί να επιλεγεί ένας αλγόριθμος με βάση τον οποίο θα γίνει συσταδοποίηση και με το κουμπί start να αρχίσει η εκτέλεση του αλγορίθμου.
Επιλογή αλγορίθμου Οι αλγόριθμοι συσταδοποίησης που έχουν υλοποιηθεί είναι οι : Cobweb ( ιεραρχική συσταδοποίηση ) DBScan EM Farthest First OPTICS SimpleKmeans (K-means) Xmeans
Πληροφορίες σχετικά με τα αποτελέσματα του clustering στα δεδομένα
Παράμετροι Οι τιμές των παραμέτρων κάθε αλγορίθμου συσταδοποίησης ( όπως ο αριθμός των clusters στον kmeans, το eps και το MinPts στον DBScan) μπορούν να τροποποιηθούν από μία καρτέλα που εμφανίζεται με διπλό κλικ πάνω στο όνομα του αλγορίθμου όταν αυτός έχει επιλεγεί.
Οπτικοποίηση αποτελέσματος Με δεξί κλικ πάνω στο όνομα του αλγορίθμου που έχει ήδη εκτελεστεί στα δεδομένα ( από το result list) εμφανίζεται ένα μενού με την βοήθεια του οποίου μπορεί να εμφανιστεί η γραφική αναπαράσταση των δεδομένων, με βάση τις ομάδες που έχουν προκύψει από το clustering
Οπτικοποίηση αποτελέσματος