ΕΥΡΕΣΗ ΚΑΤΗΓΟΡΙΚΩΝ ΕΚΤΟΠΩΝ ΣΕ ΒΙΒΛΙΟΓΡΑΦΙΚΗ ΒΑΣΗ ΔΕΔΟΜΕΝΩΝ ΠΤΥΧΙΑΚΗ ΕΡΓΑΣΙΑ ΜΕ ΘΕΜΑ ΕΥΡΕΣΗ ΚΑΤΗΓΟΡΙΚΩΝ ΕΚΤΟΠΩΝ ΣΕ ΒΙΒΛΙΟΓΡΑΦΙΚΗ ΒΑΣΗ ΔΕΔΟΜΕΝΩΝ ΦΟΙΤΗΤΗΣ : ΓΕΩΡΓΙΟΣ ΡΟΥΣΣΑΚΗΣ ΕΠΙΒΛΕΠΩΝ ΚΑΘΗΓΗΤΗΣ : Δ. ΔΕΡΒΟΣ
ΕΠΙΣΚΟΠΗΣΗ ΠΑΡΟΥΣΙΑΣΗΣ Αναφορά στην Ανακάλυψη Γνώσης απο Βάσεις Δεδομένων Εισαγωγή στην Εύρεση Εκτόπων Μεθοδολογία Εργασίας Συμπεράσματα
Διαδικασία Ανακάλυψη Γνώσης Εξαγωγή Χρήσιμης Γνώσης Γνωστή ώς KDD Τεχνικές Εξόρυξης Δεδομένων = τμήμα KDD Μοτίβα , Πρότυπα , Σχέσεις , Έκτοπα
Βήματα Διαδικασίας KDD δεδομένων
Μέθοδοι Εξόρυξης Δεδομένων Κατηγοριοποίηση Classification Συσταδοποίηση Clustering Κανόνες Συσχετίσεων Association Rules Εύρεση Εκτόπων Outlier Detection «Έκτοπη είναι μία παρατήρηση που αποκλίνει τόσο πολύ από τις άλλες παρατηρήσεις, ώστε να μας εξεγείρει τις υποψίες ότι δημιουργήθηκε από διαφορετικό μηχανισμό.» Hawkings , 1980
Εύρεση Εκτόπων Φύση και Τύπος Δεδομένων ΚΑΤΗΓΟΡΙΕΣ Κατανομή Βάθος Συσταδοποίηση Απόσταση Πυκνότητα Γενετικοί Αλγόριθμοι
Προσέγγιση Πυκνότητας Προσέγγιση Κατανομής Προσέγγιση Πυκνότητας Χρήση κατανομής (μοντέλο Gauss, Poisson …) Παρατηρήσεις που αποκλίνουν = Έκτοπα Βάση στο μοντέλο , όχι στα δεδομένα Τοπικά Έκτοπα Μέτρα εκτοπότητας βάση γειτονιάς
Προσέγγιση Συσταδοποίησης Προσέγγιση Γενετικών Αλγορίθμων Μέρος της διαδικασίας συσταδοποίησης Αυξημένοι παράγοντες θορύβου Χρήση Συνάρτησης Κόστους Βελτιστοποίηση και Σύγκριση μεθόδων
DBSCAN Έκτοπα είναι τα δεδομένα που δέν ανήκουν σε συστάδα Έκτοπα είναι τα δεδομένα που δέν ανήκουν σε συστάδα Τοπικές παραμέτροι πυκνότητας και ‘συνδεσιμότητας’ Αλγόριθμος Συσταδοποίησης R*-δέντρο Προσέγγιση Πυκνότητας και Aπόστασης για χωρικά δεδομένα Αναγνώριση πυκνών και αραιών συστάδων Αναγνώριση ‘θορύβου’ Πυρήνας Όριο Έκτοπο
LOCI Σημαντικό χαρακτηριστικό η μέθοδος αξιολόγησης εκτoπότητας «Local Correlation Integral» Αυτόματος και υπαγορευμένος απο τα δεδομένα τρόπος καθορισμού εκτόπων Κάθε ‘σημείο’ βαθμολογείται με το μέτρο εκτοπότητας Προσέγγιση πυκνότητας με χρήση πιθανοτικής λογικής
ΗΟΤ Εντοπισμός κατηγορικών εκτόπων Μοντέλο Υπεργράφου Επιτυχής ανακάλυψη σε πολυδιάστατα δεδομένα Χρήση Κανόνων Συσχετίσεων ( aPriori )
NORMALIZED GOOGLE DISTANCE #1 Υπολογισμός με δύο ορίσματα (pairwise) Αναζήτηση ορίσματος στο πλήθος των σελίδων που αρχειοθετεί η Google Συσχέτιση των δύο ορισμάτων με τον τύπο
NORMALIZED GOOGLE DISTANCE #2 Μ = Πλήθος αρχειοθετημενων σελίδων Εύρος τιμών [0,∞) NGD(x , y) = NGD(y , x) Μετρήσεις ανεξάρτητες κλίμακας
ΠΡΟΒΛΗΜΑ Εύρεση κατηγορικών εκτόπων Έκτοπο = Λέξη / Άρθρο Αναπαράσταση και Μέτρηση Απόστασης κατηγορικών δεδομένων
ΜΕΘΟΔΟΛΟΓΙΑ ΕΡΓΑΣΙΑΣ Δεδομένα Αλγόριθμοι Ορισμός και Εύρεση εκτόπων
ΔΕΔΟΜΕΝΑ ΒΑΣΗΣ Άρθρο αναφέρει Άρθρο Άρθρο έχει Λέξεις Κλειδιά Επικεντρώνουμε την εργασία σε ένα άρθρο και τον ‘κόσμο’ του.
ΕΠΕΞΕΡΓΑΣΙΑ ΔΕΔΟΜΕΝΩΝ Επιλογή ενός άρθρου και των αναφορών σε και από αυτό. Δημιουργία τιμών NGD για κάθε ζεύγος λέξεων ΚΕΝΤΡΙΚΟ ΑΡΘΡΟ Αναφορές ΣΕ αυτό Αναφορές ΑΠΟ αυτό
ΠΕΡΙΠΤΩΣΕΙΣ ΕΦΑΡΜΟΓΗΣ NGD Ελάχιστη Απόσταση Λέξης- προς -Άρθρο Οδηγό Άρθρου- προς -Άρθρο Οδηγό Μέση Απόσταση Fan-In και Fan-Out
ΣΗΜΕΙΩΣΕΙΣ Αποστάσεις NGD=∞ σηματοδοτούν έκτοπο ζέυγος. Τέτοια ζεύγη έχουν αφαιρεθεί απο την διαδικασία διότι επηρρεάζουν τις αποστάσεις Διαφοροποίηση της παραμέτρου Μ (πλήθους σελίδων) και σύγκριση συμπεριφοράς
ΔΙΑΔΙΚΑΣΙΑ ΕΥΡΕΣΗΣ ΕΚΤΟΠΩΝ Χρήση στατιστικής προσέγγισης Διαγράμματα συχνοτήτων Κανονικές Κατανομές Διακύμανση (s2) Τυπική Απόκλιση (σ) Ζεύγος με απόσταση NGD πέραν των +2σ θεωρείται έκτοπο
ΑΠΟΤΕΛΕΣΜΑΤΑ ΕΥΡΕΣΗΣ ΕΚΤΟΠΩΝ Λέξεις Υπέρβαση ορίου +2σ κανονικής κατανομής αποστάσεων NGD ορίζεται ως έκτοπο Άρθρα Άρθρα έκτοπα βάση ελαχίστων τιμών απόστασης άρθρου απο άρθρο - οδηγό
ΜΕΣΗ ΑΠΟΣΤΑΣΗ ΛΕΞΗΣ-ΠΡΟΣ-ΑΡΘΡΟ Αφαίρεση απείρων αποστάσεων Cited Άρθρα έχουν πιό μικρή απόσταση σε σχέση με τα Citing άρθρα Cited = Αναφέρονται από το άρθρο-οδηγό Citing = Αναφέρουν το άρθρο-οδηγό
ΑΠΟΣΤΑΣΕΙΣ ΑΡΘΡΩΝ ΠΡΟΣ ΑΡΘΡΟ-ΟΔΗΓΟ Μέσες Τιμές Μέσων Τιμών Μέσες Τιμές Ελαχίστων Τιμών
ΠΕΡΙΠΤΩΣΕΙΣ ΜΕΛΕΤΗΣ 2η Μελέτη Εκτόπων 3η Μελέτη Εκτόπων Αλλαγή του Μ 2η Μελέτη Εκτόπων 3η Μελέτη Εκτόπων Αλλαγή του Μ Ίδιες Λέξεις Αρχική τιμή Μ Αλλαγή Λέξεων
ΣΥΜΠΕΡΑΣΜΑΤΑ Αξιολόγηση των τιμών NGD , ανάγκη βελτιστοποίησης αναζήτησης Μείζωνος σημασίας η επιλογή των λέξεων του άρθρου οδηγού Ο παράγοντας Μ (πλήθος σελίδων) αλλάζει την κλίμακα των τιμών και δεν διαφοροποιεί την γενική συμπεριφορά του αλγορίθμου
ΕΡΩΤΗΣΕΙΣ ?