Η παρουσίαση φορτώνεται. Παρακαλείστε να περιμένετε

Η παρουσίαση φορτώνεται. Παρακαλείστε να περιμένετε

ΕΥΡΕΣΗ ΚΑΤΗΓΟΡΙΚΩΝ ΕΚΤΟΠΩΝ ΣΕ ΒΙΒΛΙΟΓΡΑΦΙΚΗ ΒΑΣΗ ΔΕΔΟΜΕΝΩΝ ΦΟΙΤΗΤΗΣ : ΓΕΩΡΓΙΟΣ ΡΟΥΣΣΑΚΗΣ ΕΠΙΒΛΕΠΩΝ ΚΑΘΗΓΗΤΗΣ : Δ. ΔΕΡΒΟΣ ΠΤΥΧΙΑΚΗ ΕΡΓΑΣΙΑ ΜΕ ΘΕΜΑ.

Παρόμοιες παρουσιάσεις


Παρουσίαση με θέμα: "ΕΥΡΕΣΗ ΚΑΤΗΓΟΡΙΚΩΝ ΕΚΤΟΠΩΝ ΣΕ ΒΙΒΛΙΟΓΡΑΦΙΚΗ ΒΑΣΗ ΔΕΔΟΜΕΝΩΝ ΦΟΙΤΗΤΗΣ : ΓΕΩΡΓΙΟΣ ΡΟΥΣΣΑΚΗΣ ΕΠΙΒΛΕΠΩΝ ΚΑΘΗΓΗΤΗΣ : Δ. ΔΕΡΒΟΣ ΠΤΥΧΙΑΚΗ ΕΡΓΑΣΙΑ ΜΕ ΘΕΜΑ."— Μεταγράφημα παρουσίασης:

1 ΕΥΡΕΣΗ ΚΑΤΗΓΟΡΙΚΩΝ ΕΚΤΟΠΩΝ ΣΕ ΒΙΒΛΙΟΓΡΑΦΙΚΗ ΒΑΣΗ ΔΕΔΟΜΕΝΩΝ ΦΟΙΤΗΤΗΣ : ΓΕΩΡΓΙΟΣ ΡΟΥΣΣΑΚΗΣ ΕΠΙΒΛΕΠΩΝ ΚΑΘΗΓΗΤΗΣ : Δ. ΔΕΡΒΟΣ ΠΤΥΧΙΑΚΗ ΕΡΓΑΣΙΑ ΜΕ ΘΕΜΑ

2 ΕΠΙΣΚΟΠΗΣΗ ΠΑΡΟΥΣΙΑΣΗΣ Αναφορά στην Ανακάλυψη Γνώσης απο Βάσεις Δεδομένων Εισαγωγή στην Εύρεση Εκτόπων Μεθοδολογία Εργασίας Συμπεράσματα

3 Διαδικασία Ανακάλυψη Γνώσης Εξαγωγή Χρήσιμης Γνώσης Γνωστή ώς KDD Τεχνικές Εξόρυξης Δεδομένων = τμήμα KDD Μοτίβα, Πρότυπα, Σχέσεις, Έκτοπα

4 Βήματα Διαδικασίας KDD δεδομένων

5 Μέθοδοι Εξόρυξης Δεδομένων Κατηγοριοποίηση Classification Συσταδοποίηση Clustering Κανόνες Συσχετίσεων Association Rules Εύρεση Εκτόπων Outlier Detection «Έκτοπη είναι μία παρατήρηση που αποκλίνει τόσο πολύ από τις άλλες παρατηρήσεις, ώστε να μας εξεγείρει τις υποψίες ότι δημιουργήθηκε από διαφορετικό μηχανισμό.» Hawkings, 1980

6 Εύρεση Εκτόπων Φύση και Τύπος Δεδομένων ΚΑΤΗΓΟΡΙΕΣ ◦Κατανομή ◦Βάθος ◦Συσταδοποίηση ◦Απόσταση ◦Πυκνότητα ◦Γενετικοί Αλγόριθμοι

7 Προσέγγιση Κατανομής Χρήση κατανομής ( μοντέλο Gauss, Poisson … ) Παρατηρήσεις που αποκλίνουν = Έκτοπα Βάση στο μοντέλο, όχι στα δεδομένα Τοπικά Έκτοπα Μέτρα εκτοπότητας βάση γειτονιάς Προσέγγιση Πυκνότητας

8 Μέρος της διαδικασίας συσταδοποίησης Αυξημένοι παράγοντες θορύβου Χρήση Συνάρτησης Κόστους Βελτιστοποίηση και Σύγκριση μεθόδων Προσέγγιση Συσταδοποίησης Προσέγγιση Γενετικών Αλγορίθμων

9 DBSCAN Αλγόριθμος Συσταδοποίησης R*-δέντρο Προσέγγιση Πυκνότητας και Aπόστασης για χωρικά δεδομένα Αναγνώριση πυκνών και αραιών συστάδων Αναγνώριση ‘θορύβου’ Έκτοπα είναι τα δεδομένα που δέν ανήκουν σε συστάδα Τοπικές παραμέτροι πυκνότητας και ‘συνδεσιμότητας’ Πυρήνας Όριο Έκτοπο

10 LOCI Σημαντικό χαρακτηριστικό η μέθοδος αξιολόγησης εκτoπότητας «Local Correlation Integral» Αυτόματος και υπαγορευμένος απο τα δεδομένα τρόπος καθορισμού εκτόπων Κάθε ‘σημείο’ βαθμολογείται με το μέτρο εκτοπότητας Προσέγγιση πυκνότητας με χρήση πιθανοτικής λογικής

11 ΗΟΤ Εντοπισμός κατηγορικών εκτόπων Μοντέλο Υπεργράφου Επιτυχής ανακάλυψη σε πολυδιάστατα δεδομένα Χρήση Κανόνων Συσχετίσεων ( aPriori )

12 NORMALIZED GOOGLE DISTANCE #1 Υπολογισμός με δύο ορίσματα (pairwise) Αναζήτηση ορίσματος στο πλήθος των σελίδων που αρχειοθετεί η Google Συσχέτιση των δύο ορισμάτων με τον τύπο

13 NORMALIZED GOOGLE DISTANCE #2 Μ = Πλήθος αρχειοθετημενων σελίδων Εύρος τιμών [0,∞) NGD (x, y) = NGD (y, x) Μετρήσεις ανεξάρτητες κλίμακας

14 ΠΡΟΒΛΗΜΑ Εύρεση κατηγορικών εκτόπων Έκτοπο = Λέξη / Άρθρο Αναπαράσταση και Μέτρηση Απόστασης κατηγορικών δεδομένων

15 ΜΕΘΟΔΟΛΟΓΙΑ ΕΡΓΑΣΙΑΣ Δεδομένα Αλγόριθμοι Ορισμός και Εύρεση εκτόπων

16 ΔΕΔΟΜΕΝΑ ΒΑΣΗΣ Άρθρο αναφέρει Άρθρο Άρθρο έχει Λέξεις Κλειδιά Επικεντρώνουμε την εργασία σε ένα άρθρο και τον ‘κόσμο’ του.

17 ΕΠΕΞΕΡΓΑΣΙΑ ΔΕΔΟΜΕΝΩΝ Επιλογή ενός άρθρου και των αναφορών σε και από αυτό. Δημιουργία τιμών NGD για κάθε ζεύγος λέξεων ΚΕΝΤΡΙΚΟ ΑΡΘΡΟ Αναφορές ΑΠΟ αυτό Αναφορές ΣΕ αυτό

18 ΠΕΡΙΠΤΩΣΕΙΣ ΕΦΑΡΜΟΓΗΣ NGD Ελάχιστη Απόσταση ◦Λέξης- προς -Άρθρο Οδηγό ◦Άρθρου- προς -Άρθρο Οδηγό Μέση Απόσταση ◦Λέξης- προς -Άρθρο Οδηγό ◦Άρθρου- προς -Άρθρο Οδηγό Fan-In και Fan-Out

19 ΣΗΜΕΙΩΣΕΙΣ Αποστάσεις NGD=∞ σηματοδοτούν έκτοπο ζέυγος. Τέτοια ζεύγη έχουν αφαιρεθεί απο την διαδικασία διότι επηρρεάζουν τις αποστάσεις Διαφοροποίηση της παραμέτρου Μ (πλήθους σελίδων) και σύγκριση συμπεριφοράς

20 ΔΙΑΔΙΚΑΣΙΑ ΕΥΡΕΣΗΣ ΕΚΤΟΠΩΝ Χρήση στατιστικής προσέγγισης ◦Διαγράμματα συχνοτήτων ◦Κανονικές Κατανομές ◦Διακύμανση (s 2 ) ◦Τυπική Απόκλιση (σ) Ζεύγος με απόσταση NGD πέραν των +2σ θεωρείται έκτοπο

21 ΑΠΟΤΕΛΕΣΜΑΤΑ ΕΥΡΕΣΗΣ ΕΚΤΟΠΩΝ Λέξεις Υπέρβαση ορίου +2σ κανονικής κατανομής αποστάσεων NGD ορίζεται ως έκτοπο Άρθρα Άρθρα έκτοπα βάση ελαχίστων τιμών απόστασης άρθρου απο άρθρο - οδηγό

22 ΜΕΣΗ ΑΠΟΣΤΑΣΗ ΛΕΞΗΣ-ΠΡΟΣ-ΑΡΘΡΟ Αφαίρεση απείρων αποστάσεων Cited Άρθρα έχουν πιό μικρή απόσταση σε σχέση με τα Citing άρθρα Cited = Αναφέρονται από το άρθρο-οδηγό Citing = Αναφέρουν το άρθρο-οδηγό

23 ΑΠΟΣΤΑΣΕΙΣ ΑΡΘΡΩΝ ΠΡΟΣ ΑΡΘΡΟ-ΟΔΗΓΟ Μέσες Τιμές Μέσων Τιμών Μέσες Τιμές Ελαχίστων Τιμών

24 ΠΕΡΙΠΤΩΣΕΙΣ ΜΕΛΕΤΗΣ 2 η ΜελέτηΕκτόπων3 η Μελέτη Εκτόπων Αρχική τιμή Μ Αλλαγή Λέξεων Αλλαγή του Μ Ίδιες Λέξεις

25 ΣΥΜΠΕΡΑΣΜΑΤΑ Αξιολόγηση των τιμών NGD, ανάγκη βελτιστοποίησης αναζήτησης Μείζωνος σημασίας η επιλογή των λέξεων του άρθρου οδηγού Ο παράγοντας Μ (πλήθος σελίδων) αλλάζει την κλίμακα των τιμών και δεν διαφοροποιεί την γενική συμπεριφορά του αλγορίθμου

26 ΕΡΩΤΗΣΕΙΣ


Κατέβασμα ppt "ΕΥΡΕΣΗ ΚΑΤΗΓΟΡΙΚΩΝ ΕΚΤΟΠΩΝ ΣΕ ΒΙΒΛΙΟΓΡΑΦΙΚΗ ΒΑΣΗ ΔΕΔΟΜΕΝΩΝ ΦΟΙΤΗΤΗΣ : ΓΕΩΡΓΙΟΣ ΡΟΥΣΣΑΚΗΣ ΕΠΙΒΛΕΠΩΝ ΚΑΘΗΓΗΤΗΣ : Δ. ΔΕΡΒΟΣ ΠΤΥΧΙΑΚΗ ΕΡΓΑΣΙΑ ΜΕ ΘΕΜΑ."

Παρόμοιες παρουσιάσεις


Διαφημίσεις Google