ΕΥΡΕΣΗ ΚΑΤΗΓΟΡΙΚΩΝ ΕΚΤΟΠΩΝ ΣΕ ΒΙΒΛΙΟΓΡΑΦΙΚΗ ΒΑΣΗ ΔΕΔΟΜΕΝΩΝ

Slides:



Advertisements
Παρόμοιες παρουσιάσεις
Bayes Classifiers.
Advertisements

ΕΞΟΡΥΞΗ ΓΝΩΣΗΣ ΑΠΟ ΕΙΚΟΝΕΣ
Ερευνητική μεθοδολογία
Αυτο-συσχέτιση (auto-correlation)
Ειδικά & Υβριδικά Εργαλεία Αναζήτησης. Εισαγωγή  Υπάρχει μια πλειάδα από ειδικά και υβριδικά εργαλεία αναζήτησης που αξίζουν ιδιαίτερης αναφοράς.  Αυτά.
Τ.Ε.Ι. ΣΕΡΡΩΝ ΣΧΟΛΗ ΤΕΧΝΟΛΟΓΙΚΩΝ ΕΦΑΡΜΟΓΩΝ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ & ΕΠΙΚΟΙΝΩΝΙΩΝ Επιβλέπων καθηγητής: Βακαλούδης Αλέξανδρος Σπουδαστής: Τσιαουσίδης Δημήτριος.
Ανακτηση Πληροφοριασ σε νεφη Υπολογιστων
Ολυμπία Νίκου Α.Μ. Μ956 Διπλωματική Εργασία
ΠΕΡΙΒΑΛΛΟΝΤΙΚΟΣ ΘΟΡΥΒΟΣ
ΠΡΟΒΛΗΜΑΤΑ ΜΕΤΑΦΟΡΑΣ Β. Κώστογλου – Τμήμα Πληροφορικής ΑΤΕΙ-Θ
ΤΜΗΥΠ / ΕΕΣΤ1 Μάθημα 8 ο Ανίχνευση Ακμών. ΤΜΗΥΠ / ΕΕΣΤ2 Εισαγωγή (1)  Οι ακμές είναι βασικά χαρακτηριστικά της εικόνας Προς το παρόν δεν υπάρχει ακόμα.
Μηχανική Μάθηση και Εξόρυξη Γνώσης
Ειδικά Θέματα Στατιστικής
Εισαγωγικές Έννοιες Διδάσκοντες: Σ. Ζάχος, Δ. Φωτάκης Επιμέλεια διαφανειών: Δ. Φωτάκης Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών Εθνικό Μετσόβιο.
Εφαρμογή της Θεωρίας Βέλτιστης Παύσης στον έλεγχο συνέπειας (consistency) σε WWW Caching Servers Δημήτριος Λορέντζος ΠΛΣ Διπλωματική Εργασία Επιβλέπων:
Στατιστική Ι Παράδοση 5 Οι Δείκτες Διασποράς Διασπορά ή σκεδασμός.
Αναγνώριση Προτύπων.
ΕΙΔΗ ΣΦΑΛΜΑΤΩΝ ΣΤΗ ΓΕΩΔΑΙΣΙΑ
Διδασκαλία των Φ.Ε. στο Νηπιαγωγείο
Πτυχιακή εργασία: «Ανάπτυξη αλγορίθμου Γενετικού Προγραμματισμού (Genetic Programming) με δυνατότητα διαχείρισης δενδροειδών δομών και εφαρμογή του στην.
Λάζαρος Πολυμενάκος, καθηγητής ΑΙΤ Ηρακλής Καπρίτσας, telia.co.gr
ΗΥ302 Διδακτική της Πληροφορικής Η γλώσσα προγραμματισμού LOGO Writer Ομάδα Εργασία: Αλεβίζου Βασιλική (Α.Μ.:1029) Κοφφινά Ιωάννα (Α.Μ.:1035) Τριανταφυλλίδου.
Στατιστικές Μέθοδοι στην Αξιολόγηση
Αλγόριθμοι Συσταδοποίησης και Κατηγοριοποίησης Βιολογικών Δεδομένων
Ενεργή επιλογή αλγορίθμου, Active Algorithm Selection, Feilong Chen and Rong Jin Εύα Σιταρίδη.
Προσομοίωση φορητού ανιχνευτή Γερμανίου με τη μέθοδο Monte Carlo για τον υπολογισμό της ροής της γ-ακτινοβολίας Διπλωματική Εργασία Κυριανάκης Γεώργιος.
31 Μαρτίου 2015 ΔΙΑΦΑΝΕΙΑ 1 ΤΥΠΙΚΕΣ ΜΕΘΟΔΟΙ ΑΝΑΛΥΣΗΣ ΣΥΣΤΗΜΑΤΩΝ ΤΜ. ΠΛΗΡΟΦΟΡΙΚΗΣ Α.Π.Θ. – ΔΙΔΑΣΚΩΝ: Π. ΚΑΤΣΑΡΟΣ ΚΑΤΗΓΟΡΗΜΑΤΙΚΟΣ ΛΟΓΙΣΜΟΣ Ι Για τον προτασιακό.
Στατιστική I Χειμερινό Γ. Παπαγεωργίου
Διδακτική της Πληροφορικής ΗΥ302 Εργασία :Παρουσίαση σχολικού βιβλίου Γ’ Λυκείου Τεχνολογικής Κατεύθυνσης «Ανάπτυξη εφαρμογών σε προγραμματιστικό περιβάλλον»
Ανάπτυξη μεθοδολογίας για το συστηματικό θεμελιώδη μηχανοτρονικό σχεδιασμό. Εφαρμογή στην ανάπτυξη ευφυούς συστήματος για το σχεδιασμό ρομποτικών αρπαγών.
1 Μελέτη κανόνων συμμετοχής σε ομότιμα δίκτυα επικοινωνίας μέσω προσομοίωσης Φοιτητής : Χρήστος Ι. Καρατζάς Επιβλέποντες Καθηγητές : Γ. Πολύζος – Κ. Κουρκουμπέτης.
ΚΕΦΑΛΑΙΟ 6 ΓΕΩΓΡΑΦΙΚΕΣ ΜΕΘΟΔΟΙ ΚΑΙ ΤΕΧΝΙΚΕΣ: ΣΗΜΕΙΑ
Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1 Εισαγωγή στην Επεξεργασία Ερωτήσεων.
ΚΕΦΑΛΑΙΟ 10 ΠΑΛΙΝΔΡΟΜΗΣΗ
Επιστημονικός Υπολογισμός Ι Τρίτο Εργαστήριο Αραιά Μητρεία 22 Δεκεμβρίου 2010.
Βάσεις Δεδομένων Ευαγγελία Πιτουρά1 Λογικός Σχεδιασμός Σχεσιακών Σχημάτων.
ΠΕΡΙΓΡΑΦΙΚΗ ΣΤΑΤΙΣΤΙΚΗ
ΤΜΗΥΠ / ΕΕΣΤ1 Μάθημα 8 ο Ανίχνευση Ακμών. ΤΜΗΥΠ / ΕΕΣΤ2 Εισαγωγή (1)  Οι ακμές είναι βασικά χαρακτηριστικά της εικόνας Προς το παρόν δεν υπάρχει ακόμα.
Τεχνολογία ΛογισμικούSlide 1 Τεχνολογία Απαιτήσεων u Καθορίζει τι θέλει ο πελάτης από ένα σύστημα λογισμικού.
ΠΤΥΧΙΑΚΗ ΕΡΓΑΣΙΑ: ΤΑΞΙΝΟΜΗΣΗ ΨΗΦΙΑΚΩΝ ΕΙΚΟΝΩΝ ΜΕ ΧΩΡΙΚΗ-ΣΗΜΑΣΙΟΛΟΓΙΚΗ ΑΝΤΙΣΤΟΙΧΗΣΗ ΣΠΟΥΔΑΣΤΗΣ : ΦΩΤΙΑΔΗΣ ΚΥΡΙΑΚΟΣ Α.Μ ΕΠΙΒΛΕΠΩΝ : Δρ. ΝΙΚΟΛΑΙΔΗΣ.
Δρ. Αλέξανδρος Βακαλούδης.  Εξόρυξη δεδομένων (Data Mining)  Association Rules  Clustering  Classification  Στάδια για εξόρυξη δεδομένων  Επανάληψη.
Σπύρος Αβδημιώτης MBA PhD Τμήμα Διοίκησης Επιχειρήσεων Κατεύθυνση Διοίκησης Τουριστικών Επιχειρήσεων & Επιχειρήσεων Φιλοξενίας Εαρινό Εξάμηνο 2016.
ΤΡΟΠΟΣ ΣΥΓΓΡΑΦΗΣ ΕΠΙΣΤΗΜΟΝΙΚΩΝ ΕΡΓΑΣΙΩΝ
Σήματα και Συστήματα 11 10η διάλεξη. Σήματα και Συστήματα 12 Εισαγωγικά (1) Έστω γραμμικό σύστημα που περιγράφεται από τη σχέση: Αν η είσοδος είναι γραμμικός.
Δραματική Τέχνη στην εκπαίδευση: Ερευνητικό Σχέδιο Ι Στις ανθρωπιστικές επιστήμες επικράτησαν δύο ερευνητικές κατευθύνσεις: Η στατιστική ανάλυση (συνυπολογίζει.
ΠΕΡΙΓΡΑΦΙΚΗ ΣΤΑΤΙΣΤΙΚΗ ΠΙΝΑΚΕΣ ΚΑΙ ΔΙΑΓΡΑΜΜΑΤΑ Πηγή: Βιοστατιστική [Σταυρινός / Παναγιωτάκος] Βιοστατιστική [Τριχόπουλος / Τζώνου / Κατσουγιάννη]
ΔΙΑΛΕΞΗ 11η Ποσοτική έρευνα υγείας
ΣΤΑΤΙΣΤΙΚΑ ΜΕΤΡΑ ΔΙΑΣΠΟΡΑΣ - ΑΣΥΜΜΕΤΡΙΑΣ - ΚΥΡΤΩΣΕΩΣ
Μέτρα μεταβλητότητας ή διασποράς
ΟΜΑΔΕΣ Δημιουργία Ομάδων
Επίλυση Προβλημάτων με Αναζήτηση
Ανακαλυπτική μάθηση Γνώση προϊόν του μαθητή Διαδικασία ανακάλυψης η έρευνα για τον εντοπισμό του ακαθορίστου Μέσα από τα ερεθίσματα που του δίνει ο εκπαιδευτικός.
Ανάλυση δεδομένων κοινωνικής έρευνας
Επιστημονικός Υπολογισμός Ι
Βάσεις Δεδομένων & Έμπειρα Συστήματα
Άσκηση 2-Περιγραφικής Στατιστικής
ΠΑΙΔΑΓΩΓΙΚΗ ΨΥΧΟΛΟΓΙΑ
Κανονική Κατανομή.
Η λογική της συγκριτικής ανάλυσης
TMHMA MHΧΑΝΙΚΩΝ ΠΛΗΡΟΦΟΡΙΚΗΣ Τ.Ε ΤΕΙ ΚΕΝΤΡΙΚΗΣ ΜΑΚΕΔΟΝΙΑΣ
Εισαγωγή στην Στατιστική
Μεθοδολογια εκπαιδευτικης ερευνας
Τ.Ε.Ι. Κεντρικής Μακεδονίας Σ.Τ.Ε.Φ. – Τμήμα Μηχανικών Πληροφορικής
ΚΕΦΑΛΑΙΟ 1 Ανάλυση προβλήματος.
Τμήμα Μηχανικών Πληροφορικής Τ.Ε.
Επαγωγική Στατιστική Συσχέτιση – Συντελεστής συσχέτισης Χαράλαμπος Γναρδέλλης Τμήμα Τεχνολογίας Αλιείας και Υδατοκαλλιεργειών.
ΤΑΞΙΝΟΜΗΣΗ ΠΡΟΤΥΠΩΝ ΜΕ ΣΥΝΑΡΤΗΣΕΙΣ ΑΠΟΣΤΑΣΗΣ Απλοί Ταξινομητές
Εισαγωγή στα Προσαρμοστικά Συστήματα
Σκοπός Η συνοπτική παρουσίαση
Επαγωγική Στατιστική Συσχέτιση – Συντελεστές συσχέτισης Χαράλαμπος Γναρδέλλης Εφαρμογές Πληροφορικής στην Αλιεία και τις Υδατοκαλλιέργειες.
Μεταγράφημα παρουσίασης:

ΕΥΡΕΣΗ ΚΑΤΗΓΟΡΙΚΩΝ ΕΚΤΟΠΩΝ ΣΕ ΒΙΒΛΙΟΓΡΑΦΙΚΗ ΒΑΣΗ ΔΕΔΟΜΕΝΩΝ ΠΤΥΧΙΑΚΗ ΕΡΓΑΣΙΑ ΜΕ ΘΕΜΑ ΕΥΡΕΣΗ ΚΑΤΗΓΟΡΙΚΩΝ ΕΚΤΟΠΩΝ ΣΕ ΒΙΒΛΙΟΓΡΑΦΙΚΗ ΒΑΣΗ ΔΕΔΟΜΕΝΩΝ ΦΟΙΤΗΤΗΣ : ΓΕΩΡΓΙΟΣ ΡΟΥΣΣΑΚΗΣ ΕΠΙΒΛΕΠΩΝ ΚΑΘΗΓΗΤΗΣ : Δ. ΔΕΡΒΟΣ

ΕΠΙΣΚΟΠΗΣΗ ΠΑΡΟΥΣΙΑΣΗΣ Αναφορά στην Ανακάλυψη Γνώσης απο Βάσεις Δεδομένων Εισαγωγή στην Εύρεση Εκτόπων Μεθοδολογία Εργασίας Συμπεράσματα

Διαδικασία Ανακάλυψη Γνώσης Εξαγωγή Χρήσιμης Γνώσης Γνωστή ώς KDD Τεχνικές Εξόρυξης Δεδομένων = τμήμα KDD Μοτίβα , Πρότυπα , Σχέσεις , Έκτοπα

Βήματα Διαδικασίας KDD δεδομένων

Μέθοδοι Εξόρυξης Δεδομένων Κατηγοριοποίηση Classification Συσταδοποίηση Clustering Κανόνες Συσχετίσεων Association Rules Εύρεση Εκτόπων Outlier Detection «Έκτοπη είναι μία παρατήρηση που αποκλίνει τόσο πολύ από τις άλλες παρατηρήσεις, ώστε να μας εξεγείρει τις υποψίες ότι δημιουργήθηκε από διαφορετικό μηχανισμό.» Hawkings , 1980

Εύρεση Εκτόπων Φύση και Τύπος Δεδομένων ΚΑΤΗΓΟΡΙΕΣ Κατανομή Βάθος Συσταδοποίηση Απόσταση Πυκνότητα Γενετικοί Αλγόριθμοι

Προσέγγιση Πυκνότητας Προσέγγιση Κατανομής Προσέγγιση Πυκνότητας Χρήση κατανομής (μοντέλο Gauss, Poisson …) Παρατηρήσεις που αποκλίνουν = Έκτοπα Βάση στο μοντέλο , όχι στα δεδομένα Τοπικά Έκτοπα Μέτρα εκτοπότητας βάση γειτονιάς

Προσέγγιση Συσταδοποίησης Προσέγγιση Γενετικών Αλγορίθμων Μέρος της διαδικασίας συσταδοποίησης Αυξημένοι παράγοντες θορύβου Χρήση Συνάρτησης Κόστους Βελτιστοποίηση και Σύγκριση μεθόδων

DBSCAN Έκτοπα είναι τα δεδομένα που δέν ανήκουν σε συστάδα Έκτοπα είναι τα δεδομένα που δέν ανήκουν σε συστάδα Τοπικές παραμέτροι πυκνότητας και ‘συνδεσιμότητας’ Αλγόριθμος Συσταδοποίησης R*-δέντρο Προσέγγιση Πυκνότητας και Aπόστασης για χωρικά δεδομένα Αναγνώριση πυκνών και αραιών συστάδων Αναγνώριση ‘θορύβου’ Πυρήνας Όριο Έκτοπο

LOCI Σημαντικό χαρακτηριστικό η μέθοδος αξιολόγησης εκτoπότητας «Local Correlation Integral» Αυτόματος και υπαγορευμένος απο τα δεδομένα τρόπος καθορισμού εκτόπων Κάθε ‘σημείο’ βαθμολογείται με το μέτρο εκτοπότητας Προσέγγιση πυκνότητας με χρήση πιθανοτικής λογικής

ΗΟΤ Εντοπισμός κατηγορικών εκτόπων Μοντέλο Υπεργράφου Επιτυχής ανακάλυψη σε πολυδιάστατα δεδομένα Χρήση Κανόνων Συσχετίσεων ( aPriori )

NORMALIZED GOOGLE DISTANCE #1 Υπολογισμός με δύο ορίσματα (pairwise) Αναζήτηση ορίσματος στο πλήθος των σελίδων που αρχειοθετεί η Google Συσχέτιση των δύο ορισμάτων με τον τύπο

NORMALIZED GOOGLE DISTANCE #2 Μ = Πλήθος αρχειοθετημενων σελίδων Εύρος τιμών [0,∞) NGD(x , y) = NGD(y , x) Μετρήσεις ανεξάρτητες κλίμακας

ΠΡΟΒΛΗΜΑ Εύρεση κατηγορικών εκτόπων Έκτοπο = Λέξη / Άρθρο Αναπαράσταση και Μέτρηση Απόστασης κατηγορικών δεδομένων

ΜΕΘΟΔΟΛΟΓΙΑ ΕΡΓΑΣΙΑΣ Δεδομένα Αλγόριθμοι Ορισμός και Εύρεση εκτόπων

ΔΕΔΟΜΕΝΑ ΒΑΣΗΣ Άρθρο αναφέρει Άρθρο Άρθρο έχει Λέξεις Κλειδιά Επικεντρώνουμε την εργασία σε ένα άρθρο και τον ‘κόσμο’ του.

ΕΠΕΞΕΡΓΑΣΙΑ ΔΕΔΟΜΕΝΩΝ Επιλογή ενός άρθρου και των αναφορών σε και από αυτό. Δημιουργία τιμών NGD για κάθε ζεύγος λέξεων ΚΕΝΤΡΙΚΟ ΑΡΘΡΟ Αναφορές ΣΕ αυτό Αναφορές ΑΠΟ αυτό

ΠΕΡΙΠΤΩΣΕΙΣ ΕΦΑΡΜΟΓΗΣ NGD Ελάχιστη Απόσταση Λέξης- προς -Άρθρο Οδηγό Άρθρου- προς -Άρθρο Οδηγό Μέση Απόσταση Fan-In και Fan-Out

ΣΗΜΕΙΩΣΕΙΣ Αποστάσεις NGD=∞ σηματοδοτούν έκτοπο ζέυγος. Τέτοια ζεύγη έχουν αφαιρεθεί απο την διαδικασία διότι επηρρεάζουν τις αποστάσεις Διαφοροποίηση της παραμέτρου Μ (πλήθους σελίδων) και σύγκριση συμπεριφοράς

ΔΙΑΔΙΚΑΣΙΑ ΕΥΡΕΣΗΣ ΕΚΤΟΠΩΝ Χρήση στατιστικής προσέγγισης Διαγράμματα συχνοτήτων Κανονικές Κατανομές Διακύμανση (s2) Τυπική Απόκλιση (σ) Ζεύγος με απόσταση NGD πέραν των +2σ θεωρείται έκτοπο

ΑΠΟΤΕΛΕΣΜΑΤΑ ΕΥΡΕΣΗΣ ΕΚΤΟΠΩΝ Λέξεις Υπέρβαση ορίου +2σ κανονικής κατανομής αποστάσεων NGD ορίζεται ως έκτοπο Άρθρα Άρθρα έκτοπα βάση ελαχίστων τιμών απόστασης άρθρου απο άρθρο - οδηγό

ΜΕΣΗ ΑΠΟΣΤΑΣΗ ΛΕΞΗΣ-ΠΡΟΣ-ΑΡΘΡΟ Αφαίρεση απείρων αποστάσεων Cited Άρθρα έχουν πιό μικρή απόσταση σε σχέση με τα Citing άρθρα Cited = Αναφέρονται από το άρθρο-οδηγό Citing = Αναφέρουν το άρθρο-οδηγό

ΑΠΟΣΤΑΣΕΙΣ ΑΡΘΡΩΝ ΠΡΟΣ ΑΡΘΡΟ-ΟΔΗΓΟ Μέσες Τιμές Μέσων Τιμών Μέσες Τιμές Ελαχίστων Τιμών

ΠΕΡΙΠΤΩΣΕΙΣ ΜΕΛΕΤΗΣ 2η Μελέτη Εκτόπων 3η Μελέτη Εκτόπων Αλλαγή του Μ 2η Μελέτη Εκτόπων 3η Μελέτη Εκτόπων Αλλαγή του Μ Ίδιες Λέξεις Αρχική τιμή Μ Αλλαγή Λέξεων

ΣΥΜΠΕΡΑΣΜΑΤΑ Αξιολόγηση των τιμών NGD , ανάγκη βελτιστοποίησης αναζήτησης Μείζωνος σημασίας η επιλογή των λέξεων του άρθρου οδηγού Ο παράγοντας Μ (πλήθος σελίδων) αλλάζει την κλίμακα των τιμών και δεν διαφοροποιεί την γενική συμπεριφορά του αλγορίθμου

ΕΡΩΤΗΣΕΙΣ ?