Αξιολόγηση μετρικών απόστασης λέξεων και η εφαρμογή τους στην ταύτιση όμοιων εγγραφών Ραπανάκης Σταμάτης Ιούνιος 2007.

Slides:



Advertisements
Παρόμοιες παρουσιάσεις
Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1 Ευρετήρια.
Advertisements

Γραφήματα & Επίπεδα Γραφήματα
ΑΠΟΤΙΜΗΣΗ ΑΠΟΔΟΣΗΣ ΔΙΚΤΥΩΝ ΠΟΥ ΧΡΗΣΙΜΟΠΟΙΟΥΝ ΑΞΙΟΠΙΣΤΑ ΠΡΩΤΟΚΟΛΛΑ ΜΕΤΑΦΟΡΑΣ ΚΑΙ ΑΞΙΟΠΙΣΤΑ ΠΡΩΤΟΚΟΛΛΑ ΣΥΝΔΕΣΗΣ Ιωάννης Κόμνιος Μεταπτυχιακή Διατριβή Τμήμα.
Ερωτηματολόγιο Συλλογής Απαιτήσεων Εφαρμογών Υψηλών Επιδόσεων
Πέτσας Δημήτριος Παρουσίαση στο μάθημα: Ψηφιακές Βιβλιοθήκες
Βασικές Συναρτήσεις Πινάκων
Ανάπτυξη Μοντέλου Ρομποτικού Οχήματος Σταθερής Τροχιάς, για Αποθήκη Κέντρου Διανομής Λιανεμπορίου ή Υπηρεσιών Logistics Γκρέμος Αναστάσιος ΠΛΣ Διπλωματική.
Αλέξανδρος Σαχινίδης, ΜΒΑ, Ph.D. ΙΟΥΝΙΟΣ 2009
 Παρουσιάζοντας πολιτισμικό υλικό στα σχολεία
-Στοίβα-Ουρά - Πλεονεκτήματα πινάκων -Δομές δεδομένων δευτερεύουσας μνήμης -Πληροφορική και δεδομένα -Παραδείγματα-Προβλήματα ψευδοκώδικα.
της Μαρίας-Ζωής Φουντοπούλου
Εξελικτική πορεία της Διοίκησης Ολικής Ποιότητας (ΔΟΠ)
Ημερομηνία: 13/12/2006 Τμήμα: Πληροφορικής του Ιονίου Πανεπιστημίου
Κεφάλαιο 6 Υλοποίηση Γλωσσών Προγραμματισμού
ΘΕΩΡΙΑ ΔΙΑΛΕΞΗ 4 Αριθμητικές εκφράσεις και πράξεις Εντολές ανάθεσης
Εκτέλεση Αλγορίθμων σε ψευδογλώσσα
Εισαγωγή στον Προγραμματισμό, Αντώνιος Συμβώνης, ΣΕΜΦΕ, ΕΜΠ, Slide 1 Εβδομάδα 3: Υλοποίηση μεθόδων.
24/11/2003Message Passing Interface (MPI)1 Αθήνα, Νοέμβριος 2003 Συστήματα Παράλληλης Επεξεργασίας Εργαστήριο Υπολογιστικών Συστημάτων.
22/11/2004Message Passing Interface (MPI)1 Αθήνα, Νοέμβριος 2004 Συστήματα Παράλληλης Επεξεργασίας Εργαστήριο Υπολογιστικών Συστημάτων.
Προγραμματισμός PASCAL Πληροφορική Γ' Λυκείου μέρος γ
Δρ. Παναγιώτης Συμεωνίδης
1 Συλλογικοί Κατάλογοι & Διαδίκτυο Μιχάλης Σφακάκης.
Ανάκτηση Πληροφορίας Το Διανυσματικό μοντέλο.
Σχεδίαση-Ανάπτυξη Εφαρμογών Πληροφορικής Αντώνιος Συμβώνης, ΕΜΠ, Slide 1 Week 4: Exceptions Εβδομάδα 4: Εξαιρέσεις [Exceptions]
Page  1 Ο.Παλιάτσου Γαλλική Επανάσταση 1 ο Γυμνάσιο Φιλιππιάδας.
1 iPac Μια πρώτη γνωριμία Κώστας Βίγλας ΥΚΒ. 26/6/2002 Ενημέρωση πάνω στις νέες ψηφιακές υπηρεσίες 2 Περιεχόμενα 1 iPac  Τί είναι το iPac  Δυνατότητες.
-17 Προσδοκίες οικονομικής ανάπτυξης στην Ευρώπη Σεπτέμβριος 2013 Δείκτης > +20 Δείκτης 0 a +20 Δείκτης 0 a -20 Δείκτης < -20 Σύνολο στην Ευρωπαϊκή Ένωση:
Προγραμματισμός στο ΜatLab
Δυαδικά Δένδρα Αναζήτησης, Δένδρα AVL
Εισαγωγή στον Προγραμματισμό, Αντώνιος Συμβώνης, ΣΕΜΦΕ, ΕΜΠ, Slide 1 Εβδομάδα 7: Συμβολοσειρές.
Νευρωνικά Δίκτυα Εργαστήριο Εικόνας, Βίντεο και Πολυμέσων
Αναγνώριση Προτύπων.
Κεφάλαιο 2ο Πεπερασμένα αυτόματα.
Γραφήματα & Επίπεδα Γραφήματα
ΙΣΟΛΟΓΙΣΜΟΣ ΒΑΣΕΙ Δ.Λ.Π. (ΕΝΑΡΞΗΣ)
ΑΠΕΙΚΟΝΙΣΗ ΕΝΝΟΙΩΝ 1. 2 Χρήστης Στόχος Ταμίας διενέργεια πώλησης διενέργεια ενοικίασης εισαγωγή ταμείου εξαγωγή ταμείου * 1 Μοντέλο Πεδίου Προβλήματος.
Αποκεντρωμένη Διοίκηση Μακεδονίας Θράκης ∆ιαχείριση έργων επίβλεψης µε σύγχρονα µέσα και επικοινωνία C2G, B2G, G2G Γενική Δ/νση Εσωτερικής Λειτουργίας.
Η επιρροή του χώρου εργασίας των σχολικών τάξεων στη μάθηση
ΕΥΡΕΣΗ ΚΑΤΗΓΟΡΙΚΩΝ ΕΚΤΟΠΩΝ ΣΕ ΒΙΒΛΙΟΓΡΑΦΙΚΗ ΒΑΣΗ ΔΕΔΟΜΕΝΩΝ
Ισορροπημένα Δένδρα TexPoint fonts used in EMF. Read the TexPoint manual before you delete this box.: AA A A A Μπορούμε να επιτύχουμε χρόνο εκτέλεσης για.
Ολυμπιάδα Πληροφορικής
Δομές Αναζήτησης TexPoint fonts used in EMF. Read the TexPoint manual before you delete this box.: AA A A A Χειριζόμαστε ένα σύνολο στοιχείων όπου το κάθε.
Ολυμπιάδα Πληροφορικής
Ανάλυση Πολλαπλής Παλινδρόμησης
1 Α. Βαφειάδης Αναβάθμισης Προγράμματος Σπουδών Τμήματος Πληροφορικής Τ.Ε.Ι Θεσσαλονίκης Μάθημα Προηγμένες Αρχιτεκτονικές Υπολογιστών Κεφαλαίο Τρίτο Συστήματα.
Τεχνολογία ΛογισμικούSlide 1 Αλγεβρική Εξειδίκευση u Καθορισμός τύπων αφαίρεσης σε όρους σχέσεων μεταξύ τύπων λειτουργιών.
Συνδυαστικά Κυκλώματα
1 Ενότητα 5.3.1: Ερωτηματολόγια με τη χρήση του Διαδικτύου Διδάσκων: Χρήστος Κατσάνος - Πανεπιστημιακό κέντρο εκπαίδευσης επιμορφωτών.
Μοντέλα Συστημάτων Παρουσιάσεις των συστημάτων των οποίων οι απαιτήσεις αναλύονται.
Προγραμματισμός ΙΙ Διάλεξη #5: Εντολές Ανάθεσης Εντολές Συνθήκης Δρ. Νικ. Λιόλιος.
ANAKOINWSH H 2η Ενδιάμεση Εξέταση μεταφέρεται στις αντί για , την 24 Νοεμβρίου στις αίθουσες ΧΩΔ και 110 λόγω μη-διαθεσιμότητας.
Ανάπτυξη Πρωτοτύπου Λογισμικού
Ουρά Προτεραιότητας: Heap
Ζαγκαρέτος Λεωνίδας ΑΕΜ: 607 Ραφαηλίδης Δημήτρης ΑΕΜ: 656
ΕΠΛ 223 Θεωρία και Πρακτική Μεταγλωττιστών7-1 Πίνακας Συμβόλων Πίνακας συμβόλων: δομή δεδομένων που χρησιμοποιείται για την αποθήκευση διαφόρων πληροφοριών.
ΜΑΘΗΜΑ ΝΟΣΗΛΕΥΤΙΚΗ ΜΕΤΑΓΓΙΣΗ ΑΙΜΑΤΟΣ - ΑΙΜΟΔΟΣΙΑ
Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1 Σχεδιασμός Σχεσιακών Σχημάτων.
Διδακτική της Πληροφορικής ΗΥ302 Εργασία :Παρουσίαση σχολικού βιβλίου Γ’ Λυκείου Τεχνολογικής Κατεύθυνσης «Ανάπτυξη εφαρμογών σε προγραμματιστικό περιβάλλον»
Βάσεις Δεδομένων Εργαστήριο ΙΙ Τμήμα Πληροφορικής ΑΠΘ
Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1 Σχεσιακό Μοντέλο.
Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1 Σχεσιακό Μοντέλο.
Εθνικό και Καποδιστριακό Πανεπιστήμιο Αθηνών – Τμήμα Πληροφορικής και Τηλεπικοινωνιών 1 Κεφάλαιο 3 Η Σημασιολογία των Γλωσσών Προγραμματισμού Προπτυχιακό.
TexPoint fonts used in EMF. Read the TexPoint manual before you delete this box.: AA A A A Ουρά Προτεραιότητας (priority queue) Δομή δεδομένων που υποστηρίζει.
Δομές Δεδομένων - Ισοζυγισμένα Δυαδικά Δένδρα (balanced binary trees)
1 Μελέτη κανόνων συμμετοχής σε ομότιμα δίκτυα επικοινωνίας μέσω προσομοίωσης Φοιτητής : Χρήστος Ι. Καρατζάς Επιβλέποντες Καθηγητές : Γ. Πολύζος – Κ. Κουρκουμπέτης.
Κλασσικά Μοντέλα Ανάκτησης Πληροφορίας Βασική πηγη το βιβλίο και οι διαφάνειες R. Baeza-Yates, B. Ribeiro-Neto, Modern Information Retrieval, Addison Wesley,
Αγγελική Γεωργιάδου- Αναστασία Πεκτέσογλου Δράμα 2006
IΟΝΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ ΣΤΗΝ ΕΠΙΣΤΗΜΗ ΤΗΣ ΠΛΗΡΟΦΟΡΙΑΣ: «ΔΙΟΙΚΗΣΗ & ΟΡΓΑΝΩΣΗ ΒΙΒΛΙΟΘΗΚΩΝ ΜΕ ΕΜΦΑΣΗ ΣΤΙΣ ΝΕΕΣ ΤΕΧΝΟΛΟΓΙΕΣ ΤΗΣ.
Πρόβλεψη Θέσης Χρήστη σε Κινητά Δίκτυα - Ταξινομητής Βέλτιστης Παύσης Σπύρος Γεωργάκης Διπλωματική Εργασία.
Μεταγράφημα παρουσίασης:

Αξιολόγηση μετρικών απόστασης λέξεων και η εφαρμογή τους στην ταύτιση όμοιων εγγραφών Ραπανάκης Σταμάτης Ιούνιος 2007

2 Δομή παρουσίασης Εισαγωγή Μέθοδοι Σύγκρισης Υλοποίηση Πειράματα Συμπεράσματα Μελλοντικές επεκτάσεις

3 Εύρεση όμοιων εγγραφών σε βάσεις δεδομένων “Philippe The Original 1001 N. Alameda St. Chinatown Cafeterias” “Philippe's The Original 1001 N. Alameda St. Los Angeles 213/ American” Ενοποίηση βάσεων δεδομένων Αντιμετώπιση προβλημάτων δομικής και λεξικής ετερογένειας Διασύνδεση εγγραφών (Record Linkage): Διαδικασία του εντοπισμού εγγραφών από μια ή περισσότερες πηγές δεδομένων. Κίνητρο

4 Πειραματική αξιολόγηση μετρικών απόστασης λέξεων για σκοπούς διασύνδεσης εγγραφών Ανάπτυξη και παροχή μίας προγραμματιστικής βιβλιοθήκης για τον εντοπισμό διπλότυπων εγγραφών και την αξιολόγηση των μετρικών απόστασης Σκοπός της εργασίας

5 Δομή παρουσίασης Εισαγωγή Μέθοδοι Σύγκρισης Υλοποίηση Πειράματα Συμπεράσματα Μελλοντικές επεκτάσεις

6 Σύγκριση εγγραφών σε επίπεδο Επιμέρους πεδίων Ολόκληρης εγγραφής Σύγκριση ως Συμβολοσειρά Φωνητική αναπαράσταση Θεωρητικό υπόβαθρο (1/2)

7 Σύγκριση ως συμβολοσειρές Απόσταση Επεξεργασίας (edit distance) Levenshtein Smith – Waterman Απόσταση βασισμένη σε λεκτικές μονάδες (tokens) Jaccard Monge – Elkan Απόσταση βασισμένη σε υβριδική προσέγγιση SoftTFIDF Άλλες αποστάσεις COCLU Θεωρητικό υπόβαθρο (2/2)

8 Μετρική Levenshtein Υπολογίζει τον ελάχιστο αριθμό λειτουργιών σύνταξης για να μετατραπεί η συμβολοσειρά στην συμβολοσειρά Υπάρχουν 3 τύποι λειτουργιών σύνταξης Εισαγωγή ενός χαρακτήρα σε μια συμβολοσειρά Διαγραφή ενός χαρακτήρα από μια συμβολοσειρά Αντικατάσταση ενός χαρακτήρα με έναν άλλο Παράδειγμα: “stamatios”  “Stamatis” Αντικατάσταση χαρακτήρα “s” με “S” Διαγραφή χαρακτήρα “o” Απόσταση 2 Μετρικές απόστασης επεξεργασίας (1/2)

9 Η μετρική Levenshtein Αναθέτει σε κάθε λειτουργία το ίδιο κόστος σύνταξης Δεν λειτουργεί καλά σε συντομευμένες συμβολοσειρές “Jonathan R. Smith” έναντι “Jonathan Richard Smith” Μετρική Smith-Waterman Παρέχει επιπλέον λειτουργίες Εισαγωγή κενού σε μια συμβολοσειρά (υψηλότερο κόστος) Επέκταση κενού σε μια συμβολοσειρά (χαμηλότερο κόστος) Παίρνει ως παράμετρο έναν πίνακα με κόστη χαρακτήρων Συγκρίνει υποακολουθίες όλων των πιθανών μηκών και εντοπίζει τις όμοιες υποακολουθίες Παράδειγμα: “Prof. John R. Smith, University of Calgary” και “John R. Smith, Prof.” Μετρικές απόστασης επεξεργασίας (2/2)

10 Χωρίζουν την συμβολοσειρά στις λεκτικές μονάδες στις οποίες συνίσταται Συγκρίνονται οι επιμέρους λεκτικές μονάδες Εντοπίζουν μεταθέσεις λέξεων αντί για μεταθέσεις χαρακτήρων, π.χ. “John Smith” έναντι “Smith John” Μετρικές αυτής της κατηγορίας Jaccard Monge-Elkan Μετρικές βασισμένες σε λεκτικές μονάδες (1/3)

11 Μετρική Jaccard Ορίζονται δύο σύνολα A και B που περιέχουν τις λέξεις που αποτελούν τις υπό σύγκριση συμβολοσειρές, π.χ. A = {“Ventura”, “Blvd.”, “Studio”, “City”} B = {“Ventura”, “Boulevard.”, “Studio”, “City”} Η απόσταση Jaccard ορίζεται ως Στο παραπάνω παράδειγμα είναι 2/5 Μετρικές βασισμένες σε λεκτικές μονάδες (2/3)

12 Μετρική Monge-Elkan Δύο συμβολοσειρές Α και Β ταιριάζουν είτε αν είναι ακριβώς ίδιες είτε αν οι λέξεις της μίας είναι συντομεύσεις των αντίστοιχων λέξεων (tokens) της άλλης Συγκρατούμε το καλύτερο αποτέλεσμα σύγκρισης για κάθε token Α, Β οι συμβολοσειρές, match η απόσταση Smith – Waterman – Gotoh Παράδειγμα: “Souliou, 11 A, Marousi, 15124” και η συμβολοσειρά “Marousi, , Souliou, 11 A, Athens” Μετρικές βασισμένες σε λεκτικές μονάδες (3/3)

13 Μετρικές βασισμένες σε υβριδική προσέγγιση απόστασης επεξεργασίας και λεκτικών μονάδων (1/3) Ορισμός συναρτήσεων ομοιότητας του τύπου Οι συμβολοσειρές s και t χωρίζονται στις συνιστώσες τους λεκτικές μονάδες και είναι η εκάστοτε μετρική ομοιότητας που χρησιμοποιείται

14 Μετρικές βασισμένες σε υβριδική προσέγγιση απόστασης επεξεργασίας και λεκτικών μονάδων (2/3) Μετρική TFIDF Για κάθε εγγραφή ορίζουμε ένα διάνυσμα της μορφής, όπου η τιμή της συνιστώσας είναι: 0, αν η λέξη t δεν υπάρχει στο αντίστοιχο πεδίο της εγγραφής που μελετάμε, διαφορετικά είναι ο αριθμός των φορών όπου η λέξη t εμφανίζεται στο πεδίο και, όπου ο αριθμός των εγγραφών στην βάση που περιέχουν την λέξη t στο αντίστοιχο πεδίο

15 Μετρικές βασισμένες σε υβριδική προσέγγιση απόστασης επεξεργασίας και λεκτικών μονάδων (3/3) Η ομοιότητα δίνεται από την σχέση Μετρική SoftTFIDF Υπολογίζει και ζεύγη από λέξεις που είναι «όμοια» με κάποια άλλη μετρική Αποδίδει καλά στις περιπτώσεις των τυπογραφικών λαθών, π.χ. “Compter Science Department” και “Deprtment of Computer Science”

16 Αλγόριθμος COCLU (Compression based Clustering) Αναθέτει τις συμβολοσειρές σε συστάδες (cluster) Κάθε συστάδα χαρακτηρίζεται από ένα δένδρο Huffman Η μετρική CCDiff (Cluster Code Difference) αναπαριστά την διαφορά: |Length(Cluster_tokens) – Length (Cluster_tokens+candidate)| Ανάλογα με το κατώφλι που ορίζουμε, αποφασίζουμε αν μια υποψήφια συμβολοσειρά θα ανήκει σε ένα cluster Στην υλοποίηση μας δύο συμβολοσειρές είναι όμοιες εάν ανήκουν στην ίδια συστάδα. Η πρώτη συμβολοσειρά σχηματίζει μια συστάδα και ελέγχεται αν η δεύτερη μπορεί να εκχωρηθεί σε αυτή Άλλες μετρικές

17 Δομή παρουσίασης Εισαγωγή Μέθοδοι Σύγκρισης Υλοποίηση Πειράματα Συμπεράσματα Μελλοντικές επεκτάσεις

18 Επίπεδα του συστήματος (Αρχ/κή Taylor) Επίπεδο γραφικής διεπαφής Εργαλεία Μετρήσεων Μοντέλα Απόφασης Επίπεδο Σύγκρισης Επίπεδο Blocking Προτυποποίηση Σύστημα Διαχείρισης ΒΔ

19 Λειτουργικό επίπεδοΟνομασία διεπαφής 6. Εργαλεία Μετρήσεων Measurement 5. Μοντέλα απόφασης Decision 4. Επίπεδο Σύγκρισης Comparison 3. Επίπεδο Blocking Blocking 2. Προτυποποίηση Standardisation 1. ΣΔΒΔ DataSource Επίπεδα διεπαφής

20 Οι τυπικές πηγές των δεδομένων είναι είτε βάσεις δεδομένων είτε αρχεία. Χαρακτηριστικές υλοποιήσεις της διεπαφής DataSource: FileHandle JDBCHandle Παρέχονται οι μέθοδοι: void openConnection() void closeConnection() Record[] getRecords() Σύστημα Διαχείρισης Β.Δ.

21 Συγκρίνει συμβολοσειρές με βάση τις υλοποιήσεις της διεπαφής Comparison: JaccardComparison LevenshteinComparison Παρέχονται οι μέθοδοι: boolean Match(String s1, String s2) double MatchConfidence(String s1, String s2) boolean Match(String s1, String s2, Object[] oParam) double MatchConfidence(String s1, String s2, Object[] oParam) Επίπεδο Σύγκρισης

22 Λαμβάνεται η απόφαση αν δύο εγγραφές ταιριάζουν ή όχι. Χαρακτηριστικές υλοποιήσεις της διεπαφής Decision: LinearDecision Παρέχονται οι μέθοδοι: public int DecideMatch(Record r1, Record r2) public int DecideMatch(Record r1, Record r2, Object[] oParams) Μοντέλα απόφασης

23 Υλοποίηση της κανονικοποιημένης απόστασης Levenshtein: public double MatchConfidence(String s1, String s2) { double dLevenshtein = DistanceMetrics.Levenshtein.computeLevenshteinDistance(s1, s2); int max_string_length = Math.max(s1.length(), s2.length()); double match_conf = dLevenshtein/max_string_length; return match_conf; } Παράδειγμα

24 Μπορεί να χρησιμοποιηθεί είτε σαν ανεξάρτητο πρόγραμμα εντοπισμού πολλαπλών εγγραφών είτε να ενσωματωθεί σε κάποιο άλλο πρόγραμμα ως λειτουργική υπομονάδα. Σε αντίθεση με τα υπάρχοντα προγράμματα μπορεί να επεκταθεί/ τροποποιηθεί εύκολα. Παρέχει στο χρήστη ευελιξία που δεν παρέχουν άλλες πλατφόρμες Στηρίζεται σε ευρέως γνωστές βιβλιοθήκες Μπορεί να λειτουργήσει σαν πειραματική πλατφόρμα Πλεονεκτήματα της Βιβλιοθήκης

25 Δομή παρουσίασης Εισαγωγή Βιβλιογραφικό Υπόβαθρο Υλοποιήσεις μας Πειράματα Συμπεράσματα Μελλοντικές επεκτάσεις

26 Σκοπός Προσδιορισμός της αποτελεσματικότητας της κάθε μετρικής απόστασης. Ποιες από τις μετρικές αποδίδουν καλύτερα ανεξάρτητα από τον τύπο του πεδίου Αρχικό σύνολο δεδομένων Fodors και Zagats (W. Cohen) 864 εγγραφές, 112 όμοιες εγγραφές. Με το πεδίο τηλέφωνο/ χωρίς το πεδίο τηλέφωνο (που είναι πιο δύσκολο). Πειράματα

27 Philippe's34 E. 61st St.New York212/ American Yujean Kang's67 N. Raymond Ave.Pasadena Chinese Για κάθε ζεύγος εγγραφών παράγουμε ένα διάνυσμα της μορφής, όπου π.χ. Sim(“Philippe”, “Philippe’s”) Sim(“ 34 E. 61st St. ”, “ 34 E. 61st St. ”) Sim(“New York City”, “New York”), κλπ. R = TRUE αν οι δύο εγγραφές ταιριάζουν, FALSE διαφορετικά Chinois on Main2709 MainSt. Santa Monica Pacific New Wave Philippe34 E. 61st St.New York City American (New) Fodors: Zagats: Μεθοδολογία πειραμάτων (1/2)

28 Προσδιορισμός μιας σχέσης Χρησιμοποιούμε την πλατφόρμα μηχανικής μάθησης Weka για την εκπαίδευση ενός ταξινομητή Θα κατατάσσει τα διανύσματα της παραπάνω μορφής ως TRUE/FALSE Μεθοδολογία πειραμάτων (2/2)

29 Δεδομένα εκπαίδευσης: 10 τυχαία ζευγάρια εγγραφών που ταιριάζουν και 10 τυχαία ζευγάρια εγγραφών που δεν ταιριάζουν από την συλλογή Fodors και Zagats. Σύνολο αξιολόγησης: Το σύνολο των εγγραφών Επιλογή του ταξινομητή DecisionStump για την εύρεση ενός κανόνα της μορφής If Phone_similarity <= , FALSE else TRUE H αναλογία ζευγών εγγραφών που ταιριάζουν /δεν ταιριάζουν είναι 1:1 στα δεδομένα εκπαίδευσης αλλά διαφορετική στα δεδομένα αξιολόγησης. Εκπαίδευση ταξινομητή

30 Ποσοστό επιτυχημένης ταξινόμησης εγγραφών Με το πεδίο τηλέφωνο Αποτελέσματα (1/6)

31 Ακρίβεια - Με το πεδίο τηλέφωνο Αποτελέσματα (2/6)

32 Ανάκληση - Με το πεδίο τηλέφωνο Αποτελέσματα (3/6)

33 Αποτελέσματα (4/6) Ποσοστό επιτυχημένης ταξινόμησης εγγραφών Χωρίς το πεδίο τηλέφωνο

34 Ακρίβεια - Χωρίς το πεδίο τηλέφωνο Αποτελέσματα (5/6)

35 Αποτελέσματα (6/6) Ανάκληση - Χωρίς το πεδίο τηλέφωνο

36 Δομή παρουσίασης Εισαγωγή Μέθοδοι Σύγκρισης Υλοποίηση Πειράματα Συμπεράσματα Μελλοντικές επεκτάσεις

37 Τα αποτελέσματα οφείλονται στο ότι Πεδία όπως Τηλέφωνο ή Πόλη προσδιορίζουν επαρκώς τις όμοιες εγγραφές Μικρός βαθμός ανομοιογένειας των πινάκων Οι υβριδικές μετρικές επιτυγχάνουν καλύτερα αποτελέσματα Συνδυάζουν τα πλεονεκτήματα των μετρικών σύγκρισης χαρακτήρων και λεκτικών μονάδων Περισσότερο χρονοβόρες Ο αλγόριθμος του COCLU είναι ασταθής Ανάγκη αξιόπιστου μηχανισμού για τον προσδιορισμό του κατωφλίου Συμπεράσματα (1/2)

38 Οι μετρικές που στοχεύουν σε συγκεκριμένη εφαρμογή δεν αποδίδουν πάντα. Monge – Elkan COCLU Περισσότερα πειράματα είναι απαραίτητα. Τα πεδία να περιέχουν λάθη (ορθογραφικά) Περισσότερους τύπους πεδίων Πειράματα με πιο ανομοιογενείς συλλογές εγγραφών Η μέθοδος δεν είναι χρήσιμη ως αυτόματη, αλλά ως ημιαυτόματη. Συμπεράσματα (2/2)

39 Δομή παρουσίασης Εισαγωγή Μέθοδοι Σύγκρισης Υλοποίηση Πειράματα Συμπεράσματα Μελλοντικές επεκτάσεις

40 Χρήση σύνθετων μοντέλων απόφασης Εκμετάλλευση του συσχετισμού των πεδίων Χρησιμοποίηση άλλων ταξινομητών Υλοποίηση ευριστικών μηχανισμών για την επιλογή της καταλληλότερης μετρικής ανάλογα με τον τύπο του πεδίου Δυσκολία αναγνώρισης του τύπου του πεδίου Αξιολόγηση των μετρικών με βάση θέματα αλγοριθμικής πολυπλοκότητας Μελλοντικές επεκτάσεις

41 Ευχαριστώ!