Η παρουσίαση φορτώνεται. Παρακαλείστε να περιμένετε

Η παρουσίαση φορτώνεται. Παρακαλείστε να περιμένετε

Αξιολόγηση μετρικών απόστασης λέξεων και η εφαρμογή τους στην ταύτιση όμοιων εγγραφών Ραπανάκης Σταμάτης Ιούνιος 2007.

Παρόμοιες παρουσιάσεις


Παρουσίαση με θέμα: "Αξιολόγηση μετρικών απόστασης λέξεων και η εφαρμογή τους στην ταύτιση όμοιων εγγραφών Ραπανάκης Σταμάτης Ιούνιος 2007."— Μεταγράφημα παρουσίασης:

1 Αξιολόγηση μετρικών απόστασης λέξεων και η εφαρμογή τους στην ταύτιση όμοιων εγγραφών Ραπανάκης Σταμάτης Ιούνιος 2007

2 2 Δομή παρουσίασης Εισαγωγή Μέθοδοι Σύγκρισης Υλοποίηση Πειράματα Συμπεράσματα Μελλοντικές επεκτάσεις

3 3 Εύρεση όμοιων εγγραφών σε βάσεις δεδομένων “Philippe The Original 1001 N. Alameda St. Chinatown 213- 628-3781 Cafeterias” “Philippe's The Original 1001 N. Alameda St. Los Angeles 213/628-3781 American” Ενοποίηση βάσεων δεδομένων Αντιμετώπιση προβλημάτων δομικής και λεξικής ετερογένειας Διασύνδεση εγγραφών (Record Linkage): Διαδικασία του εντοπισμού εγγραφών από μια ή περισσότερες πηγές δεδομένων. Κίνητρο

4 4 Πειραματική αξιολόγηση μετρικών απόστασης λέξεων για σκοπούς διασύνδεσης εγγραφών Ανάπτυξη και παροχή μίας προγραμματιστικής βιβλιοθήκης για τον εντοπισμό διπλότυπων εγγραφών και την αξιολόγηση των μετρικών απόστασης Σκοπός της εργασίας

5 5 Δομή παρουσίασης Εισαγωγή Μέθοδοι Σύγκρισης Υλοποίηση Πειράματα Συμπεράσματα Μελλοντικές επεκτάσεις

6 6 Σύγκριση εγγραφών σε επίπεδο Επιμέρους πεδίων Ολόκληρης εγγραφής Σύγκριση ως Συμβολοσειρά Φωνητική αναπαράσταση Θεωρητικό υπόβαθρο (1/2)

7 7 Σύγκριση ως συμβολοσειρές Απόσταση Επεξεργασίας (edit distance) Levenshtein Smith – Waterman Απόσταση βασισμένη σε λεκτικές μονάδες (tokens) Jaccard Monge – Elkan Απόσταση βασισμένη σε υβριδική προσέγγιση SoftTFIDF Άλλες αποστάσεις COCLU Θεωρητικό υπόβαθρο (2/2)

8 8 Μετρική Levenshtein Υπολογίζει τον ελάχιστο αριθμό λειτουργιών σύνταξης για να μετατραπεί η συμβολοσειρά στην συμβολοσειρά Υπάρχουν 3 τύποι λειτουργιών σύνταξης Εισαγωγή ενός χαρακτήρα σε μια συμβολοσειρά Διαγραφή ενός χαρακτήρα από μια συμβολοσειρά Αντικατάσταση ενός χαρακτήρα με έναν άλλο Παράδειγμα: “stamatios”  “Stamatis” Αντικατάσταση χαρακτήρα “s” με “S” Διαγραφή χαρακτήρα “o” Απόσταση 2 Μετρικές απόστασης επεξεργασίας (1/2)

9 9 Η μετρική Levenshtein Αναθέτει σε κάθε λειτουργία το ίδιο κόστος σύνταξης Δεν λειτουργεί καλά σε συντομευμένες συμβολοσειρές “Jonathan R. Smith” έναντι “Jonathan Richard Smith” Μετρική Smith-Waterman Παρέχει επιπλέον λειτουργίες Εισαγωγή κενού σε μια συμβολοσειρά (υψηλότερο κόστος) Επέκταση κενού σε μια συμβολοσειρά (χαμηλότερο κόστος) Παίρνει ως παράμετρο έναν πίνακα με κόστη χαρακτήρων Συγκρίνει υποακολουθίες όλων των πιθανών μηκών και εντοπίζει τις όμοιες υποακολουθίες Παράδειγμα: “Prof. John R. Smith, University of Calgary” και “John R. Smith, Prof.” Μετρικές απόστασης επεξεργασίας (2/2)

10 10 Χωρίζουν την συμβολοσειρά στις λεκτικές μονάδες στις οποίες συνίσταται Συγκρίνονται οι επιμέρους λεκτικές μονάδες Εντοπίζουν μεταθέσεις λέξεων αντί για μεταθέσεις χαρακτήρων, π.χ. “John Smith” έναντι “Smith John” Μετρικές αυτής της κατηγορίας Jaccard Monge-Elkan Μετρικές βασισμένες σε λεκτικές μονάδες (1/3)

11 11 Μετρική Jaccard Ορίζονται δύο σύνολα A και B που περιέχουν τις λέξεις που αποτελούν τις υπό σύγκριση συμβολοσειρές, π.χ. A = {“Ventura”, “Blvd.”, “Studio”, “City”} B = {“Ventura”, “Boulevard.”, “Studio”, “City”} Η απόσταση Jaccard ορίζεται ως Στο παραπάνω παράδειγμα είναι 2/5 Μετρικές βασισμένες σε λεκτικές μονάδες (2/3)

12 12 Μετρική Monge-Elkan Δύο συμβολοσειρές Α και Β ταιριάζουν είτε αν είναι ακριβώς ίδιες είτε αν οι λέξεις της μίας είναι συντομεύσεις των αντίστοιχων λέξεων (tokens) της άλλης Συγκρατούμε το καλύτερο αποτέλεσμα σύγκρισης για κάθε token Α, Β οι συμβολοσειρές, match η απόσταση Smith – Waterman – Gotoh Παράδειγμα: “Souliou, 11 A, Marousi, 15124” και η συμβολοσειρά “Marousi, 15 124, Souliou, 11 A, Athens” Μετρικές βασισμένες σε λεκτικές μονάδες (3/3)

13 13 Μετρικές βασισμένες σε υβριδική προσέγγιση απόστασης επεξεργασίας και λεκτικών μονάδων (1/3) Ορισμός συναρτήσεων ομοιότητας του τύπου Οι συμβολοσειρές s και t χωρίζονται στις συνιστώσες τους λεκτικές μονάδες και είναι η εκάστοτε μετρική ομοιότητας που χρησιμοποιείται

14 14 Μετρικές βασισμένες σε υβριδική προσέγγιση απόστασης επεξεργασίας και λεκτικών μονάδων (2/3) Μετρική TFIDF Για κάθε εγγραφή ορίζουμε ένα διάνυσμα της μορφής, όπου η τιμή της συνιστώσας είναι: 0, αν η λέξη t δεν υπάρχει στο αντίστοιχο πεδίο της εγγραφής που μελετάμε, διαφορετικά είναι ο αριθμός των φορών όπου η λέξη t εμφανίζεται στο πεδίο και, όπου ο αριθμός των εγγραφών στην βάση που περιέχουν την λέξη t στο αντίστοιχο πεδίο

15 15 Μετρικές βασισμένες σε υβριδική προσέγγιση απόστασης επεξεργασίας και λεκτικών μονάδων (3/3) Η ομοιότητα δίνεται από την σχέση Μετρική SoftTFIDF Υπολογίζει και ζεύγη από λέξεις που είναι «όμοια» με κάποια άλλη μετρική Αποδίδει καλά στις περιπτώσεις των τυπογραφικών λαθών, π.χ. “Compter Science Department” και “Deprtment of Computer Science”

16 16 Αλγόριθμος COCLU (Compression based Clustering) Αναθέτει τις συμβολοσειρές σε συστάδες (cluster) Κάθε συστάδα χαρακτηρίζεται από ένα δένδρο Huffman Η μετρική CCDiff (Cluster Code Difference) αναπαριστά την διαφορά: |Length(Cluster_tokens) – Length (Cluster_tokens+candidate)| Ανάλογα με το κατώφλι που ορίζουμε, αποφασίζουμε αν μια υποψήφια συμβολοσειρά θα ανήκει σε ένα cluster Στην υλοποίηση μας δύο συμβολοσειρές είναι όμοιες εάν ανήκουν στην ίδια συστάδα. Η πρώτη συμβολοσειρά σχηματίζει μια συστάδα και ελέγχεται αν η δεύτερη μπορεί να εκχωρηθεί σε αυτή Άλλες μετρικές

17 17 Δομή παρουσίασης Εισαγωγή Μέθοδοι Σύγκρισης Υλοποίηση Πειράματα Συμπεράσματα Μελλοντικές επεκτάσεις

18 18 Επίπεδα του συστήματος (Αρχ/κή Taylor) Επίπεδο γραφικής διεπαφής Εργαλεία Μετρήσεων Μοντέλα Απόφασης Επίπεδο Σύγκρισης Επίπεδο Blocking Προτυποποίηση Σύστημα Διαχείρισης ΒΔ

19 19 Λειτουργικό επίπεδοΟνομασία διεπαφής 6. Εργαλεία Μετρήσεων Measurement 5. Μοντέλα απόφασης Decision 4. Επίπεδο Σύγκρισης Comparison 3. Επίπεδο Blocking Blocking 2. Προτυποποίηση Standardisation 1. ΣΔΒΔ DataSource Επίπεδα διεπαφής

20 20 Οι τυπικές πηγές των δεδομένων είναι είτε βάσεις δεδομένων είτε αρχεία. Χαρακτηριστικές υλοποιήσεις της διεπαφής DataSource: FileHandle JDBCHandle Παρέχονται οι μέθοδοι: void openConnection() void closeConnection() Record[] getRecords() Σύστημα Διαχείρισης Β.Δ.

21 21 Συγκρίνει συμβολοσειρές με βάση τις υλοποιήσεις της διεπαφής Comparison: JaccardComparison LevenshteinComparison Παρέχονται οι μέθοδοι: boolean Match(String s1, String s2) double MatchConfidence(String s1, String s2) boolean Match(String s1, String s2, Object[] oParam) double MatchConfidence(String s1, String s2, Object[] oParam) Επίπεδο Σύγκρισης

22 22 Λαμβάνεται η απόφαση αν δύο εγγραφές ταιριάζουν ή όχι. Χαρακτηριστικές υλοποιήσεις της διεπαφής Decision: LinearDecision Παρέχονται οι μέθοδοι: public int DecideMatch(Record r1, Record r2) public int DecideMatch(Record r1, Record r2, Object[] oParams) Μοντέλα απόφασης

23 23 Υλοποίηση της κανονικοποιημένης απόστασης Levenshtein: public double MatchConfidence(String s1, String s2) { double dLevenshtein = DistanceMetrics.Levenshtein.computeLevenshteinDistance(s1, s2); int max_string_length = Math.max(s1.length(), s2.length()); double match_conf = dLevenshtein/max_string_length; return 1.0 - match_conf; } Παράδειγμα

24 24 Μπορεί να χρησιμοποιηθεί είτε σαν ανεξάρτητο πρόγραμμα εντοπισμού πολλαπλών εγγραφών είτε να ενσωματωθεί σε κάποιο άλλο πρόγραμμα ως λειτουργική υπομονάδα. Σε αντίθεση με τα υπάρχοντα προγράμματα μπορεί να επεκταθεί/ τροποποιηθεί εύκολα. Παρέχει στο χρήστη ευελιξία που δεν παρέχουν άλλες πλατφόρμες Στηρίζεται σε ευρέως γνωστές βιβλιοθήκες Μπορεί να λειτουργήσει σαν πειραματική πλατφόρμα Πλεονεκτήματα της Βιβλιοθήκης

25 25 Δομή παρουσίασης Εισαγωγή Βιβλιογραφικό Υπόβαθρο Υλοποιήσεις μας Πειράματα Συμπεράσματα Μελλοντικές επεκτάσεις

26 26 Σκοπός Προσδιορισμός της αποτελεσματικότητας της κάθε μετρικής απόστασης. Ποιες από τις μετρικές αποδίδουν καλύτερα ανεξάρτητα από τον τύπο του πεδίου Αρχικό σύνολο δεδομένων Fodors και Zagats (W. Cohen) 864 εγγραφές, 112 όμοιες εγγραφές. Με το πεδίο τηλέφωνο/ χωρίς το πεδίο τηλέφωνο (που είναι πιο δύσκολο). Πειράματα

27 27 Philippe's34 E. 61st St.New York212/ 319-1660American Yujean Kang's67 N. Raymond Ave.Pasadena818-585-0855Chinese Για κάθε ζεύγος εγγραφών παράγουμε ένα διάνυσμα της μορφής, όπου π.χ. Sim(“Philippe”, “Philippe’s”) Sim(“ 34 E. 61st St. ”, “ 34 E. 61st St. ”) Sim(“New York City”, “New York”), κλπ. R = TRUE αν οι δύο εγγραφές ταιριάζουν, FALSE διαφορετικά Chinois on Main2709 MainSt. Santa Monica310-392-9025Pacific New Wave Philippe34 E. 61st St.New York City212-319-1660American (New) Fodors: Zagats: Μεθοδολογία πειραμάτων (1/2)

28 28 Προσδιορισμός μιας σχέσης Χρησιμοποιούμε την πλατφόρμα μηχανικής μάθησης Weka για την εκπαίδευση ενός ταξινομητή Θα κατατάσσει τα διανύσματα της παραπάνω μορφής ως TRUE/FALSE Μεθοδολογία πειραμάτων (2/2)

29 29 Δεδομένα εκπαίδευσης: 10 τυχαία ζευγάρια εγγραφών που ταιριάζουν και 10 τυχαία ζευγάρια εγγραφών που δεν ταιριάζουν από την συλλογή Fodors και Zagats. Σύνολο αξιολόγησης: Το σύνολο των εγγραφών Επιλογή του ταξινομητή DecisionStump για την εύρεση ενός κανόνα της μορφής If Phone_similarity <= 0.8333, FALSE else TRUE H αναλογία ζευγών εγγραφών που ταιριάζουν /δεν ταιριάζουν είναι 1:1 στα δεδομένα εκπαίδευσης αλλά διαφορετική στα δεδομένα αξιολόγησης. Εκπαίδευση ταξινομητή

30 30 Ποσοστό επιτυχημένης ταξινόμησης εγγραφών Με το πεδίο τηλέφωνο Αποτελέσματα (1/6)

31 31 Ακρίβεια - Με το πεδίο τηλέφωνο Αποτελέσματα (2/6)

32 32 Ανάκληση - Με το πεδίο τηλέφωνο Αποτελέσματα (3/6)

33 33 Αποτελέσματα (4/6) Ποσοστό επιτυχημένης ταξινόμησης εγγραφών Χωρίς το πεδίο τηλέφωνο

34 34 Ακρίβεια - Χωρίς το πεδίο τηλέφωνο Αποτελέσματα (5/6)

35 35 Αποτελέσματα (6/6) Ανάκληση - Χωρίς το πεδίο τηλέφωνο

36 36 Δομή παρουσίασης Εισαγωγή Μέθοδοι Σύγκρισης Υλοποίηση Πειράματα Συμπεράσματα Μελλοντικές επεκτάσεις

37 37 Τα αποτελέσματα οφείλονται στο ότι Πεδία όπως Τηλέφωνο ή Πόλη προσδιορίζουν επαρκώς τις όμοιες εγγραφές Μικρός βαθμός ανομοιογένειας των πινάκων Οι υβριδικές μετρικές επιτυγχάνουν καλύτερα αποτελέσματα Συνδυάζουν τα πλεονεκτήματα των μετρικών σύγκρισης χαρακτήρων και λεκτικών μονάδων Περισσότερο χρονοβόρες Ο αλγόριθμος του COCLU είναι ασταθής Ανάγκη αξιόπιστου μηχανισμού για τον προσδιορισμό του κατωφλίου Συμπεράσματα (1/2)

38 38 Οι μετρικές που στοχεύουν σε συγκεκριμένη εφαρμογή δεν αποδίδουν πάντα. Monge – Elkan COCLU Περισσότερα πειράματα είναι απαραίτητα. Τα πεδία να περιέχουν λάθη (ορθογραφικά) Περισσότερους τύπους πεδίων Πειράματα με πιο ανομοιογενείς συλλογές εγγραφών Η μέθοδος δεν είναι χρήσιμη ως αυτόματη, αλλά ως ημιαυτόματη. Συμπεράσματα (2/2)

39 39 Δομή παρουσίασης Εισαγωγή Μέθοδοι Σύγκρισης Υλοποίηση Πειράματα Συμπεράσματα Μελλοντικές επεκτάσεις

40 40 Χρήση σύνθετων μοντέλων απόφασης Εκμετάλλευση του συσχετισμού των πεδίων Χρησιμοποίηση άλλων ταξινομητών Υλοποίηση ευριστικών μηχανισμών για την επιλογή της καταλληλότερης μετρικής ανάλογα με τον τύπο του πεδίου Δυσκολία αναγνώρισης του τύπου του πεδίου Αξιολόγηση των μετρικών με βάση θέματα αλγοριθμικής πολυπλοκότητας Μελλοντικές επεκτάσεις

41 41 Ευχαριστώ!


Κατέβασμα ppt "Αξιολόγηση μετρικών απόστασης λέξεων και η εφαρμογή τους στην ταύτιση όμοιων εγγραφών Ραπανάκης Σταμάτης Ιούνιος 2007."

Παρόμοιες παρουσιάσεις


Διαφημίσεις Google