Συγκριτική Αξιολόγηση Μεθόδων Λεξικογραφικής και Σημασιολογικής Ομοιότητας Κώστας Κολομβάτσος Επιβλέπων: Ευστάθιος Χατζηευθυμιάδης.

Συγκριτική Αξιολόγηση Μεθόδων Λεξικογραφικής και Σημασιολογικής Ομοιότητας Κώστας Κολομβάτσος Επιβλέπων: Ευστάθιος Χατζηευθυμιάδης

ΚΙΝΗΤΡΟ Η ανάγκη για ταίριασμα οντοτήτων που υπάρχει σε πολλούς τομείς της πληροφορικής όπως Information Retrieval, Computational Biology, Musicology, Text Editing, Meteorology, Signal Processing, etc. Η κατασκευή ενός εργαλείου σύγκρισης στοιχείων που να βασίζεται σε συνδυασμό λεξικογραφικής και σημασιολογικής ομοιότητας. Η έλλειψη εργαλείου που να χρησιμοποιεί αρκετούς αλγορίθμους ώστε να αλληλοκαλύπτονται τα μειονεκτήματά τους.

ΣΥΣΧΕΤΙΣΗ ΔΕΔΟΜΕΝΩΝ Σκοπός η εξαγωγή αριθμητικής τιμής ομοιότητας. Για κάθε στοιχείο των εξεταζόμενων οντοτήτων θα πρέπει να ισχύει: L(s,t)  [0..1], όπου L η διαδικασία εξαγωγής ομοιότητας. Χρήση λεξικογραφικής και σημασιολογικής ομοιότητας.

ΛΕΞΙΚΟΓΡΑΦΙΚΗ ΟΜΟΙΟΤΗΤΑ (1/4) Αποσκοπεί στην εξαγωγή αριθμητικής τιμής η οποία να υποδηλώνει είτε την θέση εμφάνισης μιας συμβολοσειράς μέσα σε μια άλλη (ή σε ένα κείμενο) είτε τον βαθμό ομοιότητας των δύο οντοτήτων. Η αριθμητικές τιμές ομοιότητας εξαρτώνται από τον αλγόριθμο που χρησιμοποιείται (δεν βρίσκονται αποκλειστικά στο διάστημα [0..1]). 1ο ΜΕΡΟΣ

ΛΕΞΙΚΟΓΡΑΦΙΚΗ ΟΜΟΙΟΤΗΤΑ (2/4) Exact vs Approximate Exact Matching: Η εύρεση όλων των θέσεων στις οποίες μια συμβολοσειρά εμφανίζεται μέσα σε μια άλλη. π.χ. s = A B C A A B t = A B A B C A A B C A A B C A A B A A Απάντηση: {3, 7, 11, …} Approximate Matching: Εξαγωγή αριθμητικής τιμής η οποία προσδιορίζει το ‘πόσο μοιάζουν’ οι συγκρινόμενες οντότητες. Κύριος εκπρόσωπος της κατηγορίας είναι η απόσταση των συμβολοσειρών. π.χ. s= ABCABC t=ABBAAC Απόσταση Hamming: 2

ΛΕΞΙΚΟΓΡΑΦΙΚΗ ΟΜΟΙΟΤΗΤΑ (3/4) ‘Smart’ vs Naive Methods Smart Methods: Χρησιμοποιούν μετρικές οι οποίες βασίζονται σε κάποια μορφολογικά ή ‘φωνητικά’ χαρακτηριστικά των συγκρινόμενων συμβολοσειρών. π.χ. Soundex Algorithm Naive Methods: Συγκρίνουν απλά τους χαρακτήρες των συμβολοσειρών. π.χ. Edit distance Algorithms, etc.

ΛΕΞΙΚΟΓΡΑΦΙΚΗ ΟΜΟΙΟΤΗΤΑ (4/4) Αναφορές: – Exact Matching: “Handbook of Exact String- Matching Algorithms”, C. Charras, T. Lecroq. – Approximate Matching: “A Guided tour to Approximate String Matching”, G. Navarro, ACM Computing Survey. “Selecting the Right Objective Measure for Associaton Analysis”, P. Tan, V. Kumar, J. Srivastava.

ΑΛΓΟΡΙΘΜΟΙ ΛΕΞΙΚΟΓΡΑΦΙΚΗΣ ΟΜΟΙΟΤΗΤΑΣ (1/9) Ο παλαιότερος αλγόριθμος απόστασης είναι η μετρική Levenshtein. Βασίζεται στον υπολογισμό του κόστους μεταβολής της μιας συμβολοσειράς στην άλλη (κόστος 1). π.χ. s=test, t=tend απόσταση=2. Needleman-Wunch: Βασίζεται στον αλγόριθμο Levenshtein και χρησιμοποιεί βάρη (<>1) για κάθε κίνηση μεταμόρφωσης. Αντικατάσταση/αντιγραφή Εισαγωγή Διαγραφή d(s i,t k ):συνάρτηση απόστασης, G: κόστος μεταβολής

ΑΛΓΟΡΙΘΜΟΙ ΛΕΞΙΚΟΓΡΑΦΙΚΗΣ ΟΜΟΙΟΤΗΤΑΣ (2/9) Smith-Waterman: Όμοια τεχνική με τον προηγούμενο αλγόριθμο. Jaro: Λαμβάνει υπόψιν τους μετασχηματισμούς σε σχέση με το μήκος της αρχικής ακολουθίας. Ομοιότητα= Αρχικά Αντικατάσταση/αντιγραφή Εισαγωγή Διαγραφή d(s i,t k ):συνάρτηση απόστασης, G: κόστος μεταβολής

ΑΛΓΟΡΙΘΜΟΙ ΛΕΞΙΚΟΓΡΑΦΙΚΗΣ ΟΜΟΙΟΤΗΤΑΣ (3/9) Jaro-Winkler: Παραλλαγή του αλγορίθμου Jaro Ομοιότητα=Jaro+ *(1-Jaro), P’=max(prefix,4) Maedche-Staab: Χρησιμοποιεί την απόσταση συμβολοσειρών σε σχέση με το ελάχιστο μήκος των συμβολοσειρών. Ομοιότητα=max(0, ) Dice: Απλή μετρική που βασίζεται αποκλειστικά στους κοινούς χαρακτήρες. Ομοιότητα=

ΑΛΓΟΡΙΘΜΟΙ ΛΕΞΙΚΟΓΡΑΦΙΚΗΣ ΟΜΟΙΟΤΗΤΑΣ (4/9) Lin: Πρότεινε τρεις μετρικές. 1 η : Βασίζεται στην απόσταση των συμβολοσειρών Ομοιότητα= 2 η : Βασίζεται σε κοινές υποακολουθίες (τριγράμματα) Ομοιότητα= 3 η : Βασίζεται σε κοινά τριγράμματα και τις πιθανότητες εμφάνισής τους. Ομοιότητα=

ΑΛΓΟΡΙΘΜΟΙ ΛΕΞΙΚΟΓΡΑΦΙΚΗΣ ΟΜΟΙΟΤΗΤΑΣ (5/9) Longest Common Subsequence (LCSs): Μεγαλύτερη κοινή υποακολουθία χαρακτήρων χωρίς να είναι απαραίτητα συνεχόμενοι. π.χ. s=houseboat t=computer LCSs=out Longest Common Substring (LCSt):Μεγαλύτερη κοινή υποακολουθία συνεχόμενων χαρακτήρων. π.χ. s=hello t=aloha LCSt=lo Q-Grams: Χρήση ενός παραθύρου Q χαρακτήρων στο οποίο γίνεται η σύγκριση. π.χ. 2-grams, 3-grams, …, N-grams

ΑΛΓΟΡΙΘΜΟΙ ΛΕΞΙΚΟΓΡΑΦΙΚΗΣ ΟΜΟΙΟΤΗΤΑΣ (6/9) Ratcliff-Obershelp: Υπολογίζει την ομοιότητα δυο συμβολοσειρών ως το διπλάσιο του πλήθους των κοινών χαρακτήρων ως προς το συνολικό πλήθος χαρακτήρων των δύο συμβολοσειρών. Οι κοινοί χαρακτήρες είναι όσοι ανήκουν Μεγαλύτερη Κοινή Υποακολουθία (LCS) επιπλέον των κοινών χαρακτήρων στην περιοχή η οποία δεν ανήκει στην LCS. π.χ. για s=ALEXANDRE και t=ALEKSANDER είναι: LCS=ALEANDE επιπλέον το R συνεπώς: Sim(s,t)= = 0.84

ΑΛΓΟΡΙΘΜΟΙ ΛΕΞΙΚΟΓΡΑΦΙΚΗΣ ΟΜΟΙΟΤΗΤΑΣ (7/9) Yang-Yuan-Zhao-Chun-Peng: Χρησιμοποιούν την τεχνική του κοινού παραθύρου χαρακτήρων για να εκτιμήσουν τον βαθμό ομοιότητας. Η αριθμητική τιμή ομοιότητας εξάγεται από την έκφραση: Ομοιότητα= όπου SSNC= w=μέγεθος παραθύρου (1..min(m,n)) και n, m τα μήκη των συμβολοσειρών. π.χ. για s=abc de και t=abc k de είναι: Sim(s,t)= = 0,638

ΑΛΓΟΡΙΘΜΟΙ ΛΕΞΙΚΟΓΡΑΦΙΚΗΣ ΟΜΟΙΟΤΗΤΑΣ (8/9) Soundex Algorithm: Βασίζεται στην ιδέα του ότι μεταβολές της ορθογραφίας ακουστικά όμοιων συλλαβών ή γραμμάτων οδηγεί σε ομοιότητα των λέξεων που τα περιλαμβάνουν. Αποδίδει σε κάθε όνομα ένα τετραψήφιο κωδικό ο οποίος ξεκινά με γράμμα και ακολουθείται από τρία ψηφία. Όμοιες λέξεις θα έχουν τον ίδιο κωδικό. π.χ. s1=Darwin s2=Davidson s3=Derwin Darwin  Drn  D65  D650 Davinson  Dvnsn  D1525  D152 Derwin  Drn  D65  D650 i) "1" to B, F, P, V ii) "2" to C, G, J, K, Q, S, X, Z iii) "3" to D, T iv) "4" to L v) "5" to M, N vi) "6" to R

ΑΛΓΟΡΙΘΜΟΙ ΛΕΞΙΚΟΓΡΑΦΙΚΗΣ ΟΜΟΙΟΤΗΤΑΣ (9/9) Token-Based Methods: Εξάγουν την ομοιότητα δύο οντοτήτων οι οποίες αποτελούνται από ένα σύνολο στοιχείων (tokens). Ορισμένες από αυτές χρησιμοποιούν και στατιστικά στοιχεία από σώματα κειμένου ή τιμές πιθανότητας (π.χ. TFIDF, Fellegi-Sunter, etc). Η πιο απλή μέθοδος είναι η μετρική Jaccard η οποία εξάγει τον βαθμό ομοιότητας νε βάση την σχέση: Sim(s,t)=

ΠΡΟΤΑΣΕΙΣ (1/2) Σειρά Q-grams: Στην ιδανική περίπτωση οι συμβολοσειρές θα έχουν Ν(Ν+1)/2 πλήθος κοινών υποακολουθιών. Συνεπώς: Ομοιότητα= όπου L το μικρότερο μήκος των δύο συμβολοσειρών. Συνδυασμός του αλγορίθμου Jaro-Winkler με: – LCSs – LCSt – Common bi-grams – Common tri-grams

ΠΡΟΤΑΣΕΙΣ (2/2) Συνδυασμός του αλγορίθμου Dice με: – LCSt – Common bi-grams Χρήση των LCSs και LCSt μεθόδων. Ομοιότητα=

ΑΛΓΟΡΙΘΜΟΙ ΠΟΥ ΧΡΗΣΙΜΟΠΟΙΟΥΝΤΑΙ Σύνολο: 16 1.Lin Second Measure 2.Maedche-Staab 3.Jaro 4.Jaro-Winkler 5.Jaro-Winkler LCSs 6.Jaro-Winkler LCSt 7.Jaro-Winkler bi-grams 8.Jaro-Winkler tri-grams 9.Smith-Waterman 10.Needleman-Wunch 11.Q-grams series 12.Dice 13.Dice bi-grams 14.Dice LCSt 15.Simple LCSs 16.Simple LCSt ** Οι αλγόριθμοι Ratcliff-Obershelp & Yang-Yuan-Chun-Peng χρησιμοποιήθηκαν στις επεκτάσεις του αρχικού αλγορίθμου.

ΣΗΜΑΣΙΟΛΟΓΙΚΗ ΟΜΟΙΟΤΗΤΑ Καθορίζει τα κοινά και τα διαφορετικά στοιχεία δύο οντοτήτων. Ως στοιχεία θεωρούνται δομικές έννοιες της κάθε οντότητας. Απόδοση αριθμητικής τιμής ομοιότητας. Η τιμή αυτή δεν μπορεί να αναπαραστήσει την ψυχολογική διάσταση της ομοιότητας δύο οντοτήτων. 2ο ΜΕΡΟΣ

ΣΗMΑΣΙΟΛΟΓΙΚΗ ΟΜΟΙΟΤΗΤΑ vs ΣΗΜΑΣΙΟΛΟΓΙΚΗ ΣΥΣΧΕΤΙΣΗ Αποτελούν διαφορετικές έννοιες. Π.χ. οι έννοια {αυτοκίνητο} σχετίζεται με την έννοια {βενζίνη}. Το {αυτοκίνητο} έχει μεγαλύτερη ομοιότητα με την έννοια {ποδήλατο} διότι μοιράζονται περισσότερα κοινά στοιχεία όπως {έχει ρόδες} ή {κινείται} κ.λπ.

ΚΑΤΗΓΟΡΙΕΣ Ontology Based: Χρήση Οντολογιών (π.χ. Wordnet) και των σχέσεων που υπάρχουν ανάμεσα στις έννοιες. Corpus Based: Χρήση σώματος κειμένου για την εξαγωγή στατιστικών στοιχείων για κάθε έννοια. Information Content Approaches: Χρήση του Περιεχομένου Πληροφορίας (IC) των εννοιών – Υβριδική προσέγγιση. Συνήθως χρησιμοποιούνται σώμα κειμένου. Dictionary Based: Χρήση λεξικού προσπελάσιμο από μια μηχανή για την διαπίστωση των σχέσεων μεταξύ των εννοιών.

ΑΝΑΦΟΡΕΣ ΣΗΜΑΣΙΟΛΟΓΙΚΗΣ ΟΜΟΙΟΤΗΤΑΣ Αναφορές: – ‘EvaluatingWordNet-based Measures of Lexical Semantic Relatedness’, A. Budanitsky, G. Hirst, Computational Linguistics. – ‘Computational Models of Similarity in Lexical Ontologies’, N. Seco, Msc Thesis.

ΑΝΤΛΗΣΗ ΣΤΟΙΧΕΙΩΝ Χρησιμοποιείται το ηλεκτρονικό λεξικό WordNet. Χρήση της ιεραρχίας των ουσιαστικών. Περιλαμβάνει 79689 σύνολα συνωνύμων ουσιαστικών. Χρήση των σχέσεων μεταξύ των συνόλων συνωνύμων (υπέρνυμα, υπόνυμα, μερόνυμα, κ.λπ.) Η πιο σημαντική σχέση είναι η is-a-kind-of (υπέρνυμα – υπόνυμα) που υποδηλώνει ότι μια έννοια αποτελεί εξειδίκευση μιας άλλης.

WORDNET - ΠΑΡΑΔΕΙΓΜΑΤΑ The noun good has 3 senses (first 3 from tagged texts) 1. (11) good -- (benefit; "for your own good"; "what's the good of worrying?") 2. (9) good, goodness -- (moral excellence or admirableness; "there is much good to be found in people") 3. (6) good, goodness -- (that which is good or valuable or useful; "weigh the good against the bad"; "among the highest goods of all are happiness and self-realization") 10 senses of bank Sense 1 depository financial institution, bank, banking concern, banking company -- (a financial institution that accepts deposits and channels the money into lending activities; "he cashed a check at the bank"; "that bank holds the mortgage on my home") => financial institution, financial organization, financial organisation -- (an institution (public or private) that collects funds (from the public or other institutions) and invests them in financial assets) => institution, establishment -- (an organization founded and united for a specific purpose) => organization, organisation -- (a group of people who work together) => social group -- (people sharing some social relation) => group, grouping -- (any number of entities (members) considered as a unit)

ΑΛΓΟΡΙΜΟΙ ΣΗΜΑΣΙΟΛΟΓΙΚΗΣ ΟΜΟΙΟΤΗΤΑΣ (1/7) Leacock-Chodorow: Χρησιμοποιεί τις σχέσεις υπερνύμου – υπονύμου για την μέτρηση του μήκους μονοπατιού. simlch(c1,c2)=-log( ), D=max Depth Rada: Η απόσταση εξαρτάται από το πλήθος των ακμών που χωρίζουν τις δύο έννοιες. dist(c1,c2)=πλήθος ακμών που χωρίζουν τα c1,c2 Μήκος Μονοπατιού: Η ομοιότητα είναι το αντίστροφο του ελάχιστου μήκους μονοπατιού. simpath(c1,c2)=

ΑΛΓΟΡΙΜΟΙ ΣΗΜΑΣΙΟΛΟΓΙΚΗΣ ΟΜΟΙΟΤΗΤΑΣ (2/7) Wu-Palmer: Στηρίζεται στην απόσταση των δύο εννοιών και στο βάθος στο οποίο βρίσκονται στην ιεραρχία. simwup(c1,c2)= Wu-Palmer-Resnik: Στηρίζεται αποκλειστικά στο βάθος των εννοιών και του κοινού γονέα. simrwup(c1,c2)=

ΑΛΓΟΡΙΜΟΙ ΣΗΜΑΣΙΟΛΟΓΙΚΗΣ ΟΜΟΙΟΤΗΤΑΣ (3/7) Resnik: Βασίζεται στο περιεχόμενο πληροφορίας (Information Content) του κοινού γονέα (LCS – Least Common Subsumer). IC(c)=-log(p(c)), όπου το p(c) εξάγεται από κάποιο σώμα κειμένου. p(c)=freq(word)/N με Ν το πλήθος των λέξεων συνολικά. Συνεπώς: simres(c1,c2)=IC(LCS(c1,c2)) Jiang-Conrath: Καλύπτει τα μειονεκτήματα της προηγούμενης μεθόδου. Η ομοιότητα εξάγεται από το περιεχόμενο πληροφορίας των εννοιών και του κοινού γονέα Συνεπώς: distjcn(c1,c2)=IC(c1)+IC(c2)-2. IC(LCS(c1,c2))

ΑΛΓΟΡΙΜΟΙ ΣΗΜΑΣΙΟΛΟΓΙΚΗΣ ΟΜΟΙΟΤΗΤΑΣ (4/7) Lin: Αποτελεί παραλλαγή των προηγούμενων μεθόδων. simlin(c1,c2)= Tversky: Χρήση της θεωρίας συνόλων για την εξαγωγή της τελικής τιμής. simtvr(c1,c2)=x. f(Ψ(c1). Ψ(c2))-y. f(Ψ(c1)\ Ψ(c2))- z. f(Ψ(c2)\ Ψ(c1)), με x,y,z παραμέτρους. f(Ψ(c1)Ψ(c2))  απόδοση τιμής στην τομή f(Ψ(c1)\Ψ(c2))  απόδοση τιμής στην διαφορά (στοιχεία της 1 ης έννοιας που δεν υπάρχουν στην 2 η ) f(Ψ(c2)\Ψ(c1))  απόδοση τιμής στην διαφορά (στοιχεία της 2 ης έννοιας που δεν υπάρχουν στην 1 η )

ΑΛΓΟΡΙΘΜΟΙ ΣΗΜΑΣΙΟΛΟΓΙΚΗΣ ΟΜΟΙΟΤΗΤΑΣ (5/7) Lesk: Βασίζεται στις περιγραφές των εννοιών. Λέξη 1: pine Senses: 2 Sense 1: kind of evergreen tree with needle-shaped leaves Sense 2: waste away through sorrow or illness Λέξη 2: cone Senses: 3 Sense 1: solid body which narrows to a point Sense 2: something of this shape whether solid or hollow Sense 3: fruit of certain evergreen tree Extended Lesk: Ψάχνει και στις περιγραφές των γειτονικών εννοιών.

ΑΛΓΟΡΙΜΟΙ ΣΗΜΑΣΙΟΛΟΓΙΚΗΣ ΟΜΟΙΟΤΗΤΑΣ (6/7) Rondriguez-Egenhofer: Χρησιμοποιεί την θεωρία συνόλων του Tversky. S(s,t)= όταν ισχύει depth(s) <= depth(t) α(s,t) = 1- όταν ισχύει depth(s) > depth(t)

ΑΛΓΟΡΙΜΟΙ ΣΗΜΑΣΙΟΛΟΓΙΚΗΣ ΟΜΟΙΟΤΗΤΑΣ (7/7) Li-Zuhair-Bandar-McLean: πειραματίστηκαν με 10 μετρικές οι οποίες αποτελούν γραμμικούς ή μη, συνδυασμούς του περιεχομένου πληροφορίας, του βάθους (Μ), του μήκους ελάχιστου μονοπατιού (l), του βάθους του κοινού γονέα (h), της τοπικής πυκνότητας των δύο εννοιών (d) και διαφόρων παραμέτρων που βρίσκονται στο διάστημα [0,1] (a,b,λ). S1=2. M-l S2=a. S1+b. d S3=e -al S4=e -al S5=S4+λ. IC(LCS(c1,c2)) S6=S1. S7=S2. S8=S3. S9=S4. S10=

ΠΑΡΑΛΛΑΓΕΣ SECO Ο Seco πρότεινε στην διπλωματική του να εξάγεται το περιεχόμενο πληροφορίας από το πλήθος των υπονύμων που έχει μια έννοια στην ιεραρχία του WordNet. ICwn(c)=1-, όπου max wn : μέγιστος αριθμός εννοιών Με βάση το παραπάνω η εξαγωγή ομοιότητας βάσει της μεθόδου Tversky προτείνεται να γίνεται από: simtvr(c1,c2)=3. IC(LCS(c1,c2))-IC(c1)-IC(c2)

ΑΛΓΟΡΙΘΜΟΙ ΠΟΥ ΧΡΗΣΙΜΟΠΟΙΟΥΝΤΑΙ Σύνολο: 14 1.Leacock-Chodorow 2.Jiang-Conrath 3.Lin 4.Wu-Palmer 5.Wu-Palmer-Resnik 6.Tversky 7.S1 8.S2 9.S3 10.S4 11.S5 12.S10 13.Simple Distance 14.Rada *** Για τον υπολογισμό του περιεχομένου πληροφορίας χρησιμοποιείται η παραλλαγή Seco.

ΜΕΘΟΔΟΛΟΓΙΑ Κύριος στόχος η σύγκριση συμβολοσειρών που προέρχονται από τον χώρο των οντολογιών και των βάσεων δεδομένων. Θα εξαχθεί απλά ο μέσος όρος των αποτελεσμάτων των αλγορίθμων. Προβλήματα υπάρχουν, κυρίως για την εξαγωγή της σημασιολογικής ομοιότητας, διότι οι συμβολοσειρές μπορεί να μην αποτελούν έγκυρες λέξεις. Λύση αποτελεί η διάσπαση των συμβολοσειρών. Σε περίπτωση που δεν προκύψει ούτε μια έγκυρη λέξη, τότε το αποτέλεσμα στηρίζεται αποκλειστικά στην λεξικογραφική ομοιότητα.

ΔΙΑΣΠΑΣΗ ΣΥΜΒΟΛΟΣΕΙΡΩΝ Διακρίνουμε δύο περιπτώσεις: Οι συμβολοσειρές περιέχουν ειδικά σύμβολα όπως _, #, κ.λπ. ή σε κάποια σημεία περιέχουν αριθμούς ή κεφαλαία γράμματα.  Η διάσπαση γίνεται σ’ αυτούς τους χαρακτήρες. Οι συμβολοσειρές δεν περιέχουν ειδικούς χαρακτήρες, αριθμούς ή κεφαλαία γράμματα.  Η διάσπαση γίνεται σε υποσυμβολοσειρές με 3 ή άνω γράμματα που αποτελούν έγκυρες καταχωρήσεις του WordNet. Όσες συμβολοσειρές προκύπτουν εξετάζονται για την ομοιότητα με βάση τον αλγόριθμο Monge-Elkan.

ΑΛΓΟΡΙΘΜΟΣ MONGE-ELKAN Η ομοιότητα δύο συνόλων στοιχείων Α, Β εκφράζεται ως εξής: match(A,B)= match(Ai,Bj) Ο αλγόριθμος δεν είναι συμμετρικός.

ΤΕΚΜΗΡΙΩΣΗ Τα δεδομένα προέρχονται από: – Το τμήμα πληροφορικής του πανεπιστημίου του Ιλλινόις, όπου δίδονται δεδομένα για ταίριασμα σχήματος και στοιχείων οντολογιών. Χρησιμοποιούνται τα στοιχεία αντιστοίχισης μαθημάτων πανεπιστημίων και της θεματικής ενότητας Real Estate. – Το πανεπιστήμιο του Βερολίνου, όπου γίνεται η περιγραφή της γλώσσας D2R. Χρησιμοποιείται το παράδειγμα της αντιστοίχισης μιας βάσης δεδομένων καταστήματος πώλησης CD σε σχήμα RDF.

ΑΠΟΤΕΛΕΣΜΑΤΑ (1/4) Τα αρχεία δεδομένων περιέχουν 116 αντιστοιχίσεις. Αναγνωρίστηκαν σωστά οι 88, με ποσοστό ομοιότητας πάνω από 75% (όριο που τέθηκε). Το ποσοστό επιτυχίας είναι 75,86%. Το πλήθος των αλγορίθμων αποδεικνύεται αρκετά μεγάλο, ειδικά στην περίπτωση που έχουμε για επεξεργασία μεγάλο όγκο δεδομένων. Η παραλλαγή που πρότεινε ο Seco αποδείχθηκε αρκετά ‘βαριά’ διαδικασία ειδικά για τόσο μεγάλο πλήθος δεδομένων.

ΑΠΟΤΕΛΕΣΜΑΤΑ (2/4) Εξαχθήκαν χρήσιμα συμπεράσματα όσον αφορά στην συμπεριφορά των αλγορίθμων, ιδίως της λεξικογραφικής ομοιότητας. Για την εξαγωγή μιας πιο αντικειμενικής τιμής χρειάζεται ο μη-γραμμικός συνδυασμός λεξικογραφικής και σημασιολογικής ομοιότητας. Για την εξαγωγή μιας αντικειμενικής τιμής ομοιότητας χρειάζεται ο συνδυασμός (ίσως βασισμένος στις ίδιες τις συμβολοσειρές!!) τιμών των αλγορίθμων.

ΑΠΟΤΕΛΕΣΜΑΤΑ (3/4) First String = student Second String = dentist LIN SECOND :0.14285714285714285 MAEDCHE STAAB :0.14285714285714285 JARO :0.6 JARO WINKLER :0.76 JARO WINKLER LCSSt :0.72 JARO WINKLER LCSSs :0.76 JARO WINKLER TRIGRAMS :0.6799999999999999 JARO WINKLER BIGRAMS :0.76 SMITH WATERMAN :0.5714285714285714 NEEDLEMAN WUNCH :0.5714285714285714 Q GRAMS SERIES :0.5357142857142857 DICE (COMMON CHARS) :0.8571428571428571 DICE (COMMON BIGRAMS) :0.6666666666666666 DICE LCSSt :0.5714285714285714 LCSSt :0.5714285714285714 LCSSs :0.5714285714285714 RATCLIFF OBERSHELP =7 :1.0 YANG YUAN ZHAO CHUN PENG :0.5714285714285714

ΑΠΟΤΕΛΕΣΜΑΤΑ (4/4) *First String: *Second String: ------------------------------------------------------------- 1. Leacock-Chodorow: 0.8339850002884617 2. Jiang-Conrath: 0.9513280478322936 3. Lin: 0.9315807363671041 4. Wu-Palmer: 0.875 5. Wu-Palmer-Resnik: 0.875 6. Tversky(Seco): 0.8551206815796943 7. S1: 0.9444444444444444 8. S2: 0.413326816552623 9. S3: 0.6065306597126334 10. S4: 0.6062579431847053 11. S5: 0.6725285380921548 12. S10: 0.9999983369439447 13. Simple Distance: 0.5 14. Rada et Al: 0.3333333333333333 ***Average of All measures:0.7427453241665282 ***Max Similarity: 0.9999983369439447 at 12 *First String: *Second String: ------------------------------------------------------------- 1. Leacock-Chodorow: 1.0 2. Jiang-Conrath: 1.0 3. Lin: 1.0 4. Wu-Palmer: 1.0 5. Wu-Palmer-Resnik: 1.0 6. Tversky(Seco): 0.8875686496914987 7. S1: 1.0 8. S2: 1.0 9. S3: 1.0 10. S4: 0.9995503664595333 11. S5: 1.0 12. S10: 0.9999983369439447 13. Simple Distance: 1.0 14. Rada et Al: 1.0 ***Average of All measures:0.9919369537924984 ***Max Similarity: 1.0 at 1

ΕΠΕΚΤΑΣΕΙΣ (1/2) Δημιουργία εργαλείου επιλογής αλγορίθμων

ΕΠΕΚΤΑΣΕΙΣ (2/2) Εξαγωγή αποτελεσμάτων για Precision, Recall and F- measure και σύγκριση με άλλες εργασίες. Εξέταση της επίπτωσης του threshold (επιλέχθηκε το 75%) στις παραπάνω τιμές. Απόδοση συγκεκριμένων βαρών στους αλγορίθμους αυτόματα με βάση κάποια χαρακτηριστικά των οντοτήτων. Αποκλεισμός αλγορίθμων με βάση τα αποτελέσματά τους (π.χ. με χρήση της διακύμανσης). Περιγραφή όλων των αλγορίθμων με βάση μια κοινή έννοια (π.χ. LCSs) ή επιλογή αλγορίθμων που μπορούν να περιγραφούν με μια κοινή έννοια. Χρήση συγκεκριμένων αλγορίθμων με βάση τα προς επεξεργασία δεδομένα ώστε να αποφευχθούν τα μειονεκτήματα που τυχόν παρατηρούνται.

ΠΑΡΑΤΗΡΗΣΕΙΣ ΣΤΟΥΣ ΑΛΓΟΡΙΘΜΟΥΣ ΛΕΞΙΚΟΓΡΑΦΙΚΗΣ ΟΜΟΙΟΤΗΤΑΣ (1/2) Ισχύουν: – LCSs = (m+n-Lev)/2 – LCSs = a1+LCSt+a2, με a1 να είναι μεταξύ [0.. indexof(LCSt)-1] και a2 μεταξύ [0.. indexof(last character)-(indexof(LCSt) + length(LCSt))-1] – LCSt<=LCSs<=min(m,n) – Θέλουμε Lev(s,t) = max(m,n)-min(m,n) = 0 Όλα τα παραπάνω μας βοηθούν να θέσουμε κάποια όρια τιμών.

ΠΑΡΑΤΗΡΗΣΕΙΣ ΣΤΟΥΣ ΑΛΓΟΡΙΘΜΟΥΣ ΛΕΞΙΚΟΓΡΑΦΙΚΗΣ ΟΜΟΙΟΤΗΤΑΣ (1/2) Όσο αυξάνει η απόσταση Levenshtein τόσο μειώνεται το μήκος της LCSs. Συνεπώς θα πρέπει να αποφεύγονται οι αλγόριθμοι που βασίζονται σε αυτές τις μεθόδους. Ποιο όριο τιμών όμως πρέπει να χρησιμοποιηθεί? Καλό είναι τα μήκη των συγκρινόμενων συμβολοσειρών να είναι ίσα ή να έχουν κοντινές τιμές ώστε να υπάρχει μεγαλύτερη πιθανότητα να εξαχθεί μικρή τιμή απόστασης μεταξύ τους. Όσο η LCSt προσεγγίζει την LCSs και τα δύο μαζί προσεγγίζουν το min(m,n) τόσο μειώνεται η απόσταση Levenshtein και συνεπώς αυξάνει ο βαθμός ομοιότητας. Όταν συγκρίνουμε συμβολοσειρές που δεν αποτελούν έγκυρες ή συνδυασμό ή τμήματα έγκυρων λέξεων πρέπει να αποφεύγονται αλγόριθμοι που συγκρίνουν διγράμματα ή ακόμη χειρότερα τριγράμματα.

ΣΥΜΠΕΡΑΣΜΑ Χαρακτηρισμός των αλγορίθμων λεξικογραφικής ομοιότητας με βάση τα: LCSt, LCSs, Lev, max(m,n), min(m,n)  Δύσκολο εγχείρημα. Πιθανόν για την επιλογή κάποιων αλγορίθμων να πρέπει να κατασκευαστεί ή να βρεθεί μια συνάρτηση η οποία παίρνοντας ως ορίσματα τις παραπάνω τιμές να εξάγει είτε κάποιο βάρος που θα αποδίδεται σε κάθε αλγόριθμο είτε θα αποκλείει την χρήση συγκεκριμένων μετρικών. Αποκλεισμός αλγορίθμων που οι τιμές τους δεν συμφωνούν με τις τιμές που θα δώσουν κάποιοι experts (υπάρχει εργασία αλλά όχι για τόσους πολλούς αλγορίθμους)  Δυσκολία στην κατασκευή των δεδομένων στα οποία θα κληθούν οι experts να δώσουν τιμές ομοιότητας καθώς και το ποιες τιμές θα αποδίδουν σε κάθε ζεύγος συμβολοσειράς.

ΤΕΛΟΣ!!

Συγκριτική Αξιολόγηση Μεθόδων Λεξικογραφικής και Σημασιολογικής Ομοιότητας Κώστας Κολομβάτσος Επιβλέπων: Ευστάθιος Χατζηευθυμιάδης.

Παρόμοιες παρουσιάσεις

Παρόμοιες παρουσιάσεις

Σχετικά με το έργο

Σχόλια

Είσοδος

Σύνδεση μέσω των κοινωνικών δικτύων:

Συγκριτική Αξιολόγηση Μεθόδων Λεξικογραφικής και Σημασιολογικής Ομοιότητας Κώστας Κολομβάτσος Επιβλέπων: Ευστάθιος Χατζηευθυμιάδης.

Παρόμοιες παρουσιάσεις

Παρόμοιες παρουσιάσεις

Σχετικά με το έργο

Σχόλια