Συγκριτική Αξιολόγηση Μεθόδων Λεξικογραφικής και Σημασιολογικής Ομοιότητας Κώστας Κολομβάτσος Επιβλέπων: Ευστάθιος Χατζηευθυμιάδης.

Slides:



Advertisements
Παρόμοιες παρουσιάσεις
Κατηγορηματικός Λογισμός
Advertisements

UNIX.
Βασικές έννοιες αλγορίθμων
ΜΑΘΗΜΑΤΙΚΑ ΚΑΤΕΥΘΥΝΣΗΣ
Nikos Louloudakis Nikos Orfanoudakis Irini Genitsaridi
Πέτσας Δημήτριος Παρουσίαση στο μάθημα: Ψηφιακές Βιβλιοθήκες
ΚΕΙΜΕΝΟ  Ο πρώτος τρόπος απεικόνισης πληροφορίας (και βασικός ως σήμερα).  Αδυναμία πρώτων υπολογιστών να χειριστούν άλλη μορφή πληροφορίας.  Πρόβλημα.
Slide 1 Δίκτυα Τηλεπικοινωνιών ENOTHTA 7 η ΔΙΑΚΙΝΗΣΗ ΤΗΛΕΦΩΝΙΚΩΝ ΚΛΗΣΕΩΝ (ΜΕΡΟΣ Α’) 1. ΘΕΩΡΙΑ ΤΗΣ ΤΗΛΕΠΙΚΟΙΝΩΝΙΑΚΗΣ ΚΙΝΗΣΗΣ  Εκτός από τις τερματικές.
Ανάλυση Πολλαπλής Παλινδρόμησης
Εξόρυξη Γνώσης Από Χρονικά Δεδομένα
Κεφάλαιο 1 Για Ποιο Λόγο; ΔΟΣΑ Δημοκρίτειο Πανεπιστήμιο Θράκης
ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ WordNet.
Εργαστήριο μαθήματος «Τεχνολογία Γνώσης» Σαντιπαντάκης Γιώργος
Εισαγωγή στους Η/Υ Πίνακες.
ΣΤΟΙΧΕΙΑ ΨΕΥΔΟΚΩΔΙΚΑ ΒΑΣΙΚΕΣ ΔΟΜΕΣ ΒΑΣΙΚΟΙ ΑΛΓΟΡΙΘΜΟΙ ΠΙΝΑΚΩΝ
Ανακτηση Πληροφοριασ σε νεφη Υπολογιστων
Κεφάλαιο 6 Υλοποίηση Γλωσσών Προγραμματισμού
Ολυμπία Νίκου Α.Μ. Μ956 Διπλωματική Εργασία
Θεωρία Γράφων Θεμελιώσεις-Αλγόριθμοι-Εφαρμογές
Γυμνάσιο Νέας Κυδωνίας
Χαράλαμπος Ευτ. Τσουρακάκης
Ανάκτηση Πληροφορίας Αποτίμηση Αποτελεσματικότητας.
ΠΕΡΙΒΑΛΛΟΝΤΙΚΟΣ ΘΟΡΥΒΟΣ
Αξιολόγηση μετρικών απόστασης λέξεων και η εφαρμογή τους στην ταύτιση όμοιων εγγραφών Ραπανάκης Σταμάτης Ιούνιος 2007.
Εισαγωγικές Έννοιες Διδάσκοντες: Σ. Ζάχος, Δ. Φωτάκης Επιμέλεια διαφανειών: Δ. Φωτάκης Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών Εθνικό Μετσόβιο.
Εφαρμογή της Θεωρίας Βέλτιστης Παύσης στον έλεγχο συνέπειας (consistency) σε WWW Caching Servers Δημήτριος Λορέντζος ΠΛΣ Διπλωματική Εργασία Επιβλέπων:
Αναγνώριση Προτύπων.
Κεφάλαιο 2ο Πεπερασμένα αυτόματα.
Γραφήματα & Επίπεδα Γραφήματα
Κ. Μόδη: Γεωστατιστική και Εφαρμογές της (Κεφάλαιο 5) 1 Τυχαία συνάρτηση Μία τυχαία συνάρτηση (ΤΣ) είναι ένας κανόνας με τον οποίο σε κάθε αποτέλεσμα ζ.
ΕΥΡΕΣΗ ΚΑΤΗΓΟΡΙΚΩΝ ΕΚΤΟΠΩΝ ΣΕ ΒΙΒΛΙΟΓΡΑΦΙΚΗ ΒΑΣΗ ΔΕΔΟΜΕΝΩΝ
Μάθημα 2 ο : Βασικές έννοιες 1 Ακαδημαϊκό Έτος
Σχεδιαση Αλγοριθμων - Τμημα Πληροφορικης ΑΠΘ - Κεφαλαιο 9ο1 Άπληστοι αλγόριθμοι βελτιστοποίησης Προβλήματα βελτιστοποίησης λύνονται με μια σειρά επιλογών.
ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ Προεπεξεργασία Κειμένου.
Μεταβλητές – εντολές εκχώρησης- δομή ακολουθίας
ΤΗΣ ΦΟΙΤΗΤΡΙΑΣ : ΤΣΑΛΤΑ ΑΝΑΣΤΑΣΙΑ Α.Μ. : 30920
Ενεργή επιλογή αλγορίθμου, Active Algorithm Selection, Feilong Chen and Rong Jin Εύα Σιταρίδη.
ΙΟΝΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΕΤΑΠΤΥΧΙΑΚΟ ΠΡΟΓΡΑΜΜΑ ΣΠΟΥΔΩΝ ΕΡΓΑΣΙΑ ΣΤΟ ΜΑΘΗΜΑ «ΨΗΦΙΑΚΕΣ ΒΙΒΛΙΟΘΗΚΕΣ» ΜΕ ΘΕΜΑ: A Comparison of Methodic Segmentation Techniques for.
Σημασιολογική Ολοκλήρωση Δεδομένων με τη χρήση Οντολογιών Λίνα Μπουντούρη - Μανόλης Γεργατσούλης Ιόνιο Πανεπιστήμιο 15ο Πανελλήνιο Συνέδριο Ακαδημαϊκών.
Ενότητα Α.4. Δομημένος Προγραμματισμός
ΙΟΝΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΤΜΗΜΑ ΑΡΧΕΙΟΝΟΜΙΑΣ & ΒΙΒΛΙΟΘΗΚΟΝΟΜΙΑΣ ΠΜΣ: «ΕΠΙΣΤΗΜΗ ΤΗΣ ΠΛΗΡΟΦΟΡΙΑΣ» ΜΑΘΗΜΑ: ΗΛΕΚΤΡΟΝΙΚΗ ΔΗΜΟΣΙΕΥΣΗ ΕΡΓΑΣΙΑ: MULTI-DOCUMENT SUMMARIZATIONS.
Εξόρυξη Δεδομένων και Αλγόριθμοι Μάθησης. K-means k-windows k-means: 2 φάσεις 1. Μια διαμέριση των στοιχείων σε k clusters 2. Η ποιότητα της διαμέρισης.
Βάσεις Δεδομένων Εργαστήριο ΙΙ Τμήμα Πληροφορικής ΑΠΘ
Εθνικό και Καποδιστριακό Πανεπιστήμιο Αθηνών – Τμήμα Πληροφορικής και Τηλεπικοινωνιών 1 Κεφάλαιο 3 Η Σημασιολογία των Γλωσσών Προγραμματισμού Προπτυχιακό.
WORDNET Διαχείριση Περιεχομένου Παγκόσμιου Ιστού Και Γλωσσικά Εργαλεία.
ΜΑΘΗΜΑ: ΣΧΕΔΙΑΣΗ ΑΛΓΟΡΙΘΜΩΝ ΔΙΔΑΣΚΩΝ: Π. ΚΑΤΣΑΡΟΣ Παρασκευή, 3 Απριλίου 2015Παρασκευή, 3 Απριλίου 2015Παρασκευή, 3 Απριλίου 2015Παρασκευή, 3 Απριλίου 2015Τμ.
Distance Functions on Hierarchies Eftychia Baikousi.
1 Βάσεις Δεδομένων ΙI Επιμέλεια: ΘΟΔΩΡΗΣ ΜΑΝΑΒΗΣ SQL (3 από 3) T Manavis.
ΘΕΜΑΤΙΚΗ ΕΝΟΤΗΤΑ 2: ΘΕΜΑΤΑ ΘΕΩΡΗΤΙΚΗΣ ΕΠΙΣΤΗΜΗΣ Η/Υ
Λεξικό, Union – Find Διδάσκοντες: Σ. Ζάχος, Δ. Φωτάκης Επιμέλεια διαφανειών: Δ. Φωτάκης Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών Εθνικό Μετσόβιο.
Θεωρία Γράφων Θεμελιώσεις-Αλγόριθμοι-Εφαρμογές
ΚΕΦΑΛΑΙΟ 6 ΓΕΩΓΡΑΦΙΚΕΣ ΜΕΘΟΔΟΙ ΚΑΙ ΤΕΧΝΙΚΕΣ: ΣΗΜΕΙΑ
2.2 Η έννοια της ταχύτητας.
Εθνικό και Καποδιστριακό Πανεπιστήμιο Αθηνών – Τμήμα Πληροφορικής και Τηλεπικοινωνιών 1 Κεφάλαιο 4 Σημασιολογία μιας Απλής Προστακτικής Γλώσσας Προπτυχιακό.
IΟΝΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ ΣΤΗΝ ΕΠΙΣΤΗΜΗ ΤΗΣ ΠΛΗΡΟΦΟΡΙΑΣ: «ΔΙΟΙΚΗΣΗ & ΟΡΓΑΝΩΣΗ ΒΙΒΛΙΟΘΗΚΩΝ ΜΕ ΕΜΦΑΣΗ ΣΤΙΣ ΝΕΕΣ ΤΕΧΝΟΛΟΓΙΕΣ ΤΗΣ.
Πρόβλεψη Θέσης Χρήστη σε Κινητά Δίκτυα - Ταξινομητής Βέλτιστης Παύσης Σπύρος Γεωργάκης Διπλωματική Εργασία.
Βασικά στοιχεία της Java
ΤΕΙ ΙΟΝΙΩΝ ΝΗΣΩΝ ΤΜΗΜΑ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ ΠΑΡΆΡΤΗΜΑ ΛΕΥΚΑΔΑΣ ΥΠΕΥΘΥΝΗ ΚΑΘΗΓΉΤΡΙΑ Δρ. ΤΣΙΝΤΖΑ ΠΑΝΑΓΙΩΤΑ Οι παρουσιάσεις του μαθήματος βασίζονται στο.
Σήματα και Συστήματα 11 10η διάλεξη. Σήματα και Συστήματα 12 Εισαγωγικά (1) Έστω γραμμικό σύστημα που περιγράφεται από τη σχέση: Αν η είσοδος είναι γραμμικός.
ΠΕΡΙΓΡΑΦΙΚΗ ΣΤΑΤΙΣΤΙΚΗ ΠΙΝΑΚΕΣ ΚΑΙ ΔΙΑΓΡΑΜΜΑΤΑ Πηγή: Βιοστατιστική [Σταυρινός / Παναγιωτάκος] Βιοστατιστική [Τριχόπουλος / Τζώνου / Κατσουγιάννη]
ΣΤΑΤΙΣΤΙΚΑ ΜΕΤΡΑ ΔΙΑΣΠΟΡΑΣ - ΑΣΥΜΜΕΤΡΙΑΣ - ΚΥΡΤΩΣΕΩΣ
ΑΛΓΟΡΙΘΜΟΣ ΠΡΟΒΛΗΜΑ ΑΛΓΟΡΙΘΜΟΣ ΛΥΣΗ
ΠΑΡΑΛΛΗΛΑ ΚΑΙ ΣΥΓΚΡΙΣΙΜΑ ΣΩΜΑΤΑ ΚΕΙΜΕΝΩΝ
Πού χρησιμοποιείται ο συντελεστής συσχέτισης (r) pearson
Αρχεσ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟΥ Η/Υ ΤΑξη Β΄
Τμήμα Μηχανικών Πληροφορικής Τ.Ε.
ΑΝΑΠΑΡΑΣΤΑΣΗ ΧΑΡΑΚΤΗΡΩΝ
Β.ΕΠΑΛ-Γενικής Παιδείας  ΜΑΘΗΜΑ: Εισαγωγή στης αρχές Επιστήμης των Η/Υ  ΚΕΦΑΛΑΙΟ 4: Γλώσσες Αναπαράστασης Αλγορίθμων  ΕΝΟΤΗΤΑ 4.2: Δομή Ακολουθίας 
Εννοιολογική Χαρτογράφηση
Μεταγράφημα παρουσίασης:

Συγκριτική Αξιολόγηση Μεθόδων Λεξικογραφικής και Σημασιολογικής Ομοιότητας Κώστας Κολομβάτσος Επιβλέπων: Ευστάθιος Χατζηευθυμιάδης

ΚΙΝΗΤΡΟ Η ανάγκη για ταίριασμα οντοτήτων που υπάρχει σε πολλούς τομείς της πληροφορικής όπως Information Retrieval, Computational Biology, Musicology, Text Editing, Meteorology, Signal Processing, etc. Η κατασκευή ενός εργαλείου σύγκρισης στοιχείων που να βασίζεται σε συνδυασμό λεξικογραφικής και σημασιολογικής ομοιότητας. Η έλλειψη εργαλείου που να χρησιμοποιεί αρκετούς αλγορίθμους ώστε να αλληλοκαλύπτονται τα μειονεκτήματά τους.

ΣΥΣΧΕΤΙΣΗ ΔΕΔΟΜΕΝΩΝ Σκοπός η εξαγωγή αριθμητικής τιμής ομοιότητας. Για κάθε στοιχείο των εξεταζόμενων οντοτήτων θα πρέπει να ισχύει: L(s,t)  [0..1], όπου L η διαδικασία εξαγωγής ομοιότητας. Χρήση λεξικογραφικής και σημασιολογικής ομοιότητας.

ΛΕΞΙΚΟΓΡΑΦΙΚΗ ΟΜΟΙΟΤΗΤΑ (1/4) Αποσκοπεί στην εξαγωγή αριθμητικής τιμής η οποία να υποδηλώνει είτε την θέση εμφάνισης μιας συμβολοσειράς μέσα σε μια άλλη (ή σε ένα κείμενο) είτε τον βαθμό ομοιότητας των δύο οντοτήτων. Η αριθμητικές τιμές ομοιότητας εξαρτώνται από τον αλγόριθμο που χρησιμοποιείται (δεν βρίσκονται αποκλειστικά στο διάστημα [0..1]). 1ο ΜΕΡΟΣ

ΛΕΞΙΚΟΓΡΑΦΙΚΗ ΟΜΟΙΟΤΗΤΑ (2/4) Exact vs Approximate Exact Matching: Η εύρεση όλων των θέσεων στις οποίες μια συμβολοσειρά εμφανίζεται μέσα σε μια άλλη. π.χ. s = A B C A A B t = A B A B C A A B C A A B C A A B A A Απάντηση: {3, 7, 11, …} Approximate Matching: Εξαγωγή αριθμητικής τιμής η οποία προσδιορίζει το ‘πόσο μοιάζουν’ οι συγκρινόμενες οντότητες. Κύριος εκπρόσωπος της κατηγορίας είναι η απόσταση των συμβολοσειρών. π.χ. s= ABCABC t=ABBAAC Απόσταση Hamming: 2

ΛΕΞΙΚΟΓΡΑΦΙΚΗ ΟΜΟΙΟΤΗΤΑ (3/4) ‘Smart’ vs Naive Methods Smart Methods: Χρησιμοποιούν μετρικές οι οποίες βασίζονται σε κάποια μορφολογικά ή ‘φωνητικά’ χαρακτηριστικά των συγκρινόμενων συμβολοσειρών. π.χ. Soundex Algorithm Naive Methods: Συγκρίνουν απλά τους χαρακτήρες των συμβολοσειρών. π.χ. Edit distance Algorithms, etc.

ΛΕΞΙΚΟΓΡΑΦΙΚΗ ΟΜΟΙΟΤΗΤΑ (4/4) Αναφορές: – Exact Matching: “Handbook of Exact String- Matching Algorithms”, C. Charras, T. Lecroq. – Approximate Matching: “A Guided tour to Approximate String Matching”, G. Navarro, ACM Computing Survey. “Selecting the Right Objective Measure for Associaton Analysis”, P. Tan, V. Kumar, J. Srivastava.

ΑΛΓΟΡΙΘΜΟΙ ΛΕΞΙΚΟΓΡΑΦΙΚΗΣ ΟΜΟΙΟΤΗΤΑΣ (1/9) Ο παλαιότερος αλγόριθμος απόστασης είναι η μετρική Levenshtein. Βασίζεται στον υπολογισμό του κόστους μεταβολής της μιας συμβολοσειράς στην άλλη (κόστος 1). π.χ. s=test, t=tend απόσταση=2. Needleman-Wunch: Βασίζεται στον αλγόριθμο Levenshtein και χρησιμοποιεί βάρη (<>1) για κάθε κίνηση μεταμόρφωσης. Αντικατάσταση/αντιγραφή Εισαγωγή Διαγραφή d(s i,t k ):συνάρτηση απόστασης, G: κόστος μεταβολής

ΑΛΓΟΡΙΘΜΟΙ ΛΕΞΙΚΟΓΡΑΦΙΚΗΣ ΟΜΟΙΟΤΗΤΑΣ (2/9) Smith-Waterman: Όμοια τεχνική με τον προηγούμενο αλγόριθμο. Jaro: Λαμβάνει υπόψιν τους μετασχηματισμούς σε σχέση με το μήκος της αρχικής ακολουθίας. Ομοιότητα= Αρχικά Αντικατάσταση/αντιγραφή Εισαγωγή Διαγραφή d(s i,t k ):συνάρτηση απόστασης, G: κόστος μεταβολής

ΑΛΓΟΡΙΘΜΟΙ ΛΕΞΙΚΟΓΡΑΦΙΚΗΣ ΟΜΟΙΟΤΗΤΑΣ (3/9) Jaro-Winkler: Παραλλαγή του αλγορίθμου Jaro Ομοιότητα=Jaro+ *(1-Jaro), P’=max(prefix,4) Maedche-Staab: Χρησιμοποιεί την απόσταση συμβολοσειρών σε σχέση με το ελάχιστο μήκος των συμβολοσειρών. Ομοιότητα=max(0, ) Dice: Απλή μετρική που βασίζεται αποκλειστικά στους κοινούς χαρακτήρες. Ομοιότητα=

ΑΛΓΟΡΙΘΜΟΙ ΛΕΞΙΚΟΓΡΑΦΙΚΗΣ ΟΜΟΙΟΤΗΤΑΣ (4/9) Lin: Πρότεινε τρεις μετρικές. 1 η : Βασίζεται στην απόσταση των συμβολοσειρών Ομοιότητα= 2 η : Βασίζεται σε κοινές υποακολουθίες (τριγράμματα) Ομοιότητα= 3 η : Βασίζεται σε κοινά τριγράμματα και τις πιθανότητες εμφάνισής τους. Ομοιότητα=

ΑΛΓΟΡΙΘΜΟΙ ΛΕΞΙΚΟΓΡΑΦΙΚΗΣ ΟΜΟΙΟΤΗΤΑΣ (5/9) Longest Common Subsequence (LCSs): Μεγαλύτερη κοινή υποακολουθία χαρακτήρων χωρίς να είναι απαραίτητα συνεχόμενοι. π.χ. s=houseboat t=computer LCSs=out Longest Common Substring (LCSt):Μεγαλύτερη κοινή υποακολουθία συνεχόμενων χαρακτήρων. π.χ. s=hello t=aloha LCSt=lo Q-Grams: Χρήση ενός παραθύρου Q χαρακτήρων στο οποίο γίνεται η σύγκριση. π.χ. 2-grams, 3-grams, …, N-grams

ΑΛΓΟΡΙΘΜΟΙ ΛΕΞΙΚΟΓΡΑΦΙΚΗΣ ΟΜΟΙΟΤΗΤΑΣ (6/9) Ratcliff-Obershelp: Υπολογίζει την ομοιότητα δυο συμβολοσειρών ως το διπλάσιο του πλήθους των κοινών χαρακτήρων ως προς το συνολικό πλήθος χαρακτήρων των δύο συμβολοσειρών. Οι κοινοί χαρακτήρες είναι όσοι ανήκουν Μεγαλύτερη Κοινή Υποακολουθία (LCS) επιπλέον των κοινών χαρακτήρων στην περιοχή η οποία δεν ανήκει στην LCS. π.χ. για s=ALEXANDRE και t=ALEKSANDER είναι: LCS=ALEANDE επιπλέον το R συνεπώς: Sim(s,t)= = 0.84

ΑΛΓΟΡΙΘΜΟΙ ΛΕΞΙΚΟΓΡΑΦΙΚΗΣ ΟΜΟΙΟΤΗΤΑΣ (7/9) Yang-Yuan-Zhao-Chun-Peng: Χρησιμοποιούν την τεχνική του κοινού παραθύρου χαρακτήρων για να εκτιμήσουν τον βαθμό ομοιότητας. Η αριθμητική τιμή ομοιότητας εξάγεται από την έκφραση: Ομοιότητα= όπου SSNC= w=μέγεθος παραθύρου (1..min(m,n)) και n, m τα μήκη των συμβολοσειρών. π.χ. για s=abc de και t=abc k de είναι: Sim(s,t)= = 0,638

ΑΛΓΟΡΙΘΜΟΙ ΛΕΞΙΚΟΓΡΑΦΙΚΗΣ ΟΜΟΙΟΤΗΤΑΣ (8/9) Soundex Algorithm: Βασίζεται στην ιδέα του ότι μεταβολές της ορθογραφίας ακουστικά όμοιων συλλαβών ή γραμμάτων οδηγεί σε ομοιότητα των λέξεων που τα περιλαμβάνουν. Αποδίδει σε κάθε όνομα ένα τετραψήφιο κωδικό ο οποίος ξεκινά με γράμμα και ακολουθείται από τρία ψηφία. Όμοιες λέξεις θα έχουν τον ίδιο κωδικό. π.χ. s1=Darwin s2=Davidson s3=Derwin Darwin  Drn  D65  D650 Davinson  Dvnsn  D1525  D152 Derwin  Drn  D65  D650 i) "1" to B, F, P, V ii) "2" to C, G, J, K, Q, S, X, Z iii) "3" to D, T iv) "4" to L v) "5" to M, N vi) "6" to R

ΑΛΓΟΡΙΘΜΟΙ ΛΕΞΙΚΟΓΡΑΦΙΚΗΣ ΟΜΟΙΟΤΗΤΑΣ (9/9) Token-Based Methods: Εξάγουν την ομοιότητα δύο οντοτήτων οι οποίες αποτελούνται από ένα σύνολο στοιχείων (tokens). Ορισμένες από αυτές χρησιμοποιούν και στατιστικά στοιχεία από σώματα κειμένου ή τιμές πιθανότητας (π.χ. TFIDF, Fellegi-Sunter, etc). Η πιο απλή μέθοδος είναι η μετρική Jaccard η οποία εξάγει τον βαθμό ομοιότητας νε βάση την σχέση: Sim(s,t)=

ΠΡΟΤΑΣΕΙΣ (1/2) Σειρά Q-grams: Στην ιδανική περίπτωση οι συμβολοσειρές θα έχουν Ν(Ν+1)/2 πλήθος κοινών υποακολουθιών. Συνεπώς: Ομοιότητα= όπου L το μικρότερο μήκος των δύο συμβολοσειρών. Συνδυασμός του αλγορίθμου Jaro-Winkler με: – LCSs – LCSt – Common bi-grams – Common tri-grams

ΠΡΟΤΑΣΕΙΣ (2/2) Συνδυασμός του αλγορίθμου Dice με: – LCSt – Common bi-grams Χρήση των LCSs και LCSt μεθόδων. Ομοιότητα=

ΑΛΓΟΡΙΘΜΟΙ ΠΟΥ ΧΡΗΣΙΜΟΠΟΙΟΥΝΤΑΙ Σύνολο: 16 1.Lin Second Measure 2.Maedche-Staab 3.Jaro 4.Jaro-Winkler 5.Jaro-Winkler LCSs 6.Jaro-Winkler LCSt 7.Jaro-Winkler bi-grams 8.Jaro-Winkler tri-grams 9.Smith-Waterman 10.Needleman-Wunch 11.Q-grams series 12.Dice 13.Dice bi-grams 14.Dice LCSt 15.Simple LCSs 16.Simple LCSt ** Οι αλγόριθμοι Ratcliff-Obershelp & Yang-Yuan-Chun-Peng χρησιμοποιήθηκαν στις επεκτάσεις του αρχικού αλγορίθμου.

ΣΗΜΑΣΙΟΛΟΓΙΚΗ ΟΜΟΙΟΤΗΤΑ Καθορίζει τα κοινά και τα διαφορετικά στοιχεία δύο οντοτήτων. Ως στοιχεία θεωρούνται δομικές έννοιες της κάθε οντότητας. Απόδοση αριθμητικής τιμής ομοιότητας. Η τιμή αυτή δεν μπορεί να αναπαραστήσει την ψυχολογική διάσταση της ομοιότητας δύο οντοτήτων. 2ο ΜΕΡΟΣ

ΣΗMΑΣΙΟΛΟΓΙΚΗ ΟΜΟΙΟΤΗΤΑ vs ΣΗΜΑΣΙΟΛΟΓΙΚΗ ΣΥΣΧΕΤΙΣΗ Αποτελούν διαφορετικές έννοιες. Π.χ. οι έννοια {αυτοκίνητο} σχετίζεται με την έννοια {βενζίνη}. Το {αυτοκίνητο} έχει μεγαλύτερη ομοιότητα με την έννοια {ποδήλατο} διότι μοιράζονται περισσότερα κοινά στοιχεία όπως {έχει ρόδες} ή {κινείται} κ.λπ.

ΚΑΤΗΓΟΡΙΕΣ Ontology Based: Χρήση Οντολογιών (π.χ. Wordnet) και των σχέσεων που υπάρχουν ανάμεσα στις έννοιες. Corpus Based: Χρήση σώματος κειμένου για την εξαγωγή στατιστικών στοιχείων για κάθε έννοια. Information Content Approaches: Χρήση του Περιεχομένου Πληροφορίας (IC) των εννοιών – Υβριδική προσέγγιση. Συνήθως χρησιμοποιούνται σώμα κειμένου. Dictionary Based: Χρήση λεξικού προσπελάσιμο από μια μηχανή για την διαπίστωση των σχέσεων μεταξύ των εννοιών.

ΑΝΑΦΟΡΕΣ ΣΗΜΑΣΙΟΛΟΓΙΚΗΣ ΟΜΟΙΟΤΗΤΑΣ Αναφορές: – ‘EvaluatingWordNet-based Measures of Lexical Semantic Relatedness’, A. Budanitsky, G. Hirst, Computational Linguistics. – ‘Computational Models of Similarity in Lexical Ontologies’, N. Seco, Msc Thesis.

ΑΝΤΛΗΣΗ ΣΤΟΙΧΕΙΩΝ Χρησιμοποιείται το ηλεκτρονικό λεξικό WordNet. Χρήση της ιεραρχίας των ουσιαστικών. Περιλαμβάνει σύνολα συνωνύμων ουσιαστικών. Χρήση των σχέσεων μεταξύ των συνόλων συνωνύμων (υπέρνυμα, υπόνυμα, μερόνυμα, κ.λπ.) Η πιο σημαντική σχέση είναι η is-a-kind-of (υπέρνυμα – υπόνυμα) που υποδηλώνει ότι μια έννοια αποτελεί εξειδίκευση μιας άλλης.

WORDNET - ΠΑΡΑΔΕΙΓΜΑΤΑ The noun good has 3 senses (first 3 from tagged texts) 1. (11) good -- (benefit; "for your own good"; "what's the good of worrying?") 2. (9) good, goodness -- (moral excellence or admirableness; "there is much good to be found in people") 3. (6) good, goodness -- (that which is good or valuable or useful; "weigh the good against the bad"; "among the highest goods of all are happiness and self-realization") 10 senses of bank Sense 1 depository financial institution, bank, banking concern, banking company -- (a financial institution that accepts deposits and channels the money into lending activities; "he cashed a check at the bank"; "that bank holds the mortgage on my home") => financial institution, financial organization, financial organisation -- (an institution (public or private) that collects funds (from the public or other institutions) and invests them in financial assets) => institution, establishment -- (an organization founded and united for a specific purpose) => organization, organisation -- (a group of people who work together) => social group -- (people sharing some social relation) => group, grouping -- (any number of entities (members) considered as a unit)

ΑΛΓΟΡΙΜΟΙ ΣΗΜΑΣΙΟΛΟΓΙΚΗΣ ΟΜΟΙΟΤΗΤΑΣ (1/7) Leacock-Chodorow: Χρησιμοποιεί τις σχέσεις υπερνύμου – υπονύμου για την μέτρηση του μήκους μονοπατιού. simlch(c1,c2)=-log( ), D=max Depth Rada: Η απόσταση εξαρτάται από το πλήθος των ακμών που χωρίζουν τις δύο έννοιες. dist(c1,c2)=πλήθος ακμών που χωρίζουν τα c1,c2 Μήκος Μονοπατιού: Η ομοιότητα είναι το αντίστροφο του ελάχιστου μήκους μονοπατιού. simpath(c1,c2)=

ΑΛΓΟΡΙΜΟΙ ΣΗΜΑΣΙΟΛΟΓΙΚΗΣ ΟΜΟΙΟΤΗΤΑΣ (2/7) Wu-Palmer: Στηρίζεται στην απόσταση των δύο εννοιών και στο βάθος στο οποίο βρίσκονται στην ιεραρχία. simwup(c1,c2)= Wu-Palmer-Resnik: Στηρίζεται αποκλειστικά στο βάθος των εννοιών και του κοινού γονέα. simrwup(c1,c2)=

ΑΛΓΟΡΙΜΟΙ ΣΗΜΑΣΙΟΛΟΓΙΚΗΣ ΟΜΟΙΟΤΗΤΑΣ (3/7) Resnik: Βασίζεται στο περιεχόμενο πληροφορίας (Information Content) του κοινού γονέα (LCS – Least Common Subsumer). IC(c)=-log(p(c)), όπου το p(c) εξάγεται από κάποιο σώμα κειμένου. p(c)=freq(word)/N με Ν το πλήθος των λέξεων συνολικά. Συνεπώς: simres(c1,c2)=IC(LCS(c1,c2)) Jiang-Conrath: Καλύπτει τα μειονεκτήματα της προηγούμενης μεθόδου. Η ομοιότητα εξάγεται από το περιεχόμενο πληροφορίας των εννοιών και του κοινού γονέα Συνεπώς: distjcn(c1,c2)=IC(c1)+IC(c2)-2. IC(LCS(c1,c2))

ΑΛΓΟΡΙΜΟΙ ΣΗΜΑΣΙΟΛΟΓΙΚΗΣ ΟΜΟΙΟΤΗΤΑΣ (4/7) Lin: Αποτελεί παραλλαγή των προηγούμενων μεθόδων. simlin(c1,c2)= Tversky: Χρήση της θεωρίας συνόλων για την εξαγωγή της τελικής τιμής. simtvr(c1,c2)=x. f(Ψ(c1). Ψ(c2))-y. f(Ψ(c1)\ Ψ(c2))- z. f(Ψ(c2)\ Ψ(c1)), με x,y,z παραμέτρους. f(Ψ(c1)Ψ(c2))  απόδοση τιμής στην τομή f(Ψ(c1)\Ψ(c2))  απόδοση τιμής στην διαφορά (στοιχεία της 1 ης έννοιας που δεν υπάρχουν στην 2 η ) f(Ψ(c2)\Ψ(c1))  απόδοση τιμής στην διαφορά (στοιχεία της 2 ης έννοιας που δεν υπάρχουν στην 1 η )

ΑΛΓΟΡΙΘΜΟΙ ΣΗΜΑΣΙΟΛΟΓΙΚΗΣ ΟΜΟΙΟΤΗΤΑΣ (5/7) Lesk: Βασίζεται στις περιγραφές των εννοιών. Λέξη 1: pine Senses: 2 Sense 1: kind of evergreen tree with needle-shaped leaves Sense 2: waste away through sorrow or illness Λέξη 2: cone Senses: 3 Sense 1: solid body which narrows to a point Sense 2: something of this shape whether solid or hollow Sense 3: fruit of certain evergreen tree Extended Lesk: Ψάχνει και στις περιγραφές των γειτονικών εννοιών.

ΑΛΓΟΡΙΜΟΙ ΣΗΜΑΣΙΟΛΟΓΙΚΗΣ ΟΜΟΙΟΤΗΤΑΣ (6/7) Rondriguez-Egenhofer: Χρησιμοποιεί την θεωρία συνόλων του Tversky. S(s,t)= όταν ισχύει depth(s) <= depth(t) α(s,t) = 1- όταν ισχύει depth(s) > depth(t)

ΑΛΓΟΡΙΜΟΙ ΣΗΜΑΣΙΟΛΟΓΙΚΗΣ ΟΜΟΙΟΤΗΤΑΣ (7/7) Li-Zuhair-Bandar-McLean: πειραματίστηκαν με 10 μετρικές οι οποίες αποτελούν γραμμικούς ή μη, συνδυασμούς του περιεχομένου πληροφορίας, του βάθους (Μ), του μήκους ελάχιστου μονοπατιού (l), του βάθους του κοινού γονέα (h), της τοπικής πυκνότητας των δύο εννοιών (d) και διαφόρων παραμέτρων που βρίσκονται στο διάστημα [0,1] (a,b,λ). S1=2. M-l S2=a. S1+b. d S3=e -al S4=e -al S5=S4+λ. IC(LCS(c1,c2)) S6=S1. S7=S2. S8=S3. S9=S4. S10=

ΠΑΡΑΛΛΑΓΕΣ SECO Ο Seco πρότεινε στην διπλωματική του να εξάγεται το περιεχόμενο πληροφορίας από το πλήθος των υπονύμων που έχει μια έννοια στην ιεραρχία του WordNet. ICwn(c)=1-, όπου max wn : μέγιστος αριθμός εννοιών Με βάση το παραπάνω η εξαγωγή ομοιότητας βάσει της μεθόδου Tversky προτείνεται να γίνεται από: simtvr(c1,c2)=3. IC(LCS(c1,c2))-IC(c1)-IC(c2)

ΑΛΓΟΡΙΘΜΟΙ ΠΟΥ ΧΡΗΣΙΜΟΠΟΙΟΥΝΤΑΙ Σύνολο: 14 1.Leacock-Chodorow 2.Jiang-Conrath 3.Lin 4.Wu-Palmer 5.Wu-Palmer-Resnik 6.Tversky 7.S1 8.S2 9.S3 10.S4 11.S5 12.S10 13.Simple Distance 14.Rada *** Για τον υπολογισμό του περιεχομένου πληροφορίας χρησιμοποιείται η παραλλαγή Seco.

ΜΕΘΟΔΟΛΟΓΙΑ Κύριος στόχος η σύγκριση συμβολοσειρών που προέρχονται από τον χώρο των οντολογιών και των βάσεων δεδομένων. Θα εξαχθεί απλά ο μέσος όρος των αποτελεσμάτων των αλγορίθμων. Προβλήματα υπάρχουν, κυρίως για την εξαγωγή της σημασιολογικής ομοιότητας, διότι οι συμβολοσειρές μπορεί να μην αποτελούν έγκυρες λέξεις. Λύση αποτελεί η διάσπαση των συμβολοσειρών. Σε περίπτωση που δεν προκύψει ούτε μια έγκυρη λέξη, τότε το αποτέλεσμα στηρίζεται αποκλειστικά στην λεξικογραφική ομοιότητα.

ΔΙΑΣΠΑΣΗ ΣΥΜΒΟΛΟΣΕΙΡΩΝ Διακρίνουμε δύο περιπτώσεις: Οι συμβολοσειρές περιέχουν ειδικά σύμβολα όπως _, #, κ.λπ. ή σε κάποια σημεία περιέχουν αριθμούς ή κεφαλαία γράμματα.  Η διάσπαση γίνεται σ’ αυτούς τους χαρακτήρες. Οι συμβολοσειρές δεν περιέχουν ειδικούς χαρακτήρες, αριθμούς ή κεφαλαία γράμματα.  Η διάσπαση γίνεται σε υποσυμβολοσειρές με 3 ή άνω γράμματα που αποτελούν έγκυρες καταχωρήσεις του WordNet. Όσες συμβολοσειρές προκύπτουν εξετάζονται για την ομοιότητα με βάση τον αλγόριθμο Monge-Elkan.

ΑΛΓΟΡΙΘΜΟΣ MONGE-ELKAN Η ομοιότητα δύο συνόλων στοιχείων Α, Β εκφράζεται ως εξής: match(A,B)= match(Ai,Bj) Ο αλγόριθμος δεν είναι συμμετρικός.

ΤΕΚΜΗΡΙΩΣΗ Τα δεδομένα προέρχονται από: – Το τμήμα πληροφορικής του πανεπιστημίου του Ιλλινόις, όπου δίδονται δεδομένα για ταίριασμα σχήματος και στοιχείων οντολογιών. Χρησιμοποιούνται τα στοιχεία αντιστοίχισης μαθημάτων πανεπιστημίων και της θεματικής ενότητας Real Estate. – Το πανεπιστήμιο του Βερολίνου, όπου γίνεται η περιγραφή της γλώσσας D2R. Χρησιμοποιείται το παράδειγμα της αντιστοίχισης μιας βάσης δεδομένων καταστήματος πώλησης CD σε σχήμα RDF.

ΑΠΟΤΕΛΕΣΜΑΤΑ (1/4) Τα αρχεία δεδομένων περιέχουν 116 αντιστοιχίσεις. Αναγνωρίστηκαν σωστά οι 88, με ποσοστό ομοιότητας πάνω από 75% (όριο που τέθηκε). Το ποσοστό επιτυχίας είναι 75,86%. Το πλήθος των αλγορίθμων αποδεικνύεται αρκετά μεγάλο, ειδικά στην περίπτωση που έχουμε για επεξεργασία μεγάλο όγκο δεδομένων. Η παραλλαγή που πρότεινε ο Seco αποδείχθηκε αρκετά ‘βαριά’ διαδικασία ειδικά για τόσο μεγάλο πλήθος δεδομένων.

ΑΠΟΤΕΛΕΣΜΑΤΑ (2/4) Εξαχθήκαν χρήσιμα συμπεράσματα όσον αφορά στην συμπεριφορά των αλγορίθμων, ιδίως της λεξικογραφικής ομοιότητας. Για την εξαγωγή μιας πιο αντικειμενικής τιμής χρειάζεται ο μη-γραμμικός συνδυασμός λεξικογραφικής και σημασιολογικής ομοιότητας. Για την εξαγωγή μιας αντικειμενικής τιμής ομοιότητας χρειάζεται ο συνδυασμός (ίσως βασισμένος στις ίδιες τις συμβολοσειρές!!) τιμών των αλγορίθμων.

ΑΠΟΤΕΛΕΣΜΑΤΑ (3/4) First String = student Second String = dentist LIN SECOND : MAEDCHE STAAB : JARO :0.6 JARO WINKLER :0.76 JARO WINKLER LCSSt :0.72 JARO WINKLER LCSSs :0.76 JARO WINKLER TRIGRAMS : JARO WINKLER BIGRAMS :0.76 SMITH WATERMAN : NEEDLEMAN WUNCH : Q GRAMS SERIES : DICE (COMMON CHARS) : DICE (COMMON BIGRAMS) : DICE LCSSt : LCSSt : LCSSs : RATCLIFF OBERSHELP =7 :1.0 YANG YUAN ZHAO CHUN PENG :

ΑΠΟΤΕΛΕΣΜΑΤΑ (4/4) *First String: *Second String: Leacock-Chodorow: Jiang-Conrath: Lin: Wu-Palmer: Wu-Palmer-Resnik: Tversky(Seco): S1: S2: S3: S4: S5: S10: Simple Distance: Rada et Al: ***Average of All measures: ***Max Similarity: at 12 *First String: *Second String: Leacock-Chodorow: Jiang-Conrath: Lin: Wu-Palmer: Wu-Palmer-Resnik: Tversky(Seco): S1: S2: S3: S4: S5: S10: Simple Distance: Rada et Al: 1.0 ***Average of All measures: ***Max Similarity: 1.0 at 1

ΕΠΕΚΤΑΣΕΙΣ (1/2) Δημιουργία εργαλείου επιλογής αλγορίθμων

ΕΠΕΚΤΑΣΕΙΣ (2/2) Εξαγωγή αποτελεσμάτων για Precision, Recall and F- measure και σύγκριση με άλλες εργασίες. Εξέταση της επίπτωσης του threshold (επιλέχθηκε το 75%) στις παραπάνω τιμές. Απόδοση συγκεκριμένων βαρών στους αλγορίθμους αυτόματα με βάση κάποια χαρακτηριστικά των οντοτήτων. Αποκλεισμός αλγορίθμων με βάση τα αποτελέσματά τους (π.χ. με χρήση της διακύμανσης). Περιγραφή όλων των αλγορίθμων με βάση μια κοινή έννοια (π.χ. LCSs) ή επιλογή αλγορίθμων που μπορούν να περιγραφούν με μια κοινή έννοια. Χρήση συγκεκριμένων αλγορίθμων με βάση τα προς επεξεργασία δεδομένα ώστε να αποφευχθούν τα μειονεκτήματα που τυχόν παρατηρούνται.

ΠΑΡΑΤΗΡΗΣΕΙΣ ΣΤΟΥΣ ΑΛΓΟΡΙΘΜΟΥΣ ΛΕΞΙΚΟΓΡΑΦΙΚΗΣ ΟΜΟΙΟΤΗΤΑΣ (1/2) Ισχύουν: – LCSs = (m+n-Lev)/2 – LCSs = a1+LCSt+a2, με a1 να είναι μεταξύ [0.. indexof(LCSt)-1] και a2 μεταξύ [0.. indexof(last character)-(indexof(LCSt) + length(LCSt))-1] – LCSt<=LCSs<=min(m,n) – Θέλουμε Lev(s,t) = max(m,n)-min(m,n) = 0 Όλα τα παραπάνω μας βοηθούν να θέσουμε κάποια όρια τιμών.

ΠΑΡΑΤΗΡΗΣΕΙΣ ΣΤΟΥΣ ΑΛΓΟΡΙΘΜΟΥΣ ΛΕΞΙΚΟΓΡΑΦΙΚΗΣ ΟΜΟΙΟΤΗΤΑΣ (1/2) Όσο αυξάνει η απόσταση Levenshtein τόσο μειώνεται το μήκος της LCSs. Συνεπώς θα πρέπει να αποφεύγονται οι αλγόριθμοι που βασίζονται σε αυτές τις μεθόδους. Ποιο όριο τιμών όμως πρέπει να χρησιμοποιηθεί? Καλό είναι τα μήκη των συγκρινόμενων συμβολοσειρών να είναι ίσα ή να έχουν κοντινές τιμές ώστε να υπάρχει μεγαλύτερη πιθανότητα να εξαχθεί μικρή τιμή απόστασης μεταξύ τους. Όσο η LCSt προσεγγίζει την LCSs και τα δύο μαζί προσεγγίζουν το min(m,n) τόσο μειώνεται η απόσταση Levenshtein και συνεπώς αυξάνει ο βαθμός ομοιότητας. Όταν συγκρίνουμε συμβολοσειρές που δεν αποτελούν έγκυρες ή συνδυασμό ή τμήματα έγκυρων λέξεων πρέπει να αποφεύγονται αλγόριθμοι που συγκρίνουν διγράμματα ή ακόμη χειρότερα τριγράμματα.

ΣΥΜΠΕΡΑΣΜΑ Χαρακτηρισμός των αλγορίθμων λεξικογραφικής ομοιότητας με βάση τα: LCSt, LCSs, Lev, max(m,n), min(m,n)  Δύσκολο εγχείρημα. Πιθανόν για την επιλογή κάποιων αλγορίθμων να πρέπει να κατασκευαστεί ή να βρεθεί μια συνάρτηση η οποία παίρνοντας ως ορίσματα τις παραπάνω τιμές να εξάγει είτε κάποιο βάρος που θα αποδίδεται σε κάθε αλγόριθμο είτε θα αποκλείει την χρήση συγκεκριμένων μετρικών. Αποκλεισμός αλγορίθμων που οι τιμές τους δεν συμφωνούν με τις τιμές που θα δώσουν κάποιοι experts (υπάρχει εργασία αλλά όχι για τόσους πολλούς αλγορίθμους)  Δυσκολία στην κατασκευή των δεδομένων στα οποία θα κληθούν οι experts να δώσουν τιμές ομοιότητας καθώς και το ποιες τιμές θα αποδίδουν σε κάθε ζεύγος συμβολοσειράς.

ΤΕΛΟΣ!!