ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ WordNet.

Slides:



Advertisements
Παρόμοιες παρουσιάσεις
Παρουσίαση λειτουργίας εφαρμογής extra Διαχείριση Ταμείου
Advertisements

1 Ερευνητικό Πρόγραμμα BalkaNet. BalkaNet Project 2 Ερευνητικό Πρόγραμμα BalkaΝet Χρηματοδοτούμενο από την ΕΕ πρόγραμμα (IST ) με σκοπό την.
BLOGS ΚΑΙ WIKIS Εργαλεία WEB 2.0. Blogs  Το Βlog λέξη είναι η συντομευμένη εκδοχή του weblog.  Blog είναι το είδος της ιστοσελίδας, που συνήθως συντηρείται.
ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ
Optimizing Web Search Using Social Annotations Παρουσίαση: Λάζος Άγγελος.
Συστήματα Διαχείρισης Βάσεων Δεδομένων Τίμος Σελλής, Καθηγητής ΕΜΠ, Διευθυντής ΙΠΣΥΠ, Ε.K. “Αθηνά”
Ο ΣΗΜΑΣΙΟΛΟΓΙΚΟΣ ΙΣΤΟΣ ΠΑΝΤΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΤΜΗΜΑ ΨΥΧΟΛΟΓΙΑΣ ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ Δυνητικές Κοινότητες: Κοινωνιοψυχολογικές Προσεγγίσεις και.
ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ Τεχνικές NLP – Σχεδιαστικά Θέματα.
ΟΡΟΛΟΓΙΑ Στην ΚτΠ: Χρησιμότητα στον Δημόσιο Τομέα ή Η σημασία της γνώσης των όρων για αποτελεσματική πρόσβαση στην πληροφορία Γ. Καραγιάννης Καθηγητής.
Συνάφεια Κρυφής Μνήμης σε Επεκτάσιμα Μηχανήματα. Συστήματα με Κοινή ή Κατανεμημένη Μνήμη  Σύστημα μοιραζόμενης μνήμης  Σύστημα κατανεμημένης μνήμης.
Ορισμός εννοιολογικού χάρτη
Η Θεματική Ταξινόμηση και η Συμβολή της στην Αναζήτηση Ευρωπαϊκών Κοινωνικών Δεδομένων.
ΟΙΚΟΝΟΜΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΘΗΝΩΝ Τμήμα Διοικητικής Επιστήμης και Τεχνολογίας Επιβλέπων: Μ. Λύτρας Ομάδα Εργασίας: Αtanasova Monica A.M Αtanasova.
Διακριτά Μαθηματικά ΙI Δέντρα
 Αυδίκου Χριστίνα  Γιουμούκης Παναγιώτης  Κιντσάκης Θάνος  Πάπιστας Γιάννης.
Ο Αλγόριθμος FP-Growth. Αλγόριθμος FP-Growth Ο αλγόριθμος χρησιμοποιεί μια συμπιεσμένη αναπαράσταση της βάσης των συναλλαγών με τη μορφή ενός FP-δέντρου.
Xαρτογράφηση Εννοιών Εννοιολογικοί Χάρτες και οι εφαρμογές τους στη διδασκαλία των Φυσικών Επιστημών.
Xαρτογράφηση Εννοιών με λογισμικό Inspiration
. Εννοιολογικοί χάρτες.
Αναγνώριση Προτύπων.
Κ. Μόδη: Γεωστατιστική και Εφαρμογές της (Κεφάλαιο 5) 1 Τυχαία συνάρτηση Μία τυχαία συνάρτηση (ΤΣ) είναι ένας κανόνας με τον οποίο σε κάθε αποτέλεσμα ζ.
Κοντινότεροι Κοινοί Πρόγονοι α βγ θ δεζ η π ν ι κλμ ρσ τ κκπ(λ,ι)=α, κκπ(τ,σ)=ν, κκπ(λ,π)=η κκπ(π,σ)=γ, κκπ(ξ,ο)=κ ξο κκπ(ι,ξ)=β, κκπ(τ,θ)=θ, κκπ(ο,μ)=α.
1 Θεματική Ενότητα Γραφήματα & Επίπεδα Γραφήματα.
ΑΠΕΙΚΟΝΙΣΗ ΕΝΝΟΙΩΝ 1. 2 Χρήστης Στόχος Ταμίας διενέργεια πώλησης διενέργεια ενοικίασης εισαγωγή ταμείου εξαγωγή ταμείου * 1 Μοντέλο Πεδίου Προβλήματος.
Ιωάννης Γ. Κοντοχριστόπουλος Τμήμα Ηλεκτρολόγων Μηχανικών & Τεχνολογίας Υπολογιστών Επιβλέπων: Επ. Καθηγητής Κ. Σγάρμπας Τετάρτη 10 Οκτωβρίου 2012.
Xαρτογράφηση Εννοιών λογισμικό Κidspiration
Μάθημα 2 ο : Βασικές έννοιες 1 Ακαδημαϊκό Έτος
Η έννοια ΙΣΧΥΣ.
Η μάθηση από κείμενα 1 Τρίτη, 5 Ιουλίου 2011  Η μάθηση από κείμενα είναι μια πολύπλοκη διαδικασία η οποία μέχρι σήμερα δεν έχει γίνει πλήρως κατανοητή.
Οργάνωση πληροφοριών Ευρετηρίαση Μέρος Β Σχεδιασμός ευρετηρίων.
ΕΠΛ 231 – Δομές Δεδομένων και Αλγόριθμοι12-1 Στην ενότητα αυτή θα μελετηθούν τα εξής επιμέρους θέματα: Ο αλγόριθμος του Prim και ο αλγόριθμος του Kruskal.
ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ Προεπεξεργασία Κειμένου.
Μοντέλα Συστημάτων Παρουσιάσεις των συστημάτων των οποίων οι απαιτήσεις αναλύονται.
Απομακρυσμένη Εκπαίδευση
ΘΕΩΡΙΑ ΠΟΛΥΠΛΟΚΟΤΗΤΑΣ ΠΑΡΟΥΣΙΑΣΗ ΣΤΑ ΚΕΦΑΛΑΙΑ 7.4 – 7.6 NP ΠΛΗΡΟΤΗΤΑ.
Ενεργή επιλογή αλγορίθμου, Active Algorithm Selection, Feilong Chen and Rong Jin Εύα Σιταρίδη.
ΗΛΕΚΤΡΟΝΙΚΗ ΔΗΜΟΣΙΕΥΣΗ ΔΑΜΠΑΣ ΑΘΑΝΑΣΙΟΣ Β ΚΑΛΩΤΑ ΑΝΝΑ Β
ΤΙ ΕΙΝΑΙ TO ΔΙΑΔΙΚΤΥΟ; Δίκτυο υπολογιστών (γενική έννοια)
ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ Information Extraction.
ΙΟΝΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΤΜΗΜΑ ΑΡΧΕΙΟΝΟΜΙΑΣ & ΒΙΒΛΙΟΘΗΚΟΝΟΜΙΑΣ ΠΜΣ: «ΕΠΙΣΤΗΜΗ ΤΗΣ ΠΛΗΡΟΦΟΡΙΑΣ» ΜΑΘΗΜΑ: ΗΛΕΚΤΡΟΝΙΚΗ ΔΗΜΟΣΙΕΥΣΗ ΕΡΓΑΣΙΑ: MULTI-DOCUMENT SUMMARIZATIONS.
Xαρτογράφηση Εννοιών λογισμικό Κidspiration
Μάθημα 1ο: Εισαγωγή στη Γλωσσική Τεχνολογία
WORDNET Διαχείριση Περιεχομένου Παγκόσμιου Ιστού Και Γλωσσικά Εργαλεία.
Λεξικό, Union – Find Διδάσκοντες: Σ. Ζάχος, Δ. Φωτάκης Επιμέλεια διαφανειών: Δ. Φωτάκης Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών Εθνικό Μετσόβιο.
Θεωρία Γράφων Θεμελιώσεις-Αλγόριθμοι-Εφαρμογές
ΚΕΦΑΛΑΙΟ 6 ΓΕΩΓΡΑΦΙΚΕΣ ΜΕΘΟΔΟΙ ΚΑΙ ΤΕΧΝΙΚΕΣ: ΣΗΜΕΙΑ
Computational Imaging Laboratory ΤΜΗΥΠ ΕΡΓΑΣΤΗΡΙΟ ΕΠΕΞΕΡΓΑΣΙΑΣ ΣΗΜΑΤΩΝ & ΤΗΛΕΠΙΚΟΙΝΩΝΙΩΝ Υπολογιστική Όραση.
ΕΠΛ 231 – Δομές Δεδομένων και Αλγόριθμοι13-1 Στην ενότητα αυτή θα μελετηθούν τα εξής επιμέρους θέματα: Ο αλγόριθμος Dijkstra για εύρεση βραχυτέρων μονοπατιών.
Θεωρία Υπολογισμού Κλάσεις P και NP.
Template-Independent News Extraction Based on Visual Consistency  Shuyi Zheng  Ruihua Song  Ji-Rong Wen Παπαντωνίου.
Τεχνολογία ΛογισμικούSlide 1 Εξειδίκευση Βασισμένη σε Μοντέλο u Τυπική εξειδίκευση λογισμικού με ανάπτυξη μαθηματικού μοντέλου για το σύστημα.
Πρόβλεψη Θέσης Χρήστη σε Κινητά Δίκτυα - Ταξινομητής Βέλτιστης Παύσης Σπύρος Γεωργάκης Διπλωματική Εργασία.
Εφαρμογές Πολυμέσων: Εισαγωγή στην HTML (1)
Μέγιστη ροή TexPoint fonts used in EMF. Read the TexPoint manual before you delete this box.: AA A AA A A Συνάρτηση χωρητικότητας Κατευθυνόμενο γράφημα.
Βάσεις Δεδομένων Αρχιτεκτονική.
Συνδετικότητα γραφήματος (graph connectivity). α β Υπάρχει μονοπάτι μεταξύ α και β; Παραδείγματα: υπολογιστές ενός δικτύου ιστοσελίδες ισοδύναμες μεταβλητές.
Και η εκπαιδευτική τους χρήση.  Web 2.0 τεχνολογίες, εφαρμογές και υπηρεσίες  Δημιουργία μαθημάτων με τη χρήση εργαλείων Web 2.0, διαδικτύου – σύγκριση.
ΕΙΣΑΓΩΓΗ ΣΤΙΣ ΕΥΡΕΤΙΚΕΣ ΜΕΘΟΔΟΥΣ Άπληστη Αναζήτηση και Αναζήτηση Α* ΣΠΥΡΟΣ ΛΥΚΟΘΑΝΑΣΗΣ, ΚΑΘΗΓΗΤΗΣ.
Σήματα και Συστήματα 11 10η διάλεξη. Σήματα και Συστήματα 12 Εισαγωγικά (1) Έστω γραμμικό σύστημα που περιγράφεται από τη σχέση: Αν η είσοδος είναι γραμμικός.
Επίλυση Προβλημάτων με Αναζήτηση
Μέγιστη ροή Κατευθυνόμενο γράφημα 12 Συνάρτηση χωρητικότητας
Μοντέλο Κατανόησης Κειμένου
Web, Web 2.0, Web 3.0 και Web X.0 ΚΕΦΑΛΑΙΟ 9.
ΕπιβλΕπων: Δρ. Κ. Σ. ΧειλΑΣ, ΑναπληρωΤΗΣ ΚαθηγητΗΣ
Σύγχρονες μεθοδολογίες ανάπτυξης και διαχείρισης Πληροφοριακών Συστημάτων 2ο Κεφάλαιο.
ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ
Ερωτήματα Επιλογής σε ACCESS
Αναζήτηση στο Διαδίκτυο
Εννοιολογική Χαρτογράφηση
Διαχρονικές Δομές Δεδομένων
Μεταγράφημα παρουσίασης:

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ WordNet

Σημασιολογικά Δίκτυα  Ένα δίκτυο που αναπαριστά συσχετίσεις μεταξύ εννοιών.  Οι κορυφές παριστάνουν έννοιες και οι ακμές σημασιολογικές σχέσεις.  Αποτελεί μορφή αναπαράστασης γνώσης.  Χρησιμοποιούνται όταν η γνώση αναπαρίσταται αποτελεσματικότερα με συσχετίσεις μεταξύ εννοιών.

WordNet  Παράδειγμα σημασιολογικού δικτύου  Ηλεκτρονικό λεξικό της αγγλικής γλώσσας  Καταγράφει επίσης σημασιολογική ( θησαυρική ) πληροφορία για τα λήμματα που περιέχει  Δημιουργήθηκε το 1985 στο Princeton  Συντηρείται από το “Cognitive Science Laboratory” υπό τη διεύθυνση του καθ. Γνωστικής Ψυχολογίας George A. Miller

Βασικές Έννοιες  Λήμμα (Lemma)  Οι λέξεις τις αγγλικής στον πρώτο κλιτικό τύπο.  Διαχωρίζονται και ανά μέρος του λόγου.  Έννοια (Sense)  Μια έννοια του πραγματικού κόσμου που μπορεί να εκφραστεί με ένα ή περισσότερα λήμματα.  Σύνολο Συνωνύμων (Synset)  Το WordNet ομαδοποιεί τα λήμματα που περιέχει σε synsets.  Κάθε synset αντιπροσωπεύει μια έννοια.  Κάθε synset περιέχει τα λήμματα που είναι συνώνυμα.

Μοντελοποίηση με Γράφο  Κόμβοι  Κάθε κόμβος είναι ένα synset.  Περιέχει ένα ή περισσότερα λήμματα και τον ορισμό τους (gloss).  Ακμές  Κάθε ακμή εκφράζει μια σημασιολογική σχέση μεταξύ δύο synsets.

Μοντελοποίηση με ER  Κάθε λήμμα περιέχεται σε ένα ή περισσότερα synsets και κάθε synset περιέχει ένα ή περισσότερα λήμματα.  Κάθε synset εκφράζει ακριβώς μια έννοια.  Κάθε synset μπορεί να συνδέεται με σημασιολογική σχέση με άλλα synsets.

Ψυχολογική Αιτιολόγηση  Το WordNet οργανώθηκε με βάση το πως επεξεργάζεται ο άνθρωπος τη γλώσσα.  Ψυχολογικά πειράματα αποδεικνύουν ότι :  Ο άνθρωπος ανακτά ιδιότητες ουσιαστικών πιο γρήγορα όταν το χαρακτηριστικό που δίνεται είναι και ιδιότητα που ορίζει την κλάση.  Για παράδειγμα έστω η ιεραρχία :  καναρίνι => ωδικό πτηνό => πτηνό => ζώο  Ο άνθρωπος επιβεβαιώνει γρηγορότερα τη φράση « Το καναρίνι τραγουδά » από τη φράση « Το καναρίνι πετάει » και ακόμα πιο αργά τη φράση « Το καναρίνι έχει δέρμα » λόγω της ιεραρχίας.

Στατιστικά  Το WordNet είναι καλύτερη πηγή για ουσιαστικά !  Σε άλλα μέρη του λόγου μπορεί να υπάρχουν ελλείψεις...

Σχετικά Projects  WordNets:  Και σε άλλες γλώσσες ( εκτός των αγγλικών )  Web Interfaces:  Πρόσβαση μέσω άλλων δικτύων  APIs:  σε όλες σχεδόν τις γνωστές γλώσσες ( πχ : C#, Java, MySQL, Perl, PHP, PostgreSQL, Python, Ruby)  Extentions:  επέκταση των χαρακτηριστικών του ή ενσωμάτωση σε μεγαλύτερα συστήματα  Mappings:  μεταξύ διαφορετικών εκδόσεων

WordNet Εφαρμογές

WordNet Visualization

WordNet στο NLTK

Σημασιολογικές Σχέσεις  Λημμάτων :  Συνωνυμία  Αντωνυμία  Εννοιών :  Υπερωνυμία / Υπωνυμία  Ολωνυμία / Μερωνυμία  Αμφίδρομες (bi-directional) και κληρονομικές.

Συνωνυμία / Αντωνυμία  Σχέσεις που ορίζονται μεταξύ λημμάτων.  Ένα σύνολο συνώνυμων λημμάτων αποτελούν το synset, τη δομική μονάδα του wordnet.

Ολωνυμία / Μερωνυμία  E κφράζουν ότι η μια έννοια είναι μέρος της άλλης.  Σχέσεις μεταξύ synsets  Κληρονομικές και αμφίδρομες  Υπάρχουν 3 είδη : Member, Part, Substance

Υπερωνυμία / Υπωνυμία  Εκφράζουν ότι μια έννοια είναι εξειδίκευση της άλλης  Σχέσεις μεταξύ synsets  Κληρονομικές και αμφίδρομες  Θεωρητικά κάθε έννοια έχει το πολύ μια γενική της ( ιεραρχία, δέντρο )  Σημαντική σχέση για πολλές μεθόδους και εφαρμογές  Καλύτερα ενημερωμένη στο WordNet σε σχέση με άλλες.

Δέντρο Υπερωνύμων / Υπωνύμων

 Μονοπάτι του synset ως στη ρίζα  Όσο προχωράμε προς τη ρίζα έχουμε γενικότερες έννοιες  Τα φύλλα είναι η πιο εξειδικευμένες  Τελικά είναι δέντρο ?  Όχι – υπάρχουν εξαιρέσεις με 2 μονοπάτια προς τη ρίζα.

Σημασιολογική Απόσταση  Από το δέντρο μπορούμε να ορίσουμε μονοπάτι μεταξύ δύο εννοιών.  Ελάχιστος Κοινός Πρόγονος (Least Common Subsumer)  Τι σημαίνει όταν δυο έννοιες είναι πιο κοντά στο δέντρο από άλλες δύο ?

Μετρικές Σημασιολογικής Ομοιότητας  Δίνουν την ομοιότητα μεταξύ δύο εννοιών :  Path Similarity  Shortest Path μεταξύ εννοιών  Leacock-Chodorow Similarity  Shortest Path μεταξύ εννοιών και μέγιστο βάθος τους  Wu-Palmer Similarity  Βάθος των εννοιών και βάθος του Least Common Subsumer  Resnik Similarity  Information Content (IC) του Least Common Subsumer  Jiang-Conrath Similarity  Information Content (IC) του Least Common Subsumer και των εννοιών  Lin Similarity  Information Content (IC) του Least Common Subsumer και των εννοιών

Wu-Palmer Similarity  Συνδυάζει το βάθος ενός ζεύγους εννοιών στο WordNet και το βάθος του LCS (Least Common Subsumer) τους

Μετρικές Σημασιολογικής Ομοιότητας  Μετρικές που βασίζονται μόνο στα δομικά στοιχεία του WordNet Path Similarity Leacock-Chodorow Wu-Palmer

Μετρικές Σημασιολογικής Ομοιότητας  Μετρικές που χρειάζονται το Information Content το οποίο πρέπει να φορτωθεί από corpus  Information Content: Το αντίστροφο της εντροπίας, χαρακτηρίζει την πληροφορία που « φέρει » κάθε έννοια. Φόρτωση του IC α π ό το Brown Corpus Resnik Similarity Jiang-Conrath Similarity Lin Similarity

Word Sense Disambiguation  Αποσαφήνιση  Το πρόβλημα του να αναγνωριστεί η έννοια μιας λέξης σε μια πρόταση.  Είναι ανοιχτό πρόβλημα ( δεν έχει επιλυθεί )  Έχουν προταθεί μέθοδοι με αρκετά καλή απόδοση.  Βασικές κατευθύνσεις :  Dictionary & knownledge based  Supervised Methods: Machine Learning με annotated corpora

WSD- Παράδειγμα  Έχουμε την πρόταση :  “I left the mouse behind the screen, next to the keyboard”  Έχουμε 3 ουσιαστικά με διαφορετικές έννοιες το καθένα.  Πόσους διαφορετικούς συνδυασμούς μπορούμε να κάνουμε ?  Πως επιλέγουμε τον σωστό συνδυασμό ?

WSD - Μια ( απλοϊκή ) πρόταση  Έυρεση όλων των συνδυασμών εννοιών.  Στο παράδειγμα : 4*9*2=72  Μέτρηση της μέσης σημασιολογικής ομοιότητας κάθε συνδυασμού ανά δυο έννοιες ( με οποιαδήποτε μετρική )  Επιλογή των εννοιών που μεγιστοποιούν τη μέση σημασιολογική ομοιότητα.  Τι πρόβλημα παρουσιάζει η πρόταση αυτή ?

WSD - Παράδειγμα Υ π ολογισμός όλων των δυνατών συνδυασμών ( καρτεσιανό γινόμενο ) Υ π ολογισμός όλων των δυνατών ζευγών ( συνδυασμοί ανά 2) Υ π ολογισμός της μέσης ομοιότητας

WSD - Παράδειγμα  Η μέθοδος είναι πρακτικά ανεφάρμοστη για πολλά δεδομένα, καθώς το μέγεθος του προβλήματος αυξάνεται δραματικά με κάθε λέξη !  Ενδεικτικά όταν εφαρμόστηκε σε όλα τα ουσιαστικά ενός κειμένου, ο αριθμός των συνδυασμών δεν μπορούσε να αποθηκευτεί σε long: έκανε overflow!  Στην πράξη χρησιμοποιούνται πολύ πιο πολύπλοκες μέθοδοι, που επιτυγχάνουν και μεγάλη απόδοση.  Η FirstSense μέθοδος έχει απόδοση πάνω από 50%!  FirstSense: απλά επιλέγω το sense το οποίο χρησιμοποιείται συχνότερα.  Το πρόβλημα παραμένει ανοιχτό.

Πηγές για το WordNet  WordNet official page:   WordNet Wikipedia page:   WordNet visualization:   WordNet vocabulary helper: 

Recommended Reading  “Natural Language Processing with Python”  Chapter 2: 2.5 WordNet  Wordnet with Python Tutorial  dnet.html dnet.html