Εξαγωγή και διαχείριση ορολογίας στο πλαίσιο της ανάκτησης πληροφορίας Στέλιος Πιπερίδης, Μαρία Γαβριηλίδου Ινστιτούτο Επεξεργασίας Λόγου {spip,
Διημερίδα Ανθρωπίνου Δικτύου Πολιτισμικής Πληροφορικής Στέλιος Πιπερίδης, Μαρία Γαβριηλίδου (ΙΕΛ)2 Εισαγωγή & Σκοπός (1) Ο αυξανόμενος όγκος ηλεκτρονικών κειμένων δημιουργεί νέες απαιτήσεις για τη διαχείριση και επεξεργασία τους. Τα υπολογιστικά συστήματα (ιδιαίτερα τα συστήματα γλωσσικής τεχνολογίας) χρειάζεται να προσαρμοστούν στη θεματική περιοχή και στο αντικείμενο των υπό επεξεργασία κειμένων.
Διημερίδα Ανθρωπίνου Δικτύου Πολιτισμικής Πληροφορικής Στέλιος Πιπερίδης, Μαρία Γαβριηλίδου (ΙΕΛ)3 Εισαγωγή & Σκοπός (2) uΗ εξαγωγή όρων προσφέρει μια έγκυρη και γρήγορη λύση στη διαδικασία προσαρμογής των συστημάτων γλωσσικής τεχνολογίας στις καινούργιες αυτές απαιτήσεις. uΟι όροι πραγματώνουν γλωσσικά τις βασικές έννοιες του κειμένου αλλά και του γνωστικού αντικειμένου στο οποίο υπάγεται το κείμενο. Είναι συνεπώς αρκετά αντιπροσωπευτικοί του περιεχομένου του.
Διημερίδα Ανθρωπίνου Δικτύου Πολιτισμικής Πληροφορικής Στέλιος Πιπερίδης, Μαρία Γαβριηλίδου (ΙΕΛ)4 Χρήσεις-Εφαρμογές Ανάκτηση Πληροφορίας Κατηγοριοποίηση και Ταξινόμηση κειμένων Εξαγωγή Πληροφορίας Κατασκευή περίληψης Πολύγλωσσες εφαρμογές (παραλληλοποίηση κειμένων)
Διημερίδα Ανθρωπίνου Δικτύου Πολιτισμικής Πληροφορικής Στέλιος Πιπερίδης, Μαρία Γαβριηλίδου (ΙΕΛ)5 Ανάκτηση και Εξαγωγή Πληροφορίας Ανάκτηση Πληροφορίας (Information Retrieval) ΕΡΩΤΗΣΗΑνάκτηση ΕΓΓΡΑΦΩΝ Εξαγωγή Πληροφορίας (Information Extraction) Προκαθορισμένο ΠΛΑΙΣΙΟΕξαγωγή ΠΛΗΡΟΦΟΡΙΑΣ από ΕΓΓΡΑΦΑ
Διημερίδα Ανθρωπίνου Δικτύου Πολιτισμικής Πληροφορικής Στέλιος Πιπερίδης, Μαρία Γαβριηλίδου (ΙΕΛ)6 Παράδειγμα Ανάκτησης Πληροφορίας Ανάκτηση Πληροφορίας ΕΡΩΤΗΣΗ : χρηματοδότηση νέας τεχνολογίας ΑΝΑΚΤΗΣΗ : έγγραφα t001.txt…\…\MS VC funding t002.txt…\…\ New Technology VC t001.txt…\VC new technology funding
Διημερίδα Ανθρωπίνου Δικτύου Πολιτισμικής Πληροφορικής Στέλιος Πιπερίδης, Μαρία Γαβριηλίδου (ΙΕΛ)7 Παράδειγμα Εξαγωγής Πληροφορίας Εξαγωγή Πληροφορίας ΠΡΟΚΑΘΟΡΙΣΜΕΝΟ ΠΛΑΙΣΙΟ ΓΕΓΟΝΟΤΩΝ : <organisation, location, money, type, percent…> ΠΛΗΡΟΦΟΡΙΑ ΑΠΟ ΕΓΓΡΑΦΑ := ORGANISATION : ‘Venture capital Corp.’ LOCATION : ‘Νέα Υόρκη’ MONEY : ‘$ ’ TYPE : ‘χρηματοδότηση νέας τεχνολογίας’ PERCENT: ‘60%-40%’...
Διημερίδα Ανθρωπίνου Δικτύου Πολιτισμικής Πληροφορικής Στέλιος Πιπερίδης, Μαρία Γαβριηλίδου (ΙΕΛ)8 Εξόρυξη πληροφορίας αριθμητικά δεδομένακειμενικά δεδομέναεξαγωγή κανόνων που συσχετίζουν τα δεδομένα με σκοπό την μετατροπή των δεδομένων σε γνώση βάση οικονομικών δεδομένων βάση πελατών βάση ιατρικών δεδομένων κλπ. κειμενικές βάσεις δεδομένων για ένα θεματικό πεδίο π.χ. εξαγωγή του κανόνα Αν μια Venture Capital Company χρηματοδοτεί μια επιχείρηση με >$ 1bn, τότε η επιχείρηση δραστηριοποιείται στο χώρο της νέας τεχνολογίας
Διημερίδα Ανθρωπίνου Δικτύου Πολιτισμικής Πληροφορικής Στέλιος Πιπερίδης, Μαρία Γαβριηλίδου (ΙΕΛ)9 Σύγχρονες Προσεγγίσεις (1) Χρήση γλωσσικών προτύπων γραμματικοί κανόνες (συνήθως υποσύνολο των κανόνων περιγραφής ονοματικών φράσεων) αναγνώριση πολυλεκτικών όρων, αδυναμία αναγνώρισης μονολεκτικών όρων
Διημερίδα Ανθρωπίνου Δικτύου Πολιτισμικής Πληροφορικής Στέλιος Πιπερίδης, Μαρία Γαβριηλίδου (ΙΕΛ)10 Σύγχρονες Προσεγγίσεις (2) Στατιστική μοντελοποίηση χρήση συχνότητας λέξεων, βάρη τύπου TFIDF, συμφράσεις κτλ. αναγνώριση τόσο μονολεκτικών όσο και πολυλεκτικών όρων απαιτούμενο: σώμα κειμένων
Διημερίδα Ανθρωπίνου Δικτύου Πολιτισμικής Πληροφορικής Στέλιος Πιπερίδης, Μαρία Γαβριηλίδου (ΙΕΛ)11 Σύγχρονες Προσεγγίσεις (3) Υβριδικά μοντέλα συνδυάζουν τα πλεονεκτήματα και των δύο προσεγγίσεων: εξαγωγή υποψήφιων όρων βάσει γραμματικής όρων φιλτράρισμα βάσει στατιστικής πληροφορίας
Διημερίδα Ανθρωπίνου Δικτύου Πολιτισμικής Πληροφορικής Στέλιος Πιπερίδης, Μαρία Γαβριηλίδου (ΙΕΛ)12 Περιγραφή της μεθόδου Εφαρμογή –ενός συνόλου γλωσσικών κανόνων με στόχο την εξαγωγή υποψήφιων όρων –στατιστικού φιλτραρίσματος
Διημερίδα Ανθρωπίνου Δικτύου Πολιτισμικής Πληροφορικής Στέλιος Πιπερίδης, Μαρία Γαβριηλίδου (ΙΕΛ)13 Διάγραμμα ροής Επεξεργασία Αξιολόγηση
Διημερίδα Ανθρωπίνου Δικτύου Πολιτισμικής Πληροφορικής Στέλιος Πιπερίδης, Μαρία Γαβριηλίδου (ΙΕΛ)14 Το Σώμα κειμένων Εγχειρίδια και ευρετήριο του HP-VUE της Hewlett Packard (Ελληνική έκδοση) Μέγεθος: 90K λέξεις Στατιστικές πληροφορίες για τα κείμενα: Λεκτικοί τύποι Μοναδικές εμφανίσεις Λήμματα Λεξικές λέξεις27.091
Διημερίδα Ανθρωπίνου Δικτύου Πολιτισμικής Πληροφορικής Στέλιος Πιπερίδης, Μαρία Γαβριηλίδου (ΙΕΛ)15 Ελληνικό κείμενο εισόδου Êáëùóüñéóìá óôï HP VUE # Ôï HP VUE åßíáé Ýíá êáôáîéùìÝíï ðåñéâÜëëïí ôï ïðïßï óáò äßíåé ôç äõíáôüôçôá íá xñçóéìïðïéÞóåôå ôïí õðïëïãéóôÞ óáò xùñßò íá ìÜèåôå ðåñßðëïêåò åíôïëÝò. Ãéá íá ìÜèåôå ôï HP VUE, äéáëÝîôå Ýíá áðü ôïõò ðáñáêÜôù õðåñóõíäÝôås : # Áí äå ãíùñßæåôå ðùò íá åðéëÝîåôå Ýíá õðåñóõíäÝôç, ðáôÞóôå ôï F1 ãéá ïäçãßåò. ÆùôéêÜ èÝìáôá ãéá íÝïõò xñÞóôåò # Áí åßóáóôå íÝïò óôï HP VUE, áõôÜ åßíáé ôá èåìåëéþäç èÝìáôá ãéá íá áñ÷ßóåôå: # Ãéá íá ëÜâåôå ïäçãßåò êáèþò åßóôå óå Ýíá ïðïéïäÞðïôå ðáñÜèõñï: ÐáôÞóôå ôï F 1. (ÄïêéìÜóôå ôï ôþñá ãéá íá ëÜâåôå ïäçãßåò óôçí xñçóéìïðïßçóç ôùí ðáñáèýñùí ïäçãéþí).
Διημερίδα Ανθρωπίνου Δικτύου Πολιτισμικής Πληροφορικής Στέλιος Πιπερίδης, Μαρία Γαβριηλίδου (ΙΕΛ)16 Αποτελέσματα μορφολογικού χαρακτηρισμού και λημματοποίησης ÃåíéêÞ ãåíéêüò AjBaFeSgNm Äéáìüñöùóç äéáìüñöùóç NoCmFeSgNm punc Ôá ï AtNePlNm åðüìåíá åðüìåíïò AjBaNePlNm èÝìáôá èÝìá NoCmNePlNm ðáñÝxïõí ðáñÝxù Vb03PlFiIdPrIpAv ðëçñïöïñßåò ðëçñïöïñßá NoCmFePlAc ðïõ ðïõ Po äå äå PtOt óxåôßæïíôáé óxåôßæù Vb03PlFiIdPrIpPv ìå ìå PpSp êÜðïéá êÜðïéïò PnId03FeSgAc óõãêåêñéìÝíç óõãêåêñéìÝíïò AjBaFeSgAc åöáñìïãÞ åöáñìïãÞ NoCmFeSgAc
Διημερίδα Ανθρωπίνου Δικτύου Πολιτισμικής Πληροφορικής Στέλιος Πιπερίδης, Μαρία Γαβριηλίδου (ΙΕΛ)17 Αποτελέσματα εξαγωγής Ονοματικών Φράσεων (1) Äéáìüñöùóç / [äéáìüñöùóç] ÃåíéêÞ Äéáìüñöùóç / [ãåíéêüò,äéáìüñöùóç] èÝìáôá / [èÝìá] åðüìåíá èÝìáôá / [åðüìåíïò,èÝìá] ðëçñïöïñßåò / [ðëçñïöïñßá] åöáñìïãÞ / [åöáñìïãÞ] óõãêåêñéìÝíç åöáñìïãÞ / [óõãêåêñéìÝíïò,åöáñìïãÞ] Åýñåóç / [åýñåóç] ÐñïâëçìÜôùí / [ðñüâëçìá] Åýñåóç ÐñïâëçìÜôùí / [åýñåóç,ðñüâëçìá] Äéáìüñöùóç / [äéáìüñöùóç] Ôåñìáôéêïý / [ôåñìáôéêü] Äéáìüñöùóç Ôåñìáôéêïý / [äéáìüñöùóç,ôåñìáôéêü]
Διημερίδα Ανθρωπίνου Δικτύου Πολιτισμικής Πληροφορικής Στέλιος Πιπερίδης, Μαρία Γαβριηλίδου (ΙΕΛ)18 Αποτελέσματα εξαγωγής Ονοματικών Φράσεων (2) Ôáxõäñïìåßïõ / [ôáxõäñïìåßï] ÅðéìåëçôÞ / [åðéìåëçôÞò] ÊåéìÝíùí / [êåßìåíï] ÅðéìåëçôÞ ÊåéìÝíùí / [åðéìåëçôÞò,êåßìåíï] ÅêôõðùôÞ / [åêôõðùôÞò] ÅíÝñãåéåò / [åíÝñãåéá] Ôýðïé / [ôýðïò] Áñxåßùí / [áñxåßï] Ôýðïé Áñxåßùí / [ôýðïò,áñxåßï] ÌåôáâëçôÝò/ [ìåôáâëçôÞ] ÐåñéâÜëëïíôïò / [ðåñéâÜëëïí] ÌåôáâëçôÝò ÐåñéâÜëëïíôïò / [ìåôáâëçôÞ, ðåñéâÜëëïí]
Διημερίδα Ανθρωπίνου Δικτύου Πολιτισμικής Πληροφορικής Στέλιος Πιπερίδης, Μαρία Γαβριηλίδου (ΙΕΛ)19 Χαρακτηρισμένο κείμενο εισόδου με εξαχθείσες ΟΦ > Ôá > ðáñÝxïõí ðïõ äå óxåôßæïíôáé ìå êÜðïéá > ôïõ HP VUE > >,, > êáé êáé > > Ãéá óå ìéá > HP VUE áíáæçôÞóôå ìÝóá áðü ôçí, Þ áíïßîôå ôéò xñçóéìïðïéþíôáò ôï > áðü ôïí > >>
Διημερίδα Ανθρωπίνου Δικτύου Πολιτισμικής Πληροφορικής Στέλιος Πιπερίδης, Μαρία Γαβριηλίδου (ΙΕΛ)20 Δομές δεδομένων
Διημερίδα Ανθρωπίνου Δικτύου Πολιτισμικής Πληροφορικής Στέλιος Πιπερίδης, Μαρία Γαβριηλίδου (ΙΕΛ)21 Αποτελέσματα - Αξιολόγηση (1) uΟ έλεγχος και η αξιολόγηση έγινε με βάση τον κατάλογο όρων που περιείχε το εγχειρίδιο. Όροι στον κατάλογο (εξαιρουμένων των μονολεκτικών): 204 Σύνολο εξαχθέντων ‘όρων’: Σύνολο όρων που αναγνωρίστηκαν σωστά: 130
Διημερίδα Ανθρωπίνου Δικτύου Πολιτισμικής Πληροφορικής Στέλιος Πιπερίδης, Μαρία Γαβριηλίδου (ΙΕΛ)22 Αποτελέσματα - Αξιολόγηση (2) uΠοσοστό 17% δεν εντοπίστηκε εξαιτίας λαθών του λημματοποιητή και αγγλικών λέξεων στους όρους. uΠοσοστό 8,8% είναι όροι με περισσότερες από 3 λέξεις. uΗ γενικότητα των κανόνων που λειτουργούν μόνο σε συντακτικό επίπεδο συντείνει στην εξαγωγή μεγάλου αριθμού όρων.
Διημερίδα Ανθρωπίνου Δικτύου Πολιτισμικής Πληροφορικής Στέλιος Πιπερίδης, Μαρία Γαβριηλίδου (ΙΕΛ)23 Στατιστική αξιολόγηση Περαιτέρω επαλήθευση των εξαχθέντων όρων βάσει πινάκων συνεκδοχής. Χρησιμοποιήθηκαν 10 διαφορετικά σκορ αξιολόγησης δίλεκτων όρων, και τα αποτελέσματα μετρήθηκαν στους πρώτους 200 υποψήφιους όρους για κάθε σκορ. Δύο μετρήσεις ανάκλησης, μια σε σχέση με τους 134 δίλεκτους όρους του ευρετηρίου, και μια σε σχέση με τους 77 δίλεκτους όρους που αναγνωρίστηκαν από την γραμματική.
Διημερίδα Ανθρωπίνου Δικτύου Πολιτισμικής Πληροφορικής Στέλιος Πιπερίδης, Μαρία Γαβριηλίδου (ΙΕΛ)24 Πίνακες συνεκδοχής (1) wjwj w j', j j' wiwi ab w i', i i' cd a η συχνότητα των ζευγών που περιλαμβάνουν τόσο την w i όσο και την w j (αριθμός εμφανίσεων του ζεύγους) b η συχνότητα των ζευγών που περιλαμβάνουν την w i και την w j' (αριθμός εμφανίσεων των ζευγών στα οποία μία δεδομένη λέξη είναι το πρώτο συστατικό)
Διημερίδα Ανθρωπίνου Δικτύου Πολιτισμικής Πληροφορικής Στέλιος Πιπερίδης, Μαρία Γαβριηλίδου (ΙΕΛ)25 Πίνακες συνεκδοχής (2) c η συχνότητα των ζευγών που περιλαμβάνουν την w i' και την w j, (αριθμός εμφανίσεων των ζευγών στα οποία μία δεδομένη λέξη είναι το δεύτερο συστατικό) d η συχνότητα των ζευγών που περιλαμβάνουν την w i' και την w j’ (αριθμός εμφανίσεων των ζευγών στα οποία καμία δεδομένη λέξη δεν αποτελεί συστατικό)
Διημερίδα Ανθρωπίνου Δικτύου Πολιτισμικής Πληροφορικής Στέλιος Πιπερίδης, Μαρία Γαβριηλίδου (ΙΕΛ)26 Στατιστικό φιλτράρισμα (1) Fager and McGowan Coefficient (FAG) Cubic Association ratio (IM3) Log-likelihood (LLH)
Διημερίδα Ανθρωπίνου Δικτύου Πολιτισμικής Πληροφορικής Στέλιος Πιπερίδης, Μαρία Γαβριηλίδου (ΙΕΛ)27 Στατιστικό φιλτράρισμα (2) NC Value μια φόρμουλα που λαμβάνει υπόψη τόσο τον αριθμό εμφανίσεων όσο και την πληροφορία του περιβάλλοντος του υποψήφιου όρου, δηλ. ρήματα, επίθετα και ουσιαστικά που περιβάλλουν (συντάσσονται με) τους υποψήφιους όρους
Διημερίδα Ανθρωπίνου Δικτύου Πολιτισμικής Πληροφορικής Στέλιος Πιπερίδης, Μαρία Γαβριηλίδου (ΙΕΛ)28 Αποτελέσματα
Διημερίδα Ανθρωπίνου Δικτύου Πολιτισμικής Πληροφορικής Στέλιος Πιπερίδης, Μαρία Γαβριηλίδου (ΙΕΛ)29 Ολοκλήρωση σε υπολογιστικά λεξικά οι αυτόματα εξαγόμενοι ορολογικοί πόροι μπορούν να χρησιμοποιηθούν είτε ως έχουν σε μια εφαρμογή ανάκτησης πληροφορίας, είτε σε συνδυασμό με άλλους γλωσσικούς πόρους (γενικά υπολογιστικά λεξικά) σε εφαρμογές εξαγωγής πληροφορίας ο συνδυασμός με υπολογιστικά λεξικά απαιτεί την κωδικοποίηση πολυεπίπεδης γλωσσολογικής πληροφορίας
Διημερίδα Ανθρωπίνου Δικτύου Πολιτισμικής Πληροφορικής Στέλιος Πιπερίδης, Μαρία Γαβριηλίδου (ΙΕΛ)30 Το μοντέλο ΛΕΞΙΣ (1) Υπολογιστικό λεξικό γενικής γλώσσας της Νέας Ελληνικής για συστήματα ΕΦΓ ( εγγραφές [ με συντακτική πληροφορία, με σημασιολογική πληροφορία]) Αρθρώνεται σε 3 επίπεδα (μορφολογικό, συντακτικό και σημασιολογικό επίπεδο) Βασίζεται στο λεξικό Parole/Simple (κοινές προδιαγραφές για 12 ευρωπαϊκές γλώσσες)
Διημερίδα Ανθρωπίνου Δικτύου Πολιτισμικής Πληροφορικής Στέλιος Πιπερίδης, Μαρία Γαβριηλίδου (ΙΕΛ)31 Το μοντέλο ΛΕΞΙΣ (2) MU κλιτικό παράδειγμα θέματα …. SynU συμπληρώματα (λειτουργία, μορφοσυντακτικές πραγματώσεις) εαυτός (μορφοσυντακτικοί περιορισμοί) SynU SemU σημασιολογι κή πληροφορία
Διημερίδα Ανθρωπίνου Δικτύου Πολιτισμικής Πληροφορικής Στέλιος Πιπερίδης, Μαρία Γαβριηλίδου (ΙΕΛ)32 Δείγμα της οντολογίας SIMPLE LOCATION (3_D_Location, Opening, Building, Area, Artifactual_area, Geopolitical_Location) MATERIAL ARTIFACT (Artifactual_material, Furniture, Clothing, Artwork, Money, Container, Instrument, Vehicle, Semiotic_artifact) FOOD (Artifact_food, Flavouring) PHYSICAL_OBJECT ORGANIC_OBJECT LIVING_ENTITY –Animal (Earth_animal, Air_animal, Water_animal) –Human (Profession, People, Role [Ideo, Kinship, Social_Status], Agent_of_temporary_activity, Agent_of_persistent_activity) –Vegetal_entity (Plant, Flower, Fruit) –Micro_organism SUBSTANCE
Διημερίδα Ανθρωπίνου Δικτύου Πολιτισμικής Πληροφορικής Στέλιος Πιπερίδης, Μαρία Γαβριηλίδου (ΙΕΛ)33 Σημασιολογικό επίπεδο - Ρόλοι Qualia Formal –isa Constitutive –made_of, has_as_part, habitat, dimension, … Agentive –created_by, derived_from, source, … Telic –used_for, used_as, purpose, …
Διημερίδα Ανθρωπίνου Δικτύου Πολιτισμικής Πληροφορικής Στέλιος Πιπερίδης, Μαρία Γαβριηλίδου (ΙΕΛ)34 Παράδειγμα της εγγραφής “πολυθρόνα” FurnitureS. type used_for (πολυθρόνα, κάθομαι)Telic created_by (πολυθρόνα, κατασκευάζω)Agentive made_of (πολυθρόνα, ξύλο) made_of (πολυθρόνα, ύφασμα) has_as_part (πολυθρόνα, μπράτσο) has_as_part (πολυθρόνα, πλάτη)Constitutive isa (πολυθρόνα, έπιπλο)Formal
Διημερίδα Ανθρωπίνου Δικτύου Πολιτισμικής Πληροφορικής Στέλιος Πιπερίδης, Μαρία Γαβριηλίδου (ΙΕΛ)35 Σημασιολογικό επίπεδο – Δομή κατηγορήματος SemU = χτίζω1 Predicate = χτίζω Type_of_link = master Correspondence = ISObivalent Arg1={SemRole = ProtoAgent, SelPref = [Human]} Arg2={SemRole =ProtoPatient, SelPref =[Building]}
Διημερίδα Ανθρωπίνου Δικτύου Πολιτισμικής Πληροφορικής Στέλιος Πιπερίδης, Μαρία Γαβριηλίδου (ΙΕΛ)36 Τρέχουσα εργασία Χρήση συχνότητας υποψήφιων όρων σε σώμα κειμένων αναφοράς (TFIDF scoring - Salton) Χρήση συντακτικής πληροφορίας (π.χ. κεφαλές ονοματικών φράσεων) Επέκταση του υπάρχοντος μηχανισμού με γλωσσικές πράξεις πάνω στους όρους [σύνθεση (composition), παράθεση (juxtaposition), σύζευξη (coordination)]