Η παρουσίαση φορτώνεται. Παρακαλείστε να περιμένετε

Η παρουσίαση φορτώνεται. Παρακαλείστε να περιμένετε

Ανάκτηση και Εξαγωγή Πληροφορίας από Πολυμεσικές και Πολυγλωσσικές Βάσεις Δεδομένων Στέλιος Πιπερίδης Ινστιτούτο Επεξεργασίας Λόγου

Παρόμοιες παρουσιάσεις


Παρουσίαση με θέμα: "Ανάκτηση και Εξαγωγή Πληροφορίας από Πολυμεσικές και Πολυγλωσσικές Βάσεις Δεδομένων Στέλιος Πιπερίδης Ινστιτούτο Επεξεργασίας Λόγου"— Μεταγράφημα παρουσίασης:

1 Ανάκτηση και Εξαγωγή Πληροφορίας από Πολυμεσικές και Πολυγλωσσικές Βάσεις Δεδομένων Στέλιος Πιπερίδης Ινστιτούτο Επεξεργασίας Λόγου spip@ilsp.gr

2 Περιεχόμενα   Διαχείριση Περιεχομένου  Γλωσσική Τεχνολογία στην Ανάκτηση Πληροφορίας  Εξαγωγή Πληροφορίας  Πολυγλωσσική Εξαγωγή Πληροφορίας

3 ... Where is the Life we have lost in living? Where is the wisdom we have lost in knowledge? Where is the knowledge we have lost in information?... -- T.S. Eliot, 1934, “The Rock”, I:14-16

4 Ιεραρχία ; ….. Knowledge Information Data Δεδομένα Πληροφορία Γνώση...

5 Ιεραρχία Πληροφορίας... Γνώση πληροφορία που έχουμε αντιληφθεί (ανάγνωση[κείμενο] / ακοή[φωνή] / όραση[εικόνα, κίνηση]) και ‘κατανοήσει’ Πληροφορία δεδομένα οργανωμένα και παρουσιασμένα με συγκεκριμένο τρόπο Δεδομένα ανεπεξέργαστο υλικό

6 Ανάκτηση πολυμεσικών πληροφοριών κείμενο, φωνή, εικόνες δρουν συνεργατικά για τη δημιουργία και μεταφορά πληροφορίας και γνώσης η επεξεργασία πολυμεσικών πληροφοριών φαίνεται ότι είναι το σκηνικό στο οποίο θα λειτουργούμε στο μέλλον, τη στιγμή που αναπαριστά ότι είναι πλησιέστερο σε πραγματικά σενάρια επικοινωνίας (φυσικοί διάλογοι άνθρωπος-με-άνθρωπο/ άνθρωπος-με-μηχανή, αλληλοδραστική/ψηφιακή τηλεόραση, κλπ) η επεξεργασία πολυμεσικών δεδομένων απαιτεί τη συνεργασία τεχνολογιών μετατροπής μέσου σε μέσο (π.χ. φωνή σε κείμενο) με τις τεχνολογίες επεξεργασίας γραπτού λόγου

7 Διαχείριση Περιεχομένου   Γιατί χρησιμοποιείται κυρίως η γλώσσα επειδή η γλώσσα είναι ένα λειτουργικό σύστημα που βασίζεται σε αυτο-ρυθμιζόμενες μονάδες, δηλ. έκτυπα που χωρίζονται μεταξύ τους από κενά   Τεχνικές διαχείρισης περιεχομένου μετατροπή όλων των μέσων περιεχομένου σε κείμενο ισχυρή απαίτηση ευρωστίας για τις τεχνολογίες μετατροπής (π.χ. αναγνώριση φωνής, εικόνας, κλπ) αλλά κυρίως για τις τεχνολογίες επεξεργασίας γραπτού λόγου

8 Ανάκτηση – Εξαγωγή Πληροφορίας Διαχείριση περιεχομένου μέσω κειμένου διαχείριση σε επίπεδο εγγράφου έγγραφα και μονάδες τους, π.χ. παράγραφοι ανάκτηση πληροφορίας ΕΡΩΤΗΣΗΑνάκτηση ΕΓΓΡΑΦΩΝ διαχείριση σε επίπεδο περιεχομένου προτάσεις και σχέσεις τους μέσα στα έγγραφα εξαγωγή πληροφορίας Προκαθορισμένο ΠΛΑΙΣΙΟΕξαγωγή ΠΛΗΡΟΦΟΡΙΑΣ από ΕΓΓΡΑΦΑ

9 Εξόρυξη πληροφορίας αριθμητικά δεδομένακειμενικά δεδομένα εξαγωγή κανόνων που συσχετίζουν τα δεδομένα με σκοπό την μετατροπή των δεδομένων σε γνώση βάση οικονομικών δεδομένων βάση πελατών βάση ιατρικών δεδομένων κλπ. κειμενικές βάσεις δεδομένων για ένα θεματικό πεδίο π.χ. εξαγωγή του κανόνα Το φάρμακο Α χρησιμοποιείται για την ασθένεια Β.

10 Περιεχόμενα   Διαχείριση Περιεχομένου  Γλωσσική Τεχνολογία στην Ανάκτηση Πληροφορίας  Εξαγωγή Πληροφορίας  Πολυγλωσσική Εξαγωγή Πληροφορίας

11 Ανάκτηση Πληροφορίας με γλωσσική τεχνολογία τυπικές διαδικασίες:  αναγνώριση δομής κειμένου (text structure)  τίτλοι, κεφάλαια, παράγραφοι, κλπ.  λεκτική ανάλυση (tokenisation)  αναγνώριση λέξεων, προτάσεων (ιδιαίτερες δυσκολίες κυρίως όταν δεν ακολουθείται κάποια γραμματική στίξης)  κανονικοποίηση μορφής  αποκοπή καταλήξεων/μορφολογική ανάλυση/λημματοποίηση  δεικτοδότηση

12 Κανονικοποίηση μορφής  ο στόχος είναι να ‘υπολογίσουμε’ (κανονικοποιήσουμε) μορφογραφημικά παρόμοιες λέξεις  μορφολογία (“μορφή” των λέξεων)  κλιτική μορφολογία (inflectional morphology)  παραγωγική μορφολογία (derivational morphology)  λημματοποίηση (lemmatisation)  αποκοπή καταλήξεων (stemming)  συγχώνευση όρων (term conflation)

13 Δεικτοδότηση (με γλωσσική τεχνολογία)  δεικτοδότηση όρωνεξαγωγή όρων από (term indexing)κείμενα  δεικτοδότηση με θησαυρούςκατασκευή θησαυρών (thesaurus indexing)από κείμενα  δεικτοδότηση ονομάτων αναγνώριση και (name indexing)κατηγοριοποίηση ονοματικών οντοτήτων  κατηγοριοποίηση κειμένωναπόδοση θεματικής (text classification)κατηγορίας,(κλειστή ή ανοιχτή λίστα)  κατασκευή περίληψηςεξαγωγή σημαντικών (text summarisation)προτάσεων από κείμενα

14 Δεικτοδότηση και Ανάλυση Περιεχομένου  αναγνώριση συναναφορών (coreference) σε κείμενα  συναναφορά αντωνυμιών(pronouns) και οριστικών ονοματικών φράσεων(definite noun phrases)  απαιτείται συντακτική, σημασιολογική και πραγματολογική ανάλυση για συνολική επίλυση των φαινομένων συναναφοράς  Διαγραμματικά δεικτ/ηση όρων δεικτ/ηση ονομάτων επίλυση συναναφορών ευφυής δεικτοδότηση

15 Περιεχόμενα   Διαχείριση Περιεχομένου  Γλωσσική Τεχνολογία στην Ανάκτηση Πληροφορίας  Εξαγωγή Πληροφορίας  Πολυγλωσσική Εξαγωγή Πληροφορίας

16 Παράδειγμα Εξαγωγής Πληροφορίας Εξαγωγή Πληροφορίας ΠΡΟΚΑΘΟΡΙΣΜΕΝΟ ΠΛΑΙΣΙΟ ΓΕΓΟΝΟΤΩΝ : ΠΛΗΡΟΦΟΡΙΑ ΑΠΟ ΕΓΓΡΑΦΑ := ORGANISATION : ‘Venture capital Corp.’ LOCATION : ‘Νέα Υόρκη’ MONEY : ‘$100.000’ TYPE : ‘χρηματοδότηση νέας τεχνολογίας’ PERCENT: ‘60%-40%’...

17 Στάδια Εξαγωγής Πληροφορίας Κατασκευή Πλαισίου Λίστες ονομάτων Λεκτική ΑνάλυσηΜορφοσυντακτικός σχολιασμός Λημματοποίηση-Κανονικοποίηση Αναγνώριση Ονομάτων Συντακτική Ανάλυση Ανάλυση βάσει σεναρίου Επίλυση συναναφορών Συμπερασμός Λεξικό Γραμματικοί κανόνες Κανόνες σεναρίου Μοντέλο Πεδίου Κανόνες συμπερασμού Κειμένο Εισόδου Πλαίσιο Λεκτικός Αναλυτής Μορφοσυντακτικός σχολιαστής & Λημματοποιητής Αναγνωριστής ονομάτων Συντακτικός και σημασιολογικός επεξεργαστής Διερμηνευτής Λόγου Κανόνες ονομάτων

18 Ονοματικές Οντότητες σε ελληνικά κείμενα (2)

19 Ανάκτηση και Εξαγωγή πληροφορίας Σύστημα Εξαγωγής Πληροφορίας Ανάκτηση και φιλτράρισμα πληροφορίας ΔΙΑΔΙΚΤΥΟ Βάση δεδομένων

20 Ανάκτηση και Εξαγωγή πληροφορίας ΔΙΑΔΙΚΤΥΟ Σύστημα ΕΠ 1 ΒΔ 1 Σύστημα ΕΠ 2 ΒΔ 2 Σύστημα ΕΠ 3 ΒΔ N Ταξινόμηση και δρομολόγηση πληροφορίας

21 Περιεχόμενα   Διαχείριση Περιεχομένου  Γλωσσική Τεχνολογία στην Ανάκτηση Πληροφορίας  Εξαγωγή Πληροφορίας  Πολυγλωσσική Εξαγωγή Πληροφορίας

22 Κατανομή περιεχομένου στο διαδίκτυο ανά γλώσσα

23 Πολυγλωσσική Εξαγωγή Πληροφοριών πολλές φορές η αναζητούμενη πληροφορία βρίσκεται σε κείμενα διαφορετικών γλωσσών Δύο δυνατότητες χειρισμού της πολυγλωσσίας στην εξαγωγή πληροφορίας:   μονογλωσσικό σύστημα ΕΠ εξάγει πληροφορία σε διαφορετικές γλώσσες μονογλωσσικό σύστημα ΕΠ : γλώσσα κειμένου και γλώσσα πλαισίου είναι ίδιες γλώσσα πλαισίου : η γλώσσα στην οποία συμπληρώνονται οι τιμές του πλαισίου   διαγλωσσικό σύστημα εξαγωγής πληροφορίας διαγλωσσικό σύστημα ΕΠ : γλώσσα κειμένου και γλώσσα πλαισίου διαφορετικές

24 Προσεγγίσεις στη διαγλωσσική εξαγωγή πληροφορίας σύστημα αυτόματης μετάφρασης μεταφράζει το κείμενο και ένα μονογλωσσικό σύστημα ΕΠ εξάγει πληροφορία από το μετάφρασμα πλαίσιο στη γλώσσα στόχο κείμενο πηγή κείμενο στόχος Μηχανική Μετάφραση Εξαγωγή Πληροφορίας μονογλωσσικό σύστημα ΕΠ εξάγει πληροφορία από το κείμενο πηγή και σύστημα μετάφρασης μεταφράζει την πληροφορία του πλαισίου πλαίσιο στη γλώσσα στόχο κείμενο πηγή πλαίσιο στη γλώσσα πηγή Εξαγωγή Πληροφορίας Μηχανική Μετάφραση μονογλωσσικοί επεξεργαστές αντιστοιχίζουν το κείμενο σε γλωσσικά ανεξάρτητο μοντέλο λόγου κείμενο πηγή πλαίσιο στη γλώσσα στόχο διερμηνευτής περιεχομένου λόγου αναπαράσταση περιεχομένου ανεξάρτητη γλώσσας


Κατέβασμα ppt "Ανάκτηση και Εξαγωγή Πληροφορίας από Πολυμεσικές και Πολυγλωσσικές Βάσεις Δεδομένων Στέλιος Πιπερίδης Ινστιτούτο Επεξεργασίας Λόγου"

Παρόμοιες παρουσιάσεις


Διαφημίσεις Google