Η παρουσίαση φορτώνεται. Παρακαλείστε να περιμένετε

Η παρουσίαση φορτώνεται. Παρακαλείστε να περιμένετε

Ανάκτηση και Εξαγωγή Πληροφορίας από Πολυμεσικές και Πολυγλωσσικές

Παρόμοιες παρουσιάσεις


Παρουσίαση με θέμα: "Ανάκτηση και Εξαγωγή Πληροφορίας από Πολυμεσικές και Πολυγλωσσικές"— Μεταγράφημα παρουσίασης:

1 Ανάκτηση και Εξαγωγή Πληροφορίας από Πολυμεσικές και Πολυγλωσσικές
Βάσεις Δεδομένων Στέλιος Πιπερίδης Ινστιτούτο Επεξεργασίας Λόγου

2 Περιεχόμενα Διαχείριση Περιεχομένου
Γλωσσική Τεχνολογία στην Ανάκτηση Πληροφορίας Εξαγωγή Πληροφορίας Πολυγλωσσική Εξαγωγή Πληροφορίας

3 ... Where is the Life we have lost in living? Where is the wisdom we have lost in knowledge? Where is the knowledge we have lost in information? -- T.S. Eliot, 1934, “The Rock”, I:14-16

4 Ιεραρχία ; ... Γνώση ….. Knowledge Πληροφορία Information Data
Δεδομένα

5 Ιεραρχία Πληροφορίας ... Γνώση πληροφορία που έχουμε αντιληφθεί (ανάγνωση[κείμενο] / ακοή[φωνή] / όραση[εικόνα, κίνηση]) και ‘κατανοήσει’ Πληροφορία δεδομένα οργανωμένα και παρουσιασμένα με συγκεκριμένο τρόπο Δεδομένα ανεπεξέργαστο υλικό

6 Ανάκτηση πολυμεσικών πληροφοριών
κείμενο, φωνή, εικόνες δρουν συνεργατικά για τη δημιουργία και μεταφορά πληροφορίας και γνώσης η επεξεργασία πολυμεσικών πληροφοριών φαίνεται ότι είναι το σκηνικό στο οποίο θα λειτουργούμε στο μέλλον, τη στιγμή που αναπαριστά ότι είναι πλησιέστερο σε πραγματικά σενάρια επικοινωνίας (φυσικοί διάλογοι άνθρωπος-με-άνθρωπο/ άνθρωπος-με-μηχανή, αλληλοδραστική/ψηφιακή τηλεόραση, κλπ) η επεξεργασία πολυμεσικών δεδομένων απαιτεί τη συνεργασία τεχνολογιών μετατροπής μέσου σε μέσο (π.χ. φωνή σε κείμενο) με τις τεχνολογίες επεξεργασίας γραπτού λόγου

7 Διαχείριση Περιεχομένου
Γιατί χρησιμοποιείται κυρίως η γλώσσα επειδή η γλώσσα είναι ένα λειτουργικό σύστημα που βασίζεται σε αυτο-ρυθμιζόμενες μονάδες, δηλ. έκτυπα που χωρίζονται μεταξύ τους από κενά Τεχνικές διαχείρισης περιεχομένου μετατροπή όλων των μέσων περιεχομένου σε κείμενο ισχυρή απαίτηση ευρωστίας για τις τεχνολογίες μετατροπής (π.χ. αναγνώριση φωνής, εικόνας, κλπ) αλλά κυρίως για τις τεχνολογίες επεξεργασίας γραπτού λόγου

8 Ανάκτηση – Εξαγωγή Πληροφορίας
Διαχείριση περιεχομένου μέσω κειμένου διαχείριση σε επίπεδο εγγράφου έγγραφα και μονάδες τους, π.χ. παράγραφοι ανάκτηση πληροφορίας ΕΡΩΤΗΣΗ Ανάκτηση ΕΓΓΡΑΦΩΝ διαχείριση σε επίπεδο περιεχομένου προτάσεις και σχέσεις τους μέσα στα έγγραφα εξαγωγή πληροφορίας Προκαθορισμένο ΠΛΑΙΣΙΟ Εξαγωγή ΠΛΗΡΟΦΟΡΙΑΣ από ΕΓΓΡΑΦΑ

9 Εξόρυξη πληροφορίας αριθμητικά δεδομένα κειμενικά δεδομένα
εξαγωγή κανόνων που συσχετίζουν τα δεδομένα με σκοπό την μετατροπή των δεδομένων σε γνώση βάση οικονομικών δεδομένων βάση πελατών βάση ιατρικών δεδομένων κλπ. κειμενικές βάσεις δεδομένων για ένα θεματικό πεδίο π.χ. εξαγωγή του κανόνα Το φάρμακο Α χρησιμοποιείται για την ασθένεια Β.

10 Περιεχόμενα Διαχείριση Περιεχομένου
Γλωσσική Τεχνολογία στην Ανάκτηση Πληροφορίας Εξαγωγή Πληροφορίας Πολυγλωσσική Εξαγωγή Πληροφορίας

11 Ανάκτηση Πληροφορίας με γλωσσική τεχνολογία
τυπικές διαδικασίες: αναγνώριση δομής κειμένου (text structure) τίτλοι, κεφάλαια, παράγραφοι, κλπ. λεκτική ανάλυση (tokenisation) αναγνώριση λέξεων, προτάσεων (ιδιαίτερες δυσκολίες κυρίως όταν δεν ακολουθείται κάποια γραμματική στίξης) κανονικοποίηση μορφής αποκοπή καταλήξεων/μορφολογική ανάλυση/λημματοποίηση δεικτοδότηση

12 Κανονικοποίηση μορφής
ο στόχος είναι να ‘υπολογίσουμε’ (κανονικοποιήσουμε) μορφογραφημικά παρόμοιες λέξεις μορφολογία (“μορφή” των λέξεων) κλιτική μορφολογία (inflectional morphology) παραγωγική μορφολογία (derivational morphology) λημματοποίηση (lemmatisation) αποκοπή καταλήξεων (stemming) συγχώνευση όρων (term conflation)

13 Δεικτοδότηση (με γλωσσική τεχνολογία)
δεικτοδότηση όρων εξαγωγή όρων από (term indexing) κείμενα δεικτοδότηση με θησαυρούς κατασκευή θησαυρών (thesaurus indexing) από κείμενα δεικτοδότηση ονομάτων αναγνώριση και (name indexing) κατηγοριοποίηση ονοματικών οντοτήτων κατηγοριοποίηση κειμένων απόδοση θεματικής (text classification) κατηγορίας,(κλειστή ή ανοιχτή λίστα) κατασκευή περίληψης εξαγωγή σημαντικών (text summarisation) προτάσεων από κείμενα

14 Δεικτοδότηση και Ανάλυση Περιεχομένου
αναγνώριση συναναφορών (coreference) σε κείμενα συναναφορά αντωνυμιών(pronouns) και οριστικών ονοματικών φράσεων(definite noun phrases) απαιτείται συντακτική, σημασιολογική και πραγματολογική ανάλυση για συνολική επίλυση των φαινομένων συναναφοράς Διαγραμματικά δεικτ/ηση όρων δεικτ/ηση ονομάτων επίλυση συναναφορών ευφυής δεικτοδότηση

15 Περιεχόμενα Διαχείριση Περιεχομένου
Γλωσσική Τεχνολογία στην Ανάκτηση Πληροφορίας Εξαγωγή Πληροφορίας Πολυγλωσσική Εξαγωγή Πληροφορίας

16 Παράδειγμα Εξαγωγής Πληροφορίας
Εξαγωγή Πληροφορίας ΠΡΟΚΑΘΟΡΙΣΜΕΝΟ ΠΛΑΙΣΙΟ ΓΕΓΟΝΟΤΩΝ : <organisation, location, money, type, percent…> ΠΛΗΡΟΦΟΡΙΑ ΑΠΟ ΕΓΓΡΑΦΑ <EVENT-01>:= ORGANISATION : ‘Venture capital Corp.’ LOCATION : ‘Νέα Υόρκη’ MONEY : ‘$ ’ TYPE : ‘χρηματοδότηση νέας τεχνολογίας’ PERCENT: ‘60%-40%’ ...

17 Στάδια Εξαγωγής Πληροφορίας
Κειμένο Εισόδου Λεκτικός Αναλυτής Λεκτική Ανάλυση Λεξικό Μορφοσυντακτικός σχολιασμός Μορφοσυντακτικός σχολιαστής & Λημματοποιητής Κανόνες Λημματοποίηση-Κανονικοποίηση Λίστες ονομάτων Αναγνωριστής ονομάτων Αναγνώριση Ονομάτων Κανόνες ονομάτων Συντακτική Ανάλυση Γραμματικοί κανόνες Συντακτικός και σημασιολογικός επεξεργαστής Ανάλυση βάσει σεναρίου Κανόνες σεναρίου Επίλυση συναναφορών Διερμηνευτής Λόγου Μοντέλο Πεδίου Συμπερασμός Κανόνες συμπερασμού Πλαίσιο Κατασκευή Πλαισίου

18 Ονοματικές Οντότητες σε ελληνικά κείμενα (2)

19 Ανάκτηση και φιλτράρισμα πληροφορίας Σύστημα Εξαγωγής Πληροφορίας
Ανάκτηση και Εξαγωγή πληροφορίας ΔΙΑΔΙΚΤΥΟ Ανάκτηση και φιλτράρισμα πληροφορίας Βάση δεδομένων Σύστημα Εξαγωγής Πληροφορίας

20 Ταξινόμηση και δρομολόγηση πληροφορίας
Ανάκτηση και Εξαγωγή πληροφορίας ΒΔ 1 Σύστημα ΕΠ 1 ΔΙΑΔΙΚΤΥΟ ΒΔ 2 Σύστημα ΕΠ 2 Ταξινόμηση και δρομολόγηση πληροφορίας ΒΔ N Σύστημα ΕΠ 3

21 Περιεχόμενα Διαχείριση Περιεχομένου
Γλωσσική Τεχνολογία στην Ανάκτηση Πληροφορίας Εξαγωγή Πληροφορίας Πολυγλωσσική Εξαγωγή Πληροφορίας

22 Κατανομή περιεχομένου στο διαδίκτυο ανά γλώσσα

23 Πολυγλωσσική Εξαγωγή Πληροφοριών
πολλές φορές η αναζητούμενη πληροφορία βρίσκεται σε κείμενα διαφορετικών γλωσσών Δύο δυνατότητες χειρισμού της πολυγλωσσίας στην εξαγωγή πληροφορίας: μονογλωσσικό σύστημα ΕΠ εξάγει πληροφορία σε διαφορετικές γλώσσες μονογλωσσικό σύστημα ΕΠ : γλώσσα κειμένου και γλώσσα πλαισίου είναι ίδιες γλώσσα πλαισίου : η γλώσσα στην οποία συμπληρώνονται οι τιμές του πλαισίου διαγλωσσικό σύστημα εξαγωγής πληροφορίας διαγλωσσικό σύστημα ΕΠ : γλώσσα κειμένου και γλώσσα πλαισίου διαφορετικές

24 αναπαράσταση περιεχομένου ανεξάρτητη γλώσσας
Προσεγγίσεις στη διαγλωσσική εξαγωγή πληροφορίας σύστημα αυτόματης μετάφρασης μεταφράζει το κείμενο και ένα μονογλωσσικό σύστημα ΕΠ εξάγει πληροφορία από το μετάφρασμα Μηχανική Μετάφραση Εξαγωγή Πληροφορίας κείμενο πηγή κείμενο στόχος πλαίσιο στη γλώσσα στόχο μονογλωσσικό σύστημα ΕΠ εξάγει πληροφορία από το κείμενο πηγή και σύστημα μετάφρασης μεταφράζει την πληροφορία του πλαισίου Εξαγωγή Πληροφορίας Μηχανική Μετάφραση κείμενο πηγή πλαίσιο στη γλώσσα πηγή πλαίσιο στη γλώσσα στόχο μονογλωσσικοί επεξεργαστές αντιστοιχίζουν το κείμενο σε γλωσσικά ανεξάρτητο μοντέλο λόγου αναπαράσταση περιεχομένου ανεξάρτητη γλώσσας διερμηνευτής περιεχομένου λόγου κείμενο πηγή πλαίσιο στη γλώσσα στόχο


Κατέβασμα ppt "Ανάκτηση και Εξαγωγή Πληροφορίας από Πολυμεσικές και Πολυγλωσσικές"

Παρόμοιες παρουσιάσεις


Διαφημίσεις Google