Η παρουσίαση φορτώνεται. Παρακαλείστε να περιμένετε

Η παρουσίαση φορτώνεται. Παρακαλείστε να περιμένετε

Πρόσβαση στην πολύγλωσση πληροφορία Παρουσίαση βασισμένη σε δύο παρουσιάσεις του Peter Schäuble (Ελβετία) του Peter Schäuble (Ελβετία) Εργασία στο μάθημα.

Παρόμοιες παρουσιάσεις


Παρουσίαση με θέμα: "Πρόσβαση στην πολύγλωσση πληροφορία Παρουσίαση βασισμένη σε δύο παρουσιάσεις του Peter Schäuble (Ελβετία) του Peter Schäuble (Ελβετία) Εργασία στο μάθημα."— Μεταγράφημα παρουσίασης:

1 Πρόσβαση στην πολύγλωσση πληροφορία Παρουσίαση βασισμένη σε δύο παρουσιάσεις του Peter Schäuble (Ελβετία) του Peter Schäuble (Ελβετία) Εργασία στο μάθημα Ψηφιακές Βιβλιοθήκες Φαίνη Σχορτσανίτη ΑΘΗΝΑ 2006

2 Γιατί η πρόσβαση στην πολύγλωσση πληροφορία είναι σημαντική;  Το Διαδίκτυο 2 θα είναι πολύγλωσσο  Συνεργασία που ξεπερνά τα όρια που βάζει η γλώσσα  Η παγκόσμια αγορά ξεπερνά τα σύνορα  Ο παγκόσμιος ανταγωνισμός ξεπερνά τα όρια που βάζει η γλώσσα.

3 Γιατί η πρόσβαση στην πολύγλωσση πληροφορία είναι δύσκολη;  Ασάφεια  Μονάδες μέτρησης  Λεξικό  Η μετάφραση μηχανής δεν είναι αρκετή από τη μια και πάει πολύ από την άλλη  Επεκτασιμότητα

4 «Η μεγάλη Πρόκληση» Δίνονται :  ένα ερώτημα σε οποιοδήποτε μέσο και οποιαδήποτε γλώσσα,  μια πολύγλωσση πολυμεσική συλλογή η οποία μπορεί να είναι σε οποιοδήποτε μέσο και οποιαδήποτε γλώσσα, επιλέξτε στοιχεία σχετικά με το ερώτημα  προσδιορίστε παρόμοια ή σχεδόν παρόμοια αντικείμενα σε διαφορετικά μέσα ή γλώσσες  παρουσιάστε τα με τρόπο ή σειρά που θεωρείτε ότι είναι χρησιμότερη στον ερωτώντα. American Association for Artificial Intelligence (AAAI) Spring Symposium On Cross-Language Text and Speech Retrieval Stanford University, March 24-26, 1997 David Hull and Douglas Oard, co-chairs

5 1. Εισαγωγή 1.1. Εφαρμογές  Πρόσβαση σε πολύγλωσση πληροφορία μέσα σ’ ένα πολύγλωσσο κράτος, οργανισμό, επιχείρηση, κλπ  Ανάκτηση δίγλωσσης πληροφορίας για χρήστες που διαβάζουν μια δεύτερη γλώσσα (μεγάλο παθητικό λεξιλόγιο) αλλά δεν είναι σε θέση να διατυπώσουν καλά ερωτήματα (μικρό ενεργό λεξιλόγιο)  Μονόγλωσσοι χρήστες μπορούν να ανακτήσουν εικόνες επωφελούμενοι των πολύγλωσσων τίτλων

6 1.2. Ορολογία  Πρόσβαση στην πληροφορία = ανάκτηση πληροφορίας + εξαγωγή πληροφορίας + ξεφύλλισμα πολυμέσων + απεικόνιση απάντησης

7 1. 2. Ορολογία (συνέχεια)  Ανάκτηση πολύγλωσσης πληροφορίας - τεκμήριο: μονόγλωσσο– πολύγλωσσο - συλλογή: μονόγλωσση – πολύγλωσση - γλώσσα τεκμήριου: γνωστή – άγνωστη - γλώσσα τεκμηρίου-ερωτήματος: ίδια –διαφορετική ίδια –διαφορετική - μητρική γλώσσα – γλώσσα τεκμηρίου: ίδια – διαφορετική - αγγλική γλώσσα – άλλες γλώσσες

8 1. 2. Ορολογία (συνέχεια)  Ανάκτηση πληροφορίας από πολυμέσα - τεκμήριο: σε ένα μέσο – σε πολλά μέσα - συλλογή: σε ένα μέσο – σε πολλά μέσα - μέσα σε ένα τεκμήριο: γνωστά – άγνωστα - μέσο ερωτήματος - μέσο τεκμηρίου: ίδιο – διαφορετικό - τεκμήριο: κείμενο – όχι κείμενο

9 1. 4. Τα προβλήματα  Ασαφείς όροι (π.χ. η λέξη performance)  Φράσεις με πολλές λέξεις μπορεί να αντιστοιχούν σε μονολεκτικές φράσεις (πχ South Africa=> Südafrica  Λεξικογραφική κάλυψη  Δεν υπάρχει δυνατότητα ένα προς ένα απεικόνισης ανάμεσα σε δύο γλώσσες  Η αυτόματη μετάφραση των ερωτημάτων (απουσία σύνταξης)  Η αυτόματη μετάφραση των τεκμηρίων (απόδοση ….)

10 1.4. Ιστορία της πολύγλωσσης ανάκτησης πληροφορίας  1970 ο Σάλτον τρέχει πειράματα ανάκτησης με ένα μικρό αγγλο-γερμανικό λεξικό  1978 πρότυπο ISO 5964 την ανάπτυξη πολύγλωσσων θησαυρών (αναθεωρήθηκε το 1985)  1990 Ευρετηρίαση κρυμμένης σημασίας (Latent Semantic Indexing LSI) εφαρμόστηκε σε διαγλωσσική ανάκτηση πληροφορίας  1994 πρώτη διδακτορική διατριβή στη διαγλωσσική ανάκτηση πληροφορίας από τον Khaled Radwan

11 1.4. Ιστορία της πολύγλωσσης ανάκτησης πληροφορίας (συνέχεια )  1996 εφαρμογή θησαυρού ομοιότητας σε διαγλωσσική ανάκτηση πληροφορίας (ΕΤΗ Ζυρίχη)  1996 διαγλωσσική ανάκτηση πληροφορίας βασισμένη σε λεξικό (Umass και XEROX Grenoble)  1997 Γενικευμένο Μοντέλο Διανυσματικού Χώρου με εφαρμογή σε διαγλωσσική ανάκτηση (CMU)  1997 Kαθιερώνεται διαγλωσσική ανάκτηση πληροφορίας στο TREC

12  1998 Ξεκινά το NTCIR στην Ιαπωνία  1999 Ξεκινά στις ΕΠ το TIDES (διαγλωσσική ανίχνευση πληροφορίας, εξαγωγή και σύνοψη)  2000 ξεκινά στην Ευρώπη το CLEF 1.4. Ιστορία της πολύγλωσσης ανάκτησης πληροφορίας (συνέχεια)

13 Ευρετηρίαση πολύγλωσσων συλλογών τεκμηρίων  Λίστες πολύ συνηθισμένων λέξεων (stop words)  Κατάργηση κεφαλαίων, αφαίρεση σημείων στίξης  Προσδιορισμός γλώσσας  Κανονικοποίηση των χαρακτηριστικών ευρετηρίασης  Προσδιορισμός των μερών του λόγου  Ευρετηρίαση φράσεων  Επεξεργασία κειμένου που περιέχει διαφορετικά αλφάβητα

14 ΕρώτημαΤεκμήριο Krebse bekämpfen mit Gift Empoisonner des écrevisses Da der Rote Sumpfkrebs mit Raubfischen bekämpft werden kann, ist diese Massnahme dem Giftreinsatz gegen Sumpfkrebse vorsuziehen L’ écrevisse rouge des marais pouvant être combattue par l’ introduction de poissons prédateurs, il y a lieu de substituer cette mesure à l’ empoisonnement projeté rot sumpf krebs raub fisch kaempf massnahm gift einsetz sumpf krebs vorzieh écrevisse rouge marais pouvant combattue introduction poissons prédateur lieu substituer mesure empoisonner proje Krebs kaempf gift empoisonner écrevisse Ευρετηρίαση

15 Προσεγγίσεις στη διαγλωσσική ανάκτηση πληροφορίας Διαγλωσσική ανάκτηση πληροφορίας Μετάφρασηερωτήματος ΜετάφρασητεκμηρίουΜετάφραση ερωτήματος & τεκμηρίου Ελεύθεροκείμενο ΜετάφρασημηχανήςΒασισμένη σε λεξικό Διανυσματικόςχώρος Ελεγχόμενολεξιλόγιο ευρετηρίασηκρυμμένωνεννοιών Βασισμένη σε σώμα Ανατροφοδότησηψευτοσυνάφειας Θησαυρόςομοιότητας Γενικευμένο μοντέλο διανυσματικού χώρου άνθρωπος μηχανή

16 Διαγλωσσική ανάκτηση πληροφορίας βασισμένη σε μετάφραση ερωτήματος Ερώτημα σε α» γλώσσα Μετάφραση Ερώτημα σε «β» γλώσσα Μονόγλωσσο σύστημα ανάκτησης στη γλώσσα «β» Ανάκτηση τεκμήριων στη γλώσσα «β»

17 Μετάφραση μηχανής  Με ταχείς ρυθμούς προχωρά η πρόσληψη ειδικευμένου προσωπικού στις κτηνιατρικές διευθύνσεις, ως πρόσθετο μέτρο για την πρόληψη της γρίπης των πτηνών. Προωθείται μάλιστα σχετική νομοθετική ρύθμιση· αυστηροί έλεγχοι σε όλες τις πύλες εισόδου της χώρας.  With rapid rythms [prochora] the engagement of specialised personnel in the veterinary addresses, as additional metre for the prevention of flu of birds. Is promoted in deed relative legislative regulation· strict controls in the all gates of entry of country.  http://trans.otenet.gr/systran/

18 Ανατροφοδότηση ψευτοσυνάφειας Γλώσσα «α» Γλώσσα «β»

19 Αποσαφήνιση όρου ερωτήματος Όροςερωτήματος q1q1q1q1 Λεξικό q 11, q 12,...q 1j, …. q 1k Μονογλωσσική αναζήτηση σε παράλληλο/συγκρίσιμο σώμα Πιθανέςμεταφράσεις Κείμενα που ανακτήθηκαν D1D1D1D1 ανακτήθηκαν D 11 Κείμενα που ανακτήθηκαν D 1j Κείμενα που ανακτήθηκαν D 1k Ο καλύτερος συνδυασμός

20 Παραγωγή μικτών παρατεταγμένων λιστών τεκμήριων Κανονικοποίηση των βαθμών συνάφειας  με χρήση ευθυγραμμισμένων τεκμηρίων  με χρήση παρατάξεων  με διαστρωμάτωση σύμφωνα με δεδομένες αναλογίες Χαρτογράφηση των κειμένων μέσα στον ίδιο χώρο  ευρετηρίαση κρυμμένων εννοιών  μεταφράσεις των κειμένων


Κατέβασμα ppt "Πρόσβαση στην πολύγλωσση πληροφορία Παρουσίαση βασισμένη σε δύο παρουσιάσεις του Peter Schäuble (Ελβετία) του Peter Schäuble (Ελβετία) Εργασία στο μάθημα."

Παρόμοιες παρουσιάσεις


Διαφημίσεις Google