1 ΨΗΦΙΑΚΕΣ ΒΙΒΛΙΟΘΗΚΕΣ ΨΗΦΙΑΚΕΣ ΒΙΒΛΙΟΘΗΚΕΣ Διδάσκων: Καθηγητής Σαράντος Καπιδάκης Εργασία: Εργασία: Αυτοματοποιημένη κατηγοριοποίηση κειμένου σε πολυγλωσσικό περιβάλλον Ψηφιακής Βιβλιοθήκης Αυτοματοποιημένη κατηγοριοποίηση κειμένου σε πολυγλωσσικό περιβάλλον Ψηφιακής Βιβλιοθήκης The PEKING project The PEKING project Γεράσιμος Τουρκογιάννης Γεράσιμος Τουρκογιάννης
2 Θεματική Ενότητα : Αυτόματη Ταξινόμηση και Ευρετηρίαση
3 ECDL2003-Session 3b Norway Automatic classification and indexing
4 Άρθρα και παρουσιάσεις από το Συνέδριο Cross-Lingual Text Categorization. Nuria Bel, Cornelis H.A.Koster and Marta Villegas Cross-Lingual Text Categorization. Nuria Bel, Cornelis H.A.Koster and Marta Villegas Automatic multi-label subject indexing in a multilingual environment. Boris Lauser and Andreas Hotho Automatic multi-label subject indexing in a multilingual environment. Boris Lauser and Andreas Hotho
5 Automatic classification and indexing Αυτοματοποιημένη κατηγοριοποίηση Αυτοματοποιημένη κατηγοριοποίηση κειμένου σε πολυγλωσσικό περιβάλλον Ψηφιακής Βιβλιοθήκης. κειμένου σε πολυγλωσσικό περιβάλλον Ψηφιακής Βιβλιοθήκης. Automated Text Categorization (ATC) Automated Text Categorization (ATC)
6 Περιεχόμενα Παρουσίασης Ορισμοί Ορισμοί Εφαρμογή Εφαρμογή Αρχιτεκτονική Αρχιτεκτονική Τρέχουσες εφαρμογές Τρέχουσες εφαρμογές Σχόλια - Παρατηρήσεις – ερωτήσεις Σχόλια - Παρατηρήσεις – ερωτήσεις Συμπεράσματα Συμπεράσματα
7 σχηματικό πλαίσιο εννοιών ευρετηρίαση—ταξινόμηση ευρετηρίαση—ταξινόμηση (κατηγοριοποίηση με γλωσσική ανάλυση κειμένων) αναζήτηση πληροφορίας αναζήτηση πληροφορίας ανάκτηση ανάκτηση ακρίβεια και ανάκληση ακρίβεια και ανάκληση
8 Σχηματική παράσταση διεργασιών
9 Αυτοματοποιημένη κατηγοριοποίηση κειμένου σε πολυγλωσσικό περιβάλλον Ψηφιακής Βιβλιοθήκης Τι είναι; η αυτόματη ευρετηρίαση είναι η απλή προέλευση των λέξεων κλειδιών από ένα κείμενο και η παροχή πρόσβασης σε όλες εκείνες τις λέξεις. η αυτόματη ευρετηρίαση είναι η απλή προέλευση των λέξεων κλειδιών από ένα κείμενο και η παροχή πρόσβασης σε όλες εκείνες τις λέξεις. τα πιο σύνθετα αυτόματα συστήματα ευρετηρίασης προσπαθούν να επιλέξουν τους ελεγχόμενους όρους λεξιλογίου (θησαυρός) βασισμένους στους όρους του κειμένου. τα πιο σύνθετα αυτόματα συστήματα ευρετηρίασης προσπαθούν να επιλέξουν τους ελεγχόμενους όρους λεξιλογίου (θησαυρός) βασισμένους στους όρους του κειμένου.
10 Αυτοματοποιημένη κατηγοριοποίηση κειμένου σε πολυγλωσσικό περιβάλλον Ψηφιακής Βιβλιοθήκης Τι είναι; Η αυτόματη ταξινόμηση προσπαθεί να ομαδοποιήσει αυτόματα παρόμοια κείμενα χρησιμοποιώντας είτε : Η αυτόματη ταξινόμηση προσπαθεί να ομαδοποιήσει αυτόματα παρόμοια κείμενα χρησιμοποιώντας είτε : 1. μια πλήρως αυτόματη μέθοδο clustering 2. ένα καθιερωμένο σχήμα ταξινόμησης και ένα σύνολο κειμένων που είναι ήδη ευρετηριασμένα από το σχήμα
11 Αυτοματοποιημένη κατηγοριοποίηση κειμένου σε πολυγλωσσικό περιβάλλον Ψηφιακής Βιβλιοθήκης Τι είναι; η αυτοματοποιημένη κατηγοριοποίηση κειμένων είναι η διαδικασία της δημιουργίας εργαλείων λογισμικού ικανών να ταξινομούν τα κείμενα ή τα υπερκείμενα (hypertexts) κάτω από προκαθορισμένες κατηγορίες ή θεματικούς κώδικες η αυτοματοποιημένη κατηγοριοποίηση κειμένων είναι η διαδικασία της δημιουργίας εργαλείων λογισμικού ικανών να ταξινομούν τα κείμενα ή τα υπερκείμενα (hypertexts) κάτω από προκαθορισμένες κατηγορίες ή θεματικούς κώδικες Clustering είναι η διαδικασία της ομαδοποίησης κειμένων βασισμένων στην ομοιότητα των λέξεων ή των εννοιών των τεκμηρίων όπως ερμηνεύεται από μια αναλυτική μηχανή. Αυτές οι μηχανές χρησιμοποιούν σύνθετους αλγορίθμους όπως Επεξεργασία Φυσικής Γλώσσας (Natural Language Processing), Latent Semantic Analysis, Bayesian statistical analysis και άλλους. Clustering είναι η διαδικασία της ομαδοποίησης κειμένων βασισμένων στην ομοιότητα των λέξεων ή των εννοιών των τεκμηρίων όπως ερμηνεύεται από μια αναλυτική μηχανή. Αυτές οι μηχανές χρησιμοποιούν σύνθετους αλγορίθμους όπως Επεξεργασία Φυσικής Γλώσσας (Natural Language Processing), Latent Semantic Analysis, Bayesian statistical analysis και άλλους.
12 Αυτοματοποιημένη κατηγοριοποίηση κειμένου σε πολυγλωσσικό περιβάλλον Ψηφιακής Βιβλιοθήκης Γιατί; Αντιμετωπίζοντας την υπερπληροφόρηση με την κατηγοριοποίηση κειμένων Αντιμετωπίζοντας την υπερπληροφόρηση με την κατηγοριοποίηση κειμένωνΕίτε Δημιουργώντας υψηλής ποιότητας εργαλεία για αναζήτηση σε μια μη δομημένη βάση τεκμηρίων π.χ. Web. Αυτή είναι η συνήθης απάντηση από την αναζήτηση ενός κειμένου μέσω crawler Δημιουργώντας υψηλής ποιότητας εργαλεία για αναζήτηση σε μια μη δομημένη βάση τεκμηρίων π.χ. Web. Αυτή είναι η συνήθης απάντηση από την αναζήτηση ενός κειμένου μέσω crawlerΕίτε Δημιουργώντας υψηλής ποιότητας εργαλεία για τη δόμηση μιας βάσης τεκμηρίων σε μια Ψηφιακή Βιβλιοθήκη. Αυτή είναι η απάντηση από την αυτοματοποιημένη κατηγοριοποίηση κειμένου (ATC) Δημιουργώντας υψηλής ποιότητας εργαλεία για τη δόμηση μιας βάσης τεκμηρίων σε μια Ψηφιακή Βιβλιοθήκη. Αυτή είναι η απάντηση από την αυτοματοποιημένη κατηγοριοποίηση κειμένου (ATC)
13 Αυτοματοποιημένη κατηγοριοποίηση κειμένου σε πολυγλωσσικό περιβάλλον Ψηφιακής Βιβλιοθήκης Πώς; Με τρέχουσες εφαρμογές π.χ.: PEKING project Ακρωνύμιο του PEople and Knowledge Cross-Lingual INformation Gathering
14 επεξεργασία εγγράφου
15 Γλωσσολογική Διαχείριση Γνώσης
16 PEKING (1/6) Γενικά Είναι ένα σύστημα, πρόγραμμα, έργο Ψηφιακής Βιβλιοθήκης Είναι ένα σύστημα, πρόγραμμα, έργο Ψηφιακής Βιβλιοθήκης Μια πρωτοβουλία (Initiative) στην Ε.Ε. Μια πρωτοβουλία (Initiative) στην Ε.Ε. Συνεργάτες από Ισπανία, Ιταλία και Ολλανδία σε τομείς όπως: Συνεργάτες από Ισπανία, Ιταλία και Ολλανδία σε τομείς όπως: κέντρα τεκμηρίωσης κέντρα τεκμηρίωσης διαχείρισης πληροφοριών διαχείρισης πληροφοριών προμηθευτές τεχνολογίας προμηθευτές τεχνολογίας Γλωσσική Διαχείριση Γνώσης (KM) Γλωσσική Διαχείριση Γνώσης (KM) 1. Γλωσσική Κατηγοριοποίηση κειμένου (Document Management) 1. Γλωσσική Κατηγοριοποίηση κειμένου (Document Management) 2. Διαγλωσσική επεξεργασία 2. Διαγλωσσική επεξεργασία 3. Σιωπηρή γνώση χρηστών (Tacit Knowledge) 3. Σιωπηρή γνώση χρηστών (Tacit Knowledge) 4. Πλατφόρμα ανάπτυξης για διαγλωσσική συλλογή πληροφοριών και διαχείριση γνώσης 4. Πλατφόρμα ανάπτυξης για διαγλωσσική συλλογή πληροφοριών και διαχείριση γνώσης
17 PEKING (2/6) Σκοπός: Διαγλωσσική Ανάκτηση Πληροφοριών Διαγλωσσική Ανάκτηση Πληροφοριών Cross-Lingual Information Retrieval (CLIR) Cross-Lingual Information Retrieval (CLIR)
18 PEKING (3/6) Διαγλωσσική Κατηγοριοποίηση Κειμένων Διαγλωσσική Κατηγοριοποίηση Κειμένων Cross-Lingual Text Categorization (CLTC) Cross-Lingual Text Categorization (CLTC) με 3 πολιτικές μετάφρασης: με 3 πολιτικές μετάφρασης: 1. Μετάφραση εγγράφου 2. Μετάφραση ορολογίας 3. Μετάφραση κατ’ επιλογή με 2 πρακτικές μοντέλων: με 2 πρακτικές μοντέλων: 1. Πολύγλωσση εκπαίδευση μηχανής 2. Διαγλωσσική εκπαίδευση μηχανής
19 PEKING (4/6) Ένας ταξινομητής (classifier) είναι εκπαιδευμένος να ταξινομεί έγγραφα σε πολλές γλώσσες Ένας ταξινομητής (classifier) είναι εκπαιδευμένος να ταξινομεί έγγραφα σε πολλές γλώσσες LCS (Linguistic Classification System) μηχανή ταξινόμησης LCS (Linguistic Classification System) μηχανή ταξινόμησης “Πολύ-ταξινόμηση” έναντι “μονό-ταξινόμησης” “Πολύ-ταξινόμηση” έναντι “μονό-ταξινόμησης” Με τη βοήθεια 2 αλγόριθμων των Winnow και Rocchio Με τη βοήθεια 2 αλγόριθμων των Winnow και Rocchio
20 LCS (Linguistic Classification System) μηχανή ταξινόμησης LCS (Linguistic Classification System) μηχανή ταξινόμησης Another example: the infamous noun phrase 'the Hillary Clinton health care bill proposal', resulting (with some effort) in the HM frame [[proposal, [bill, [care, health]]], [Clinton, Hillary]] which (omitting the single heads) will be unnested to the set of HM pairs [ "proposal", "bill" ] [ "bill", "care" ] [ "care", "health" ] [ "proposal", "Clinton" ] [ "Clinton", "Hillary" ]
21 PEKING (5/6) ΕΦΑΡΜΟΓΗ σε ποιο υλικό; ILO corpus : ILO corpus : International Labor Organization (Σώμα κειμένων του Διεθνούς Οργανισμού Εργασίας) 2165 έγγραφα στην αγγλική και 2165 έγγραφα στην αγγλική και 1590 έγγραφα στην ισπανική γλώσσα 1590 έγγραφα στην ισπανική γλώσσα Επισκόπηση ILO Επισκόπηση ILO
22 12 κατηγορίες ταξινόμησης (μια για κάθε έγγραφο)
23 PEKING (6/6) Επεξεργασία φυσικής γλώσσας (NLP) στο κείμενο-πηγή που χαρακτηρίζεται γραμματικώς και λημματοποιείται, πώς; Μορφολογική ανάλυση (τύπος του όρου, ρήμα κλπ) Μορφολογική ανάλυση (τύπος του όρου, ρήμα κλπ) Λεξική ανάλυση (τι μέρος του λόγου, γραμματικός χαρακτηριστής - tagger) Λεξική ανάλυση (τι μέρος του λόγου, γραμματικός χαρακτηριστής - tagger) Συντακτική ανάλυση Συντακτική ανάλυση Φρασεολογική ανάλυση Φρασεολογική ανάλυση Σημασιολογική ανάλυση Σημασιολογική ανάλυση Πραγματολογική ανάλυση Πραγματολογική ανάλυση
24 Αυτόματη Κατηγοριοποίηση Κειμένου (ATC) Επεξεργασία με τις ακόλουθες τεχνολογίες: Γλωσσολογικές μέθοδοι για Γλωσσολογικές μέθοδοι για Ακρίβεια στην Ανάκτηση Πληροφοριών (IR) και στην Εξαγωγή Πληροφορίας (Information Extraction) Υπολογιστική γλωσσολογία (Computational Linguistics) Υπολογιστική γλωσσολογία (Computational Linguistics) Μηχανική Μετάφραση (Machine Translation) Μηχανική Μετάφραση (Machine Translation) Γλωσσική Τεχνολογία (Language Technology) Γλωσσική Τεχνολογία (Language Technology) Ικανότητα μηχανών για εκμάθηση (Machine Learning Methods) Ικανότητα μηχανών για εκμάθηση (Machine Learning Methods) Διαδικασία λέξεων διανύσματος (word vector processing) Διαδικασία λέξεων διανύσματος (word vector processing)
25 Από το ελληνικό έργο «Σχηματοποίηση» γλωσσικός έλεγχος
26 Λεξική ανάλυση (tokens)
27 Γραμματικός και συντακτικός χαρακτηρισμός κειμένου
28 Από το έργο «Έλλογον»
29 Δενδρική γλωσσολογική ανάλυση πρότασης
30 Σχηματική γλωσσολογική ανάλυση
FAO of the UN Library and Documentation Systems Division ECDL 2003 Trondheim August 2003 Automatic Text Categorization Word Vector Representation The rice production… …India…farmers grow …water irrigation… produce rice flour and… new production lines… Document The Rice Produc India Farmer Grow Water Irrigation Flour And New Line Word Vector Word stemming Introduction Automatic Indexing Evaluation Outlook Discussion
FAO of the UN Library and Documentation Systems Division ECDL 2003 Trondheim August 2003 Automatic Text Categorization Class c Class ĉ Document word vectors Maximum Margin Hyperplane Binary Support Vector Machines Introduction Automatic Indexing Evaluation Outlook Discussion
FAO of the UN Library and Documentation Systems Division ECDL 2003 Trondheim August 2003 Automatic Text Categorization Word Vector Processing The Rice Produc India Farmer Grow Water Irrigation Flour And New Line Word Vector Rice Produc India Farmer Grow Water Irrigation Flour Line Word Vector Rice Produc 2323 Word Vector PruningStopwords Introduction Automatic Indexing Evaluation Outlook Discussion
FAO of the UN Library and Documentation Systems Division ECDL 2003 Trondheim August 2003 Automatic Text Categorization Integration of Background Knowledge Word vector with ontology integration Rice Produc 2323 Rice Produc Rice Cereals Rice flour Concepts! Add Other strategies: Replace Only (document is represented only by its concepts language independent!) Parameter Maximum Integration Depth: 1 Integration strategy Introduction Automatic Indexing Evaluation Outlook Discussion
35 Ευρωπαϊκά έργα στην Γλωσσική Τεχνολογία (1/2)
36 Ευρωπαϊκά έργα στην Γλωσσική Τεχνολογία (2/2) τεχνολογίες φωνής, επεξεργασίας κειμένου και ΔΓ στην παγκόσμια αγορά
37 Ελληνικοί οργανισμοί που συμμετέχουν στην Γλωσσική Τεχνολογία με έργα Ινστιτούτο Επεξεργασία του Λόγου (οικΟΝΟΜίΑ, METIS, UNL, EuroMAT) Ινστιτούτο Επεξεργασία του Λόγου (οικΟΝΟΜίΑ, METIS, UNL, EuroMAT) Γενική Γραμματεία Έρευνας και Τεχνολογίας Γενική Γραμματεία Έρευνας και Τεχνολογίας ΕΚΕΦΕ «Δημόκριτος» (Σχηματοποίηση, Ellogon, ΜΙΤΟΣ, Greek Information Extraction GUI) ΕΚΕΦΕ «Δημόκριτος» (Σχηματοποίηση, Ellogon, ΜΙΤΟΣ, Greek Information Extraction GUI)
38 Γλωσσική Τεχνολογία με Ελληνικές εφαρμογές : ελληνικό εστιακό σημείο
39 Το παράδειγμα του Εργαστηρίου Τεχνολογίας γνώσεων και λογισμικού (SKEL) Δημόκριτος
40 Ελληνική εμπορική ιδιωτική πρωτοβουλία intarget
41 Webliography karlsruhe.de/WBS/aho/pub/lauserhothoecdl03.pdf karlsruhe.de/WBS/aho/pub/lauserhothoecdl03.pdf karlsruhe.de/WBS/aho/pub/lauserhothoecdl03.pdf karlsruhe.de/WBS/aho/pub/lauserhothoecdl03.pdf
42 Ευχαριστίες στον καθηγητή Kees Koster
43 σας ευχαριστώ!
44 Προβληματισμοί-συζήτηση Αποτελεί απειλή για τον επιστήμονα της πληροφόρησης ο αυτόματος ταξινομητής / ευρετηριαστής ενός συστήματος; Αποτελεί απειλή για τον επιστήμονα της πληροφόρησης ο αυτόματος ταξινομητής / ευρετηριαστής ενός συστήματος; Στην κοινωνία της πληροφόρησης που όλα αλλάζουν το προσωπικό και τα εργαλεία των βιβλιοθηκών προσαρμόζονται σε νέες διαγλωσσικές τεχνολογίες; Στην κοινωνία της πληροφόρησης που όλα αλλάζουν το προσωπικό και τα εργαλεία των βιβλιοθηκών προσαρμόζονται σε νέες διαγλωσσικές τεχνολογίες; Στο πολυγλωσσικό περιβάλλον της Ε.Ε. η ελληνική γλώσσα θα παραμείνει ανεπηρέαστη στη διαχείριση / ανταλλαγή της γνώσης; Στο πολυγλωσσικό περιβάλλον της Ε.Ε. η ελληνική γλώσσα θα παραμείνει ανεπηρέαστη στη διαχείριση / ανταλλαγή της γνώσης;
45 Τελικά το χάσμα μεταξύ των γλωσσών θα γεφυρωθεί;Τελικά το χάσμα μεταξύ των γλωσσών θα γεφυρωθεί;