1 ΨΗΦΙΑΚΕΣ ΒΙΒΛΙΟΘΗΚΕΣ ΨΗΦΙΑΚΕΣ ΒΙΒΛΙΟΘΗΚΕΣ Διδάσκων: Καθηγητής Σαράντος Καπιδάκης Εργασία: Εργασία: Αυτοματοποιημένη κατηγοριοποίηση κειμένου σε πολυγλωσσικό.

Slides:



Advertisements
Παρόμοιες παρουσιάσεις
Ερωτηματολόγιο Συλλογής Απαιτήσεων Εφαρμογών Υψηλών Επιδόσεων
Advertisements

Πρωτογενής έρευνα Hi5, μία μόδα για νέους;. Μεθοδολογία - εργαλεία Η έρευνα διενεργήθηκε με την μέθοδο της συλλογής ερωτηματολογίων, τα οποία και συμπληρώνονταν.
Πέτσας Δημήτριος Παρουσίαση στο μάθημα: Ψηφιακές Βιβλιοθήκες
Γ ΛΩΣΣΙΚΟΙ Π ΟΡΟΙ & Τ ΕΧΝΟΛΟΓΙΕΣ : Η ΣΗΜΕΡΙΝΗ ΕΛΛΗΝΙΚΗ ΠΡΑΓΜΑΤΙΚΟΤΗΤΑ Πένυ Λαμπροπούλου Ινστιτούτο Επεξεργασίας Λόγου / Ε.Κ. "Αθηνά" Ημερίδα παρουσίασης.
Τεχνολογίες ανάκτησης και εξαγωγής δεδομένων με γλωσσική υποστήριξη - Εφαρμογές στο e-government και e-business - Εφαρμογές στο e-government και e-business.
Κίνητρα & Στόχοι εργασίας
 Παρουσιάζοντας πολιτισμικό υλικό στα σχολεία
Ανάκτηση και Εξαγωγή Πληροφορίας από Πολυμεσικές και Πολυγλωσσικές
Μετρήσεις στη γλώσσα και ανάλυση του λόγου Γ. Μικρός, Γ. Ταμπουρατζής, Σ. Μαρκαντωνάτου ΙΝΣΤΙΤΟΥΤΟ ΕΠΕΞΕΡΓΑΣΙΑΣ ΤΟΥ ΛΟΓΟΥ INSTITUTE FOR LANGUAGE & SPEECH.
ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ Τεχνικές NLP – Σχεδιαστικά Θέματα.
ΟΡΟΛΟΓΙΑ Στην ΚτΠ: Χρησιμότητα στον Δημόσιο Τομέα ή Η σημασία της γνώσης των όρων για αποτελεσματική πρόσβαση στην πληροφορία Γ. Καραγιάννης Καθηγητής.
Σύστημα ηλεκτρονικής δημοσίευσης DiVA Μάθημα: «Ηλεκτρονική Δημοσίευση» Χαρίκλεια Μπρίντεζη.
ΗΥ-566 Διαχείρηση Γνώσης στο Διαδίκτυο1 SWRC Ontology Κτιστάκης Γιώργος Μπούτσικα Κατερίνα Παπαδάκης Μύρων.
Λανθάνουσα Σημασιολογική Ανάλυση (Latent Semantic Analysis)
ΝΕΟ ΑΝΑΛΥΤΙΚΟ ΠΡΟΓΡΑΜΜΑ Α’, Β’, & Γ’ ΓΥΜΝΑΣΙΟΥ ΟΜΑΔΑ ΕΡΓΑΣΙΑΣ Ανδρέας Σ. Ανδρέου (Αναπλ. Καθηγητής ΤΕΠΑΚ - Συντονιστής) Μάριος Μιλτιάδου, Μιχάλης Τορτούρης.
Ανάλυση του λευκού φωτός και χρώματα
© GfK 2012 | Title of presentation | DD. Month
-17 Προσδοκίες οικονομικής ανάπτυξης στην Ευρώπη Σεπτέμβριος 2013 Δείκτης > +20 Δείκτης 0 a +20 Δείκτης 0 a -20 Δείκτης < -20 Σύνολο στην Ευρωπαϊκή Ένωση:
+21 Προσδοκίες οικονομικής ανάπτυξης στην Ευρώπη Δεκέμβριος 2013 Δείκτης > +20 Δείκτης 0 να +20 Δείκτης 0 να -20 Δείκτης < -20 Σύνολο στην Ευρωπαϊκή Ένωση:
Μηχανική Μάθηση και Εξόρυξη Γνώσης
Η μηχανική μάθηση στην αντιμετώπιση της Υπερπληροφόρησης
Ανάκτηση & Εξαγωγή Πληροφορίας στο Διαδίκτυο Γιώργος Παλιούρας Εργαστήριο Τεχνολογίας Γνώσεων & Λογισμικού Ινστιτούτο Πληροφορικής & Τηλεπικοινωνιών Ε.Κ.Ε.Φ.Ε.
Αναγνώριση Προτύπων.
Κεφάλαιο 2ο Πεπερασμένα αυτόματα.
Αποκεντρωμένη Διοίκηση Μακεδονίας Θράκης ∆ιαχείριση έργων επίβλεψης µε σύγχρονα µέσα και επικοινωνία C2G, B2G, G2G Γενική Δ/νση Εσωτερικής Λειτουργίας.
Η επιρροή του χώρου εργασίας των σχολικών τάξεων στη μάθηση
1/5/ ΧΡΗΣΕΙΣ ΤΗΣ ΗΛΙΑΚΗΣ ΑΝΤΙΝΟΒΟΛΙΑΣ 1/5/ (πηγή: HELIOAKMI).
Βαρόμετρο ΕΒΕΘ Μάρτιος “Η καθιέρωση ενός αξιόπιστου εργαλείου καταγραφής του οικονομικού, επιχειρηματικού και κοινωνικού γίγνεσθαι του Νομού Θεσσαλονίκης”
13ο Πανελλήνιο Συνέδριο Ακαδημαϊκών Βιβλιοθηκών – Κέρκυρα Οκτωβρίου 2004 Το σύστημα COINE για την προβολή της πολιτιστικής κληρονομιάς και την υποστήριξη.
Ιόνιο Πανεπιστήμιο Τμήμα Αρχειονομίας & Βιβλιοθηκονομίας Μεταπτυχιακό Πρόγραμμα Σπουδών στην Επιστήμη της Πληροφορίας: Διοίκηση & Οργάνωση Βιβλιοθηκών.
+14 Σεπτέμβριο 2014 Δείκτης > +20 Δείκτης 0 να +20 Δείκτης 0 να -20 Δείκτης < -20 Συνολικά της ΕΕ: +1 Δείκτης > +20 Δείκτης 0 να +20 Δείκτης 0 να -20 Δείκτης.
Ψηφιακή Βιβλιοθήκη ΤΕΕ
Μάθημα 2 ο : Βασικές έννοιες 1 Ακαδημαϊκό Έτος
Λάζαρος Πολυμενάκος, καθηγητής ΑΙΤ Ηρακλής Καπρίτσας, telia.co.gr
Διαδικτυακή εφαρμογή ανάλυσης και επεξεργασίας δεδομένων κυβερνητικών διαβουλεύσεωνgov.insight Η. Ζαβιτσάνος, Γ. Γιαννακόπουλος, Γ. Παλιούρας Ινστιτούτο.
1 Α. Βαφειάδης Αναβάθμισης Προγράμματος Σπουδών Τμήματος Πληροφορικής Τ.Ε.Ι Θεσσαλονίκης Μάθημα Προηγμένες Αρχιτεκτονικές Υπολογιστών Κεφαλαίο Τρίτο Συστήματα.
ΕΚΕΦΕ «Δημόκριτος» Ινστιτούτο Πληροφορικής & Τηλεπικοινωνιών Κοινωνία της Πληροφορίας & Τεχνητή Νοημοσύνη Δρ. Κωνσταντίνος Δ. Σπυρόπουλος Δντής Έρευνας.
Οργάνωση πληροφοριών Ευρετηρίαση Μέρος Β Σχεδιασμός ευρετηρίων.
Ανάκτηση Πληροφορίας (Information Retrieval – IR) Πανεπιστήμιο Θεσσαλίας Πολυτεχνική Σχολή Τμήμα Μηχ. Η/Υ, Τηλ/νιών & Δικτύων Ακαδημαϊκό Έτος
Δομές Δεδομένων 1 Στοίβα. Δομές Δεδομένων 2 Στοίβα (stack)  Δομή τύπου LIFO: Last In - First Out (τελευταία εισαγωγή – πρώτη εξαγωγή)  Περιορισμένος.
ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ Προεπεξεργασία Κειμένου.
ΙΟΝΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΤΜΗΜΑ ΑΡΧΕΙΟΝΟΜΙΑΣ –ΒΙΒΛΙΟΘΗΚΟΝΟΜΙΑΣ ΜΕΤΑΠΤΥΧΙΑΚΟ ΠΡΟΓΡΑΜΜΑ ΣΠΟΥΔΩΝ : ΥΠΗΡΕΣΙΕΣ ΠΛΗΡΟΦΟΡΗΣΗΣ ΣΕ ΨΗΦΙΑΚΟ ΠΕΡΙΒΑΛΛΟΝ ΣΗΜΑΣΙΟΛΟΓΙΚΟΣ ΙΣΤΟΣ.
1 Ενότητα 5.3.1: Ερωτηματολόγια με τη χρήση του Διαδικτύου Διδάσκων: Χρήστος Κατσάνος - Πανεπιστημιακό κέντρο εκπαίδευσης επιμορφωτών.
Μοντέλα Συστημάτων Παρουσιάσεις των συστημάτων των οποίων οι απαιτήσεις αναλύονται.
ΘΥΡΑ: ανάπτυξη θεματικής πύλης πληροφόρησης στη Βιβλιοθήκη του Πανεπιστημίου Μακεδονίας με τη χρήση λογισμικού ανοικτού κώδικα Γ’ ΚΠΣ / ΕΠΕΑΕΚ ΙΙ / ΕΝΕΡΓΕΙΑ.
1 Τμήμα Μηχανικών Ηλεκτρονικών Υπολογιστών και Πληροφορικής Πανεπιστήμιο Πατρών ΟΝΤΟΚΕΝΤΡΙΚΟΣ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟΣ ΙΙ (C++) Κληρονομικότητα.
Πρόγραμμα Μεταπτυχιακών Σπουδών στην Επιστήμη της Πληροφορίας με τίτλο «Διοίκηση και Οργάνωση Βιβλιοθηκών με έμφαση στις Νέες Τεχνολογίες της Πληροφορίας»
E X a M p L e Αξιοποιώντας την τεχνολογία XML στη διαχείριση της πληροφορίας Λίνα Μπουντούρη Εθνικό Κέντρο Τεκμηρίωσης 13ο Πανελλήνιο Συνέδριο Ακαδημαϊκών.
ΙΟΝΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ ΣΤΗΝ ΕΠΙΣΤΗΜΗ ΤΗΣ ΠΛΗΡΟΦΟΡΗΣΗΣ Διοίκηση και Οργάνωση Βιβλιοθηκών με έμφαση στις Νέες Τεχνολογίες της.
Αυτόματη Ανάλυση & Οργάνωση Μουσικών Αρχείων Διδάσκων Καθηγητής: Καπιδάκης Σαράντος Σπουδαστής: Σιδέρης Νίκος Αθήνα2008.
ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ Information Extraction.
ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ Γεώργιος Πετάσης Ακαδημαϊκό Έτος: 2012 – 2013 ΤMHMA MHXANIKΩΝ Η/Υ & ΠΛΗΡΟΦΟΡΙΚΗΣ, Πανεπιστήμιο Πατρών, 2012 – 2013 Μάθημα 1 ο : Εισαγωγή.
ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ Μάθημα 1ο Εισαγωγή στη Γλωσσική Τεχνολογία
Residency Database Residency Database Project IFMSA Transnational project Από τηv Ελληνική Επιτροπή Διεθνών Σχέσεων και Ανταλλαγών Φοιτητών Ιατρικής (HelMSIC)
Μετατροπή Μουσικών Συλλογών σε Ψηφιακές Βιβλιοθήκες Το Πρόγραμμα MUSESCAPE Ιόνιο Πανεπιστήμιο Ιανουάριος 2005 Χριστιανούδης Ιωάννης.
EContent Στέλιος Πιπερίδης Εθνικός Εκπρόσωπος eContent
Μάθημα 1ο: Εισαγωγή στη Γλωσσική Τεχνολογία
Διαχείριση Ψηφιακών Πνευματικών Δικαιωμάτων Ηλεκτρονική Δημοσίευση Στέλλα Λάμπουρα Ιούνιος 2004.
ΠΜΣ ΕΡΓΑΣΙΑ ΣΤΟ ΜΑΘΗΜΑ ΨΗΦΙΑΚΕΣ ΒΙΒΛΙΟΘΗΚΕΣ The Digital Library and Computational Philology: The BAMBI Project Γόντικα Ειρήνη.
Υπουργείο Εθνικής Παιδείας και Θρησκευμάτων Γενικά Αρχεία του Κράτους Ιστορικό Αρχείο Μακεδονίας.
1 ΙΟΝΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ TΜΗΜΑ ΑΡΧΕΙΟΝΟΜΙΑΣ ΒΙΒΛΙΟΘΗΚΟΝΟΜΙΑΣ «Επιστήμη της Πληροφορίας – Διοίκηση και Οργάνωση Βιβλιοθηκών με έμφαση στις Νέες Τεχνολογίες.
+19 Δεκέμβριος 2014 Δείκτης > +20 Δείκτης 0 έως +20 Δείκτης 0 έως -20 Δείκτης < -20 Συνολικά της ΕΕ: +5 Δείκτης > +20 Δείκτης 0 έως +20 Δείκτης 0 έως -20.
Αξιολόγηση του Σημασιολογικού Ιστού και Κοινωνικές Τεχνολογίες για Ψηφιακές Βιβλιοθήκες ΕΠΙΒΛΕΠΩΝ ΚΑΘΗΓΗΤΗΣ: ΣΑΡΑΝΤΟΣ ΚΑΠΙΔΑΚΗΣ ΠΑΡΟΥΣΙΑΣΗ: ΕΜΕΛΗ ΧΑΤΖΗΧΡΗΣΤΟΥ.
ΡΑΛΛΕΙΑ ΣΧΟΛΕΙΑ: 155 ΧΡΟΝΙΑ ΙΣΤΟΡΙΑΣ ΚΑΙ ΠΡΟΣΦΟΡΑΣ.
IΟΝΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ ΣΤΗΝ ΕΠΙΣΤΗΜΗ ΤΗΣ ΠΛΗΡΟΦΟΡΙΑΣ: «ΔΙΟΙΚΗΣΗ & ΟΡΓΑΝΩΣΗ ΒΙΒΛΙΟΘΗΚΩΝ ΜΕ ΕΜΦΑΣΗ ΣΤΙΣ ΝΕΕΣ ΤΕΧΝΟΛΟΓΙΕΣ ΤΗΣ.
Οργάνωση πληροφοριών Ταξινόμηση (Θ) Ενότητα 4: Αρχιτεκτονική της Ευρετηρίασης (β μέρος) Δάφνη Κυριάκη-Μάνεση Τμήμα Βιβλιοθηκονομίας και Συστημάτων Πληροφόρησης.
Cultural Heritage Language Technologies ΕΡΓΑΣΙΑ ΣΤΟ ΜΑΘΗΜΑ ‘ΨΗΦΙΑΚΕΣ ΒΙΒΛΙΟΘΗΚΕΣ’ ΣΤ΄ Εξάμηνο Υπεύθυνος καθηγητής: Καπιδάκης Σαράντος Λούβαρη Αγγελική.
Ιόνιο Πανεπιστήμιο Τμήμα Αρχειονομίας και Βιβλιοθηκονομίας Πρόγραμμα Μεταπτυχιακών Σπουδών στην Επιστήμη της Πληροφορίας «Διοίκηση & Οργάνωση Βιβλιοθηκών.
Ηλεκτρονική Δημοσίευση The Goddard Library Web Capture Project Χριστιανούδης Ιωάννης Π.Μ.Σ. Κέρκυρας Μάιος 2005.
ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ
Μεταγράφημα παρουσίασης:

1 ΨΗΦΙΑΚΕΣ ΒΙΒΛΙΟΘΗΚΕΣ ΨΗΦΙΑΚΕΣ ΒΙΒΛΙΟΘΗΚΕΣ Διδάσκων: Καθηγητής Σαράντος Καπιδάκης Εργασία: Εργασία: Αυτοματοποιημένη κατηγοριοποίηση κειμένου σε πολυγλωσσικό περιβάλλον Ψηφιακής Βιβλιοθήκης Αυτοματοποιημένη κατηγοριοποίηση κειμένου σε πολυγλωσσικό περιβάλλον Ψηφιακής Βιβλιοθήκης The PEKING project The PEKING project Γεράσιμος Τουρκογιάννης Γεράσιμος Τουρκογιάννης

2 Θεματική Ενότητα : Αυτόματη Ταξινόμηση και Ευρετηρίαση

3 ECDL2003-Session 3b Norway Automatic classification and indexing

4 Άρθρα και παρουσιάσεις από το Συνέδριο Cross-Lingual Text Categorization. Nuria Bel, Cornelis H.A.Koster and Marta Villegas Cross-Lingual Text Categorization. Nuria Bel, Cornelis H.A.Koster and Marta Villegas Automatic multi-label subject indexing in a multilingual environment. Boris Lauser and Andreas Hotho Automatic multi-label subject indexing in a multilingual environment. Boris Lauser and Andreas Hotho

5 Automatic classification and indexing Αυτοματοποιημένη κατηγοριοποίηση Αυτοματοποιημένη κατηγοριοποίηση κειμένου σε πολυγλωσσικό περιβάλλον Ψηφιακής Βιβλιοθήκης. κειμένου σε πολυγλωσσικό περιβάλλον Ψηφιακής Βιβλιοθήκης. Automated Text Categorization (ATC) Automated Text Categorization (ATC)

6 Περιεχόμενα Παρουσίασης Ορισμοί Ορισμοί Εφαρμογή Εφαρμογή Αρχιτεκτονική Αρχιτεκτονική Τρέχουσες εφαρμογές Τρέχουσες εφαρμογές Σχόλια - Παρατηρήσεις – ερωτήσεις Σχόλια - Παρατηρήσεις – ερωτήσεις Συμπεράσματα Συμπεράσματα

7 σχηματικό πλαίσιο εννοιών ευρετηρίαση—ταξινόμηση ευρετηρίαση—ταξινόμηση (κατηγοριοποίηση με γλωσσική ανάλυση κειμένων) αναζήτηση πληροφορίας αναζήτηση πληροφορίας ανάκτηση ανάκτηση ακρίβεια και ανάκληση ακρίβεια και ανάκληση

8 Σχηματική παράσταση διεργασιών

9 Αυτοματοποιημένη κατηγοριοποίηση κειμένου σε πολυγλωσσικό περιβάλλον Ψηφιακής Βιβλιοθήκης Τι είναι; η αυτόματη ευρετηρίαση είναι η απλή προέλευση των λέξεων κλειδιών από ένα κείμενο και η παροχή πρόσβασης σε όλες εκείνες τις λέξεις. η αυτόματη ευρετηρίαση είναι η απλή προέλευση των λέξεων κλειδιών από ένα κείμενο και η παροχή πρόσβασης σε όλες εκείνες τις λέξεις. τα πιο σύνθετα αυτόματα συστήματα ευρετηρίασης προσπαθούν να επιλέξουν τους ελεγχόμενους όρους λεξιλογίου (θησαυρός) βασισμένους στους όρους του κειμένου. τα πιο σύνθετα αυτόματα συστήματα ευρετηρίασης προσπαθούν να επιλέξουν τους ελεγχόμενους όρους λεξιλογίου (θησαυρός) βασισμένους στους όρους του κειμένου.

10 Αυτοματοποιημένη κατηγοριοποίηση κειμένου σε πολυγλωσσικό περιβάλλον Ψηφιακής Βιβλιοθήκης Τι είναι; Η αυτόματη ταξινόμηση προσπαθεί να ομαδοποιήσει αυτόματα παρόμοια κείμενα χρησιμοποιώντας είτε : Η αυτόματη ταξινόμηση προσπαθεί να ομαδοποιήσει αυτόματα παρόμοια κείμενα χρησιμοποιώντας είτε : 1. μια πλήρως αυτόματη μέθοδο clustering 2. ένα καθιερωμένο σχήμα ταξινόμησης και ένα σύνολο κειμένων που είναι ήδη ευρετηριασμένα από το σχήμα

11 Αυτοματοποιημένη κατηγοριοποίηση κειμένου σε πολυγλωσσικό περιβάλλον Ψηφιακής Βιβλιοθήκης Τι είναι; η αυτοματοποιημένη κατηγοριοποίηση κειμένων είναι η διαδικασία της δημιουργίας εργαλείων λογισμικού ικανών να ταξινομούν τα κείμενα ή τα υπερκείμενα (hypertexts) κάτω από προκαθορισμένες κατηγορίες ή θεματικούς κώδικες η αυτοματοποιημένη κατηγοριοποίηση κειμένων είναι η διαδικασία της δημιουργίας εργαλείων λογισμικού ικανών να ταξινομούν τα κείμενα ή τα υπερκείμενα (hypertexts) κάτω από προκαθορισμένες κατηγορίες ή θεματικούς κώδικες Clustering είναι η διαδικασία της ομαδοποίησης κειμένων βασισμένων στην ομοιότητα των λέξεων ή των εννοιών των τεκμηρίων όπως ερμηνεύεται από μια αναλυτική μηχανή. Αυτές οι μηχανές χρησιμοποιούν σύνθετους αλγορίθμους όπως Επεξεργασία Φυσικής Γλώσσας (Natural Language Processing), Latent Semantic Analysis, Bayesian statistical analysis και άλλους. Clustering είναι η διαδικασία της ομαδοποίησης κειμένων βασισμένων στην ομοιότητα των λέξεων ή των εννοιών των τεκμηρίων όπως ερμηνεύεται από μια αναλυτική μηχανή. Αυτές οι μηχανές χρησιμοποιούν σύνθετους αλγορίθμους όπως Επεξεργασία Φυσικής Γλώσσας (Natural Language Processing), Latent Semantic Analysis, Bayesian statistical analysis και άλλους.

12 Αυτοματοποιημένη κατηγοριοποίηση κειμένου σε πολυγλωσσικό περιβάλλον Ψηφιακής Βιβλιοθήκης Γιατί; Αντιμετωπίζοντας την υπερπληροφόρηση με την κατηγοριοποίηση κειμένων Αντιμετωπίζοντας την υπερπληροφόρηση με την κατηγοριοποίηση κειμένωνΕίτε Δημιουργώντας υψηλής ποιότητας εργαλεία για αναζήτηση σε μια μη δομημένη βάση τεκμηρίων π.χ. Web. Αυτή είναι η συνήθης απάντηση από την αναζήτηση ενός κειμένου μέσω crawler Δημιουργώντας υψηλής ποιότητας εργαλεία για αναζήτηση σε μια μη δομημένη βάση τεκμηρίων π.χ. Web. Αυτή είναι η συνήθης απάντηση από την αναζήτηση ενός κειμένου μέσω crawlerΕίτε Δημιουργώντας υψηλής ποιότητας εργαλεία για τη δόμηση μιας βάσης τεκμηρίων σε μια Ψηφιακή Βιβλιοθήκη. Αυτή είναι η απάντηση από την αυτοματοποιημένη κατηγοριοποίηση κειμένου (ATC) Δημιουργώντας υψηλής ποιότητας εργαλεία για τη δόμηση μιας βάσης τεκμηρίων σε μια Ψηφιακή Βιβλιοθήκη. Αυτή είναι η απάντηση από την αυτοματοποιημένη κατηγοριοποίηση κειμένου (ATC)

13 Αυτοματοποιημένη κατηγοριοποίηση κειμένου σε πολυγλωσσικό περιβάλλον Ψηφιακής Βιβλιοθήκης Πώς; Με τρέχουσες εφαρμογές π.χ.: PEKING project Ακρωνύμιο του PEople and Knowledge Cross-Lingual INformation Gathering

14 επεξεργασία εγγράφου

15 Γλωσσολογική Διαχείριση Γνώσης

16 PEKING (1/6) Γενικά Είναι ένα σύστημα, πρόγραμμα, έργο Ψηφιακής Βιβλιοθήκης Είναι ένα σύστημα, πρόγραμμα, έργο Ψηφιακής Βιβλιοθήκης Μια πρωτοβουλία (Initiative) στην Ε.Ε. Μια πρωτοβουλία (Initiative) στην Ε.Ε. Συνεργάτες από Ισπανία, Ιταλία και Ολλανδία σε τομείς όπως: Συνεργάτες από Ισπανία, Ιταλία και Ολλανδία σε τομείς όπως: κέντρα τεκμηρίωσης κέντρα τεκμηρίωσης διαχείρισης πληροφοριών διαχείρισης πληροφοριών προμηθευτές τεχνολογίας προμηθευτές τεχνολογίας Γλωσσική Διαχείριση Γνώσης (KM) Γλωσσική Διαχείριση Γνώσης (KM) 1. Γλωσσική Κατηγοριοποίηση κειμένου (Document Management) 1. Γλωσσική Κατηγοριοποίηση κειμένου (Document Management) 2. Διαγλωσσική επεξεργασία 2. Διαγλωσσική επεξεργασία 3. Σιωπηρή γνώση χρηστών (Tacit Knowledge) 3. Σιωπηρή γνώση χρηστών (Tacit Knowledge) 4. Πλατφόρμα ανάπτυξης για διαγλωσσική συλλογή πληροφοριών και διαχείριση γνώσης 4. Πλατφόρμα ανάπτυξης για διαγλωσσική συλλογή πληροφοριών και διαχείριση γνώσης

17 PEKING (2/6) Σκοπός: Διαγλωσσική Ανάκτηση Πληροφοριών Διαγλωσσική Ανάκτηση Πληροφοριών Cross-Lingual Information Retrieval (CLIR) Cross-Lingual Information Retrieval (CLIR)

18 PEKING (3/6) Διαγλωσσική Κατηγοριοποίηση Κειμένων Διαγλωσσική Κατηγοριοποίηση Κειμένων Cross-Lingual Text Categorization (CLTC) Cross-Lingual Text Categorization (CLTC) με 3 πολιτικές μετάφρασης: με 3 πολιτικές μετάφρασης: 1. Μετάφραση εγγράφου 2. Μετάφραση ορολογίας 3. Μετάφραση κατ’ επιλογή με 2 πρακτικές μοντέλων: με 2 πρακτικές μοντέλων: 1. Πολύγλωσση εκπαίδευση μηχανής 2. Διαγλωσσική εκπαίδευση μηχανής

19 PEKING (4/6) Ένας ταξινομητής (classifier) είναι εκπαιδευμένος να ταξινομεί έγγραφα σε πολλές γλώσσες Ένας ταξινομητής (classifier) είναι εκπαιδευμένος να ταξινομεί έγγραφα σε πολλές γλώσσες LCS (Linguistic Classification System) μηχανή ταξινόμησης LCS (Linguistic Classification System) μηχανή ταξινόμησης “Πολύ-ταξινόμηση” έναντι “μονό-ταξινόμησης” “Πολύ-ταξινόμηση” έναντι “μονό-ταξινόμησης” Με τη βοήθεια 2 αλγόριθμων των Winnow και Rocchio Με τη βοήθεια 2 αλγόριθμων των Winnow και Rocchio

20 LCS (Linguistic Classification System) μηχανή ταξινόμησης LCS (Linguistic Classification System) μηχανή ταξινόμησης Another example: the infamous noun phrase 'the Hillary Clinton health care bill proposal', resulting (with some effort) in the HM frame [[proposal, [bill, [care, health]]], [Clinton, Hillary]] which (omitting the single heads) will be unnested to the set of HM pairs [ "proposal", "bill" ] [ "bill", "care" ] [ "care", "health" ] [ "proposal", "Clinton" ] [ "Clinton", "Hillary" ]

21 PEKING (5/6) ΕΦΑΡΜΟΓΗ σε ποιο υλικό; ILO corpus : ILO corpus : International Labor Organization (Σώμα κειμένων του Διεθνούς Οργανισμού Εργασίας) 2165 έγγραφα στην αγγλική και 2165 έγγραφα στην αγγλική και 1590 έγγραφα στην ισπανική γλώσσα 1590 έγγραφα στην ισπανική γλώσσα Επισκόπηση ILO Επισκόπηση ILO

22 12 κατηγορίες ταξινόμησης (μια για κάθε έγγραφο)

23 PEKING (6/6) Επεξεργασία φυσικής γλώσσας (NLP) στο κείμενο-πηγή που χαρακτηρίζεται γραμματικώς και λημματοποιείται, πώς; Μορφολογική ανάλυση (τύπος του όρου, ρήμα κλπ) Μορφολογική ανάλυση (τύπος του όρου, ρήμα κλπ) Λεξική ανάλυση (τι μέρος του λόγου, γραμματικός χαρακτηριστής - tagger) Λεξική ανάλυση (τι μέρος του λόγου, γραμματικός χαρακτηριστής - tagger) Συντακτική ανάλυση Συντακτική ανάλυση Φρασεολογική ανάλυση Φρασεολογική ανάλυση Σημασιολογική ανάλυση Σημασιολογική ανάλυση Πραγματολογική ανάλυση Πραγματολογική ανάλυση

24 Αυτόματη Κατηγοριοποίηση Κειμένου (ATC) Επεξεργασία με τις ακόλουθες τεχνολογίες: Γλωσσολογικές μέθοδοι για Γλωσσολογικές μέθοδοι για Ακρίβεια στην Ανάκτηση Πληροφοριών (IR) και στην Εξαγωγή Πληροφορίας (Information Extraction) Υπολογιστική γλωσσολογία (Computational Linguistics) Υπολογιστική γλωσσολογία (Computational Linguistics) Μηχανική Μετάφραση (Machine Translation) Μηχανική Μετάφραση (Machine Translation) Γλωσσική Τεχνολογία (Language Technology) Γλωσσική Τεχνολογία (Language Technology) Ικανότητα μηχανών για εκμάθηση (Machine Learning Methods) Ικανότητα μηχανών για εκμάθηση (Machine Learning Methods) Διαδικασία λέξεων διανύσματος (word vector processing) Διαδικασία λέξεων διανύσματος (word vector processing)

25 Από το ελληνικό έργο «Σχηματοποίηση» γλωσσικός έλεγχος

26 Λεξική ανάλυση (tokens)

27 Γραμματικός και συντακτικός χαρακτηρισμός κειμένου

28 Από το έργο «Έλλογον»

29 Δενδρική γλωσσολογική ανάλυση πρότασης

30 Σχηματική γλωσσολογική ανάλυση

FAO of the UN Library and Documentation Systems Division ECDL 2003 Trondheim August 2003 Automatic Text Categorization Word Vector Representation The rice production… …India…farmers grow …water irrigation… produce rice flour and… new production lines… Document The Rice Produc India Farmer Grow Water Irrigation Flour And New Line Word Vector Word stemming Introduction Automatic Indexing Evaluation Outlook Discussion

FAO of the UN Library and Documentation Systems Division ECDL 2003 Trondheim August 2003 Automatic Text Categorization Class c Class ĉ Document word vectors Maximum Margin Hyperplane Binary Support Vector Machines Introduction Automatic Indexing Evaluation Outlook Discussion

FAO of the UN Library and Documentation Systems Division ECDL 2003 Trondheim August 2003 Automatic Text Categorization Word Vector Processing The Rice Produc India Farmer Grow Water Irrigation Flour And New Line Word Vector Rice Produc India Farmer Grow Water Irrigation Flour Line Word Vector Rice Produc 2323 Word Vector PruningStopwords Introduction Automatic Indexing Evaluation Outlook Discussion

FAO of the UN Library and Documentation Systems Division ECDL 2003 Trondheim August 2003 Automatic Text Categorization Integration of Background Knowledge Word vector with ontology integration Rice Produc 2323 Rice Produc Rice Cereals Rice flour Concepts! Add Other strategies: Replace Only (document is represented only by its concepts  language independent!) Parameter Maximum Integration Depth: 1 Integration strategy Introduction Automatic Indexing Evaluation Outlook Discussion

35 Ευρωπαϊκά έργα στην Γλωσσική Τεχνολογία (1/2)

36 Ευρωπαϊκά έργα στην Γλωσσική Τεχνολογία (2/2) τεχνολογίες φωνής, επεξεργασίας κειμένου και ΔΓ στην παγκόσμια αγορά

37 Ελληνικοί οργανισμοί που συμμετέχουν στην Γλωσσική Τεχνολογία με έργα Ινστιτούτο Επεξεργασία του Λόγου (οικΟΝΟΜίΑ, METIS, UNL, EuroMAT) Ινστιτούτο Επεξεργασία του Λόγου (οικΟΝΟΜίΑ, METIS, UNL, EuroMAT) Γενική Γραμματεία Έρευνας και Τεχνολογίας Γενική Γραμματεία Έρευνας και Τεχνολογίας ΕΚΕΦΕ «Δημόκριτος» (Σχηματοποίηση, Ellogon, ΜΙΤΟΣ, Greek Information Extraction GUI) ΕΚΕΦΕ «Δημόκριτος» (Σχηματοποίηση, Ellogon, ΜΙΤΟΣ, Greek Information Extraction GUI)

38 Γλωσσική Τεχνολογία με Ελληνικές εφαρμογές : ελληνικό εστιακό σημείο

39 Το παράδειγμα του Εργαστηρίου Τεχνολογίας γνώσεων και λογισμικού (SKEL) Δημόκριτος

40 Ελληνική εμπορική ιδιωτική πρωτοβουλία intarget

41 Webliography karlsruhe.de/WBS/aho/pub/lauserhothoecdl03.pdf karlsruhe.de/WBS/aho/pub/lauserhothoecdl03.pdf karlsruhe.de/WBS/aho/pub/lauserhothoecdl03.pdf karlsruhe.de/WBS/aho/pub/lauserhothoecdl03.pdf

42 Ευχαριστίες στον καθηγητή Kees Koster

43 σας ευχαριστώ!

44 Προβληματισμοί-συζήτηση Αποτελεί απειλή για τον επιστήμονα της πληροφόρησης ο αυτόματος ταξινομητής / ευρετηριαστής ενός συστήματος; Αποτελεί απειλή για τον επιστήμονα της πληροφόρησης ο αυτόματος ταξινομητής / ευρετηριαστής ενός συστήματος; Στην κοινωνία της πληροφόρησης που όλα αλλάζουν το προσωπικό και τα εργαλεία των βιβλιοθηκών προσαρμόζονται σε νέες διαγλωσσικές τεχνολογίες; Στην κοινωνία της πληροφόρησης που όλα αλλάζουν το προσωπικό και τα εργαλεία των βιβλιοθηκών προσαρμόζονται σε νέες διαγλωσσικές τεχνολογίες; Στο πολυγλωσσικό περιβάλλον της Ε.Ε. η ελληνική γλώσσα θα παραμείνει ανεπηρέαστη στη διαχείριση / ανταλλαγή της γνώσης; Στο πολυγλωσσικό περιβάλλον της Ε.Ε. η ελληνική γλώσσα θα παραμείνει ανεπηρέαστη στη διαχείριση / ανταλλαγή της γνώσης;

45 Τελικά το χάσμα μεταξύ των γλωσσών θα γεφυρωθεί;Τελικά το χάσμα μεταξύ των γλωσσών θα γεφυρωθεί;