ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ Προεπεξεργασία Κειμένου.

Slides:



Advertisements
Παρόμοιες παρουσιάσεις
Μάθημα 3ο Επεξεργασία Κειμένου και Δεικτοδότηση
Advertisements

ΛΟΓΙΣΜΙΚΟ ΔΙΑΧΕΙΡΙΣΗΣ DATA, ΤΟΠΟΘΕΣΙΩΝ ΚΑΙ ΠΟΡΩΝ.
Βασικές έννοιες αλγορίθμων
Κεφάλαιο Τμηματικός προγραμματισμός
Τεχνολογίες ανάκτησης και εξαγωγής δεδομένων με γλωσσική υποστήριξη - Εφαρμογές στο e-government και e-business - Εφαρμογές στο e-government και e-business.
Copyright © 2005 Elsevier Κεφάλαιο 2 :: Σύνταξη των γλωσσών προγραμματισμού Πραγματολογία των Γλωσσών Προγραμματισμού Michael L. Scott.
ΙΝΣΤΙΤΟΥΤΟ ΕΠΕΞΕΡΓΑΣΙΑΣ ΤΟΥ ΛΟΓΟΥ INSTITUTE FOR LANGUAGE & SPEECH PROCESSING Τεχνολογία Ορθογραφικής Διόρθωσης Κειμένων Ν.Γλάρος Δρ. Ηλ/γος Μηχανικός.
ΚΑΘΟΡΙΣΜΟΣ ΚΑΙ ΚΑΤΑΝΟΗΣΗ ΤΟΥ ΠΡΟΒΛΗΜΑΤΟΣ
ΚΕΙΜΕΝΟ  Ο πρώτος τρόπος απεικόνισης πληροφορίας (και βασικός ως σήμερα).  Αδυναμία πρώτων υπολογιστών να χειριστούν άλλη μορφή πληροφορίας.  Πρόβλημα.
ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ Εισαγωγικό Φροντιστήριο.
5η Συνάντηση Εκπαιδευτικών Πληροφορικής στη Δυτική Μακεδονία Πτολεμαΐδα, 29 Σεπτ 2005 Δημιουργία Δυναμικών Ιστοσελίδων με PHP και Dreamweaver MX Στυλιάδης.
BLOGS ΚΑΙ WIKIS Εργαλεία WEB 2.0. Blogs  Το Βlog λέξη είναι η συντομευμένη εκδοχή του weblog.  Blog είναι το είδος της ιστοσελίδας, που συνήθως συντηρείται.
Ανάκτηση και Εξαγωγή Πληροφορίας από Πολυμεσικές και Πολυγλωσσικές
Μετρήσεις στη γλώσσα και ανάλυση του λόγου Γ. Μικρός, Γ. Ταμπουρατζής, Σ. Μαρκαντωνάτου ΙΝΣΤΙΤΟΥΤΟ ΕΠΕΞΕΡΓΑΣΙΑΣ ΤΟΥ ΛΟΓΟΥ INSTITUTE FOR LANGUAGE & SPEECH.
ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ Τεχνικές NLP – Σχεδιαστικά Θέματα.
ΟΡΟΛΟΓΙΑ Στην ΚτΠ: Χρησιμότητα στον Δημόσιο Τομέα ή Η σημασία της γνώσης των όρων για αποτελεσματική πρόσβαση στην πληροφορία Γ. Καραγιάννης Καθηγητής.
Βάσεις Δεδομένων Μάθημα 3.
ΟΙΚΟΝΟΜΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΘΗΝΩΝ Τμήμα Διοικητικής Επιστήμης και Τεχνολογίας Επιβλέπων: Μ. Λύτρας Ομάδα Εργασίας: Αtanasova Monica A.M Αtanasova.
Εισαγωγή στη Βιοπληροφορική
MUltilingual Subtitling of multimediA content
Ανάκτηση Πληροφορίας Το Boolean μοντέλο.
Εφαρμογές Τεχνολογιών Γλωσσικής Επεξεργασίας στα Συστήματα Αναζήτησης των Ελληνικών Ακαδημαϊκών Βιβλιοθηκών Άννα Μάστορα 1, Μανόλης Πεπονάκης 2, Σαράντος.
1 Εισαγωγή στις Βάσεις Δεδομένων  Ανάγκη Αποθήκευσης και Διαχείρισης Δεδομένων  Συστήματα Αρχείων  Συστήματα Βάσεων Δεδομένων  Παραδοσιακές και Σύγχρονες.
Αναγνώριση Προτύπων.
Μάθημα 2 ο : Βασικές έννοιες 1 Ακαδημαϊκό Έτος
Λάζαρος Πολυμενάκος, καθηγητής ΑΙΤ Ηρακλής Καπρίτσας, telia.co.gr
Οργάνωση πληροφοριών Ευρετηρίαση Μέρος Β Σχεδιασμός ευρετηρίων.
ΕΙΣΑΓΩΓΗ ΣΤΑ ΓΕΩΓΡΑΦΙΚΑ ΣΥΣΤΗΜΑΤΑ ΠΛΗΡΟΦΟΡΙΩΝ
1 Εισαγωγή στις Βάσεις Δεδομένων  Ανάγκη Αποθήκευσης και Διαχείρισης Δεδομένων  Συστήματα Αρχείων  Συστήματα Βάσεων Δεδομένων  Παραδοσιακές και Σύγχρονες.
Τμήμα Πληροφορικής Πανεπιστημίου Κύπρου ΕΠΛ 371 – Προγραμματισμός Συστημάτων Ονόματα: Αντώνης Μαυρής, Γιώργος Ματθαίου, Χρίστος Κυριάκου Ταυτότητες: ,
ΙΟΝΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΤΜΗΜΑ ΑΡΧΕΙΟΝΟΜΙΑΣ –ΒΙΒΛΙΟΘΗΚΟΝΟΜΙΑΣ ΜΕΤΑΠΤΥΧΙΑΚΟ ΠΡΟΓΡΑΜΜΑ ΣΠΟΥΔΩΝ : ΥΠΗΡΕΣΙΕΣ ΠΛΗΡΟΦΟΡΗΣΗΣ ΣΕ ΨΗΦΙΑΚΟ ΠΕΡΙΒΑΛΛΟΝ ΣΗΜΑΣΙΟΛΟΓΙΚΟΣ ΙΣΤΟΣ.
Μοντέλα Συστημάτων Παρουσιάσεις των συστημάτων των οποίων οι απαιτήσεις αναλύονται.
ΘΕΜΑΤΙΚΗ ΕΝΟΤΗΤΑ 2: ΘΕΜΑΤΑ ΘΕΩΡΗΤΙΚΗΣ ΕΠΙΣΤΗΜΗΣ Η/Υ
E X a M p L e Αξιοποιώντας την τεχνολογία XML στη διαχείριση της πληροφορίας Λίνα Μπουντούρη Εθνικό Κέντρο Τεκμηρίωσης 13ο Πανελλήνιο Συνέδριο Ακαδημαϊκών.
ΜΑΘΗΜΑ: ΜΕΤΑΓΛΩΤΤΙΣΤΕΣ ΔΙΔΑΣΚΟΝΤΕΣ: Π. ΚΑΤΣΑΡΟΣ Τρίτη, 31 Μαρτίου 2015Τρίτη, 31 Μαρτίου 2015Τρίτη, 31 Μαρτίου 2015Τρίτη, 31 Μαρτίου 2015Τμ. Πληροφορικής,
Γλωσσική Τεχνολογία Εισαγωγικό Φροντιστήριο. Project του μαθήματος  Εργασία 2 ατόμων  Προφορική εξέταση για :  Project (80%)  Θεωρία (20%)  Στο φροντιστήριο.
ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ Information Extraction.
Δομές Δεδομένων. Επιλογή δομής δεδομένων Κριτήρια: – Μέγεθος του προβλήματος – Πως θα χρησιμοποιηθεί Ενέργειες που καθορίζουν το κόστος: – Lookup: αναζήτηση/έλεγχος.
ΜΑΘΗΜΑ: ΜΕΤΑΓΛΩΤΤΙΣΤΕΣ ΔΙΔΑΣΚΟΝΤΕΣ: Π. ΚΑΤΣΑΡΟΣ Τετάρτη, 1 Απριλίου 2015Τετάρτη, 1 Απριλίου 2015Τετάρτη, 1 Απριλίου 2015Τετάρτη, 1 Απριλίου 2015Τμ. Πληροφορικής,
ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ Μάθημα 1ο Εισαγωγή στη Γλωσσική Τεχνολογία
Μάθημα 1ο: Εισαγωγή στη Γλωσσική Τεχνολογία
Ειδική Ημερίδα για Ανάκτηση και Εξαγωγή Πληροφορίας Ειδική Ημερίδα για Ανάκτηση και Εξαγωγή Πληροφορίας Συζήτηση στρογγυλής τραπέζης.
ΕΝΟΤΗΤΑ 2 – Κεφάλαιο 5: To λογισμικό του υπολογιστή
Κλασσικά Μοντέλα Ανάκτησης Πληροφορίας Βασική πηγη το βιβλίο και οι διαφάνειες R. Baeza-Yates, B. Ribeiro-Neto, Modern Information Retrieval, Addison Wesley,
RSS FEEDS Εισαγωγικά θέματα WWW ΠΑΝΤΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΘΗΝΩΝ ΠΜΣ:ΔΥΝΗΤΙΚΕΣ ΚΟΙΝΟΤΗΤΕΣ, ΚΟΙΝΩΝΙΟΨΥΧΟΛΟΓΙΕΣ ΠΡΟΣΕΓΓΙΣΕΙΣ ΚΑΙ ΤΕΧΝΙΚΕΣ ΕΦΑΡΜΟΓΕΣ ΕΞΑΜΗΝΟ: Α΄
ΘΕΜΑΤΙΚΗ ΕΝΟΤΗΤΑ 2: ΘΕΜΑΤΑ ΘΕΩΡΗΤΙΚΗΣ ΕΠΙΣΤΗΜΗΣ Η/Υ
ΜΕΤΑΠΤΥΧΙΑΚΟ ΠΡΟΓΡΑΜΜΑ ΣΠΟΥΔΩΝ ΣΤΗΝ ΕΠΙΣΤΗΜΗ ΤΗΣ ΠΛΗΡΟΦΟΡΙΑΣ ΚΑΤΕΥΘΥΝΣΗ «Υπηρεσίες Πληροφόρησης σε Ψηφιακό Περιβάλλον» ΤΙΤΛΟΣ ΜΑΘΗΜΑΤΟΣ « Ηλεκτρονική Δημοσίευση.
ΜΑΘΗΜΑ: ΜΕΤΑΓΛΩΤΤΙΣΤΕΣ ΔΙΔΑΣΚΟΝΤΕΣ: Κ. ΛΑΖΟΣ - Π. ΚΑΤΣΑΡΟΣ Τρίτη, 14 Απριλίου 2015Τρίτη, 14 Απριλίου 2015Τρίτη, 14 Απριλίου 2015Τρίτη, 14 Απριλίου 2015Τμ.
Γλωσσική Τεχνολογία Μάθημα 8 ο Γλώσσα και Ανάκτηση Πληροφορίας Σοφία Στάμου Άκ.Έτος
Σημασιολογική Ολοκλήρωση Ολοκλήρωση Πληροφορίας Το πρόβλημα της ολοκλήρωσης πληροφορίας (information integration) προκύπτει από την ύπαρξη ετερογενών.
ΨηφιοποίησηΨηφιοποίηση Οι περισσότερες μεταβολές επηρεάζονται από τον Η/Υ. Τα συστήματα μετατρέπονται ώστε να μπορούν να συνδέονται με Υπολογιστές.
ΕΙΣΑΓΩΓΙΚΟ ΦΡΟΝΤΙΣΤΗΡΙΟ Διαχείριση Περιεχομένου Παγκόσμιου Ιστού και Γλωσσικά Εργαλεία.
Βάσεις Δεδομένων ΙΙ Ευαγγελία Πιτουρά 1 Βάσεις Διαδικτύου.
Τμήμα Αρχειονομίας και Βιβλιοθηκονομίας Ιόνιο Πανεπιστήμιο Μεταπτυχιακό Πρόγραμμα στην Επιστήμη της Πληροφορίας Ψηφιακές Βιβλιοθήκες Διδάσκων: Σαράντος.
Εισαγωγή στη Βιοπληροφορική Ενότητα 9: Text Mining Μακρής Χρήστος, Τσακαλίδης Αθανάσιος, Ιωάννου Μαρίνα Πολυτεχνική Σχολή Τμήμα Μηχανικών Η/Υ και Πληροφορικής.
Γλωσσική τεχνολογία και ψηφιακή επιμέλεια Ίων Ανδρουτσόπουλος Τμήμα Πληροφορικής, Οικονομικό Πανεπιστήμιο Αθηνών και Μονάδα Ψηφιακής Επιμέλειας, Ερευνητικό.
Το Σχεσιακό Μοντέλο Βάσεις Δεδομένων Ευαγγελία Πιτουρά.
Μοντελοποίηση υπολογισμού
ΠΑΡΑΛΛΗΛΑ ΚΑΙ ΣΥΓΚΡΙΣΙΜΑ ΣΩΜΑΤΑ ΚΕΙΜΕΝΩΝ
ΔΙΑΔΙΚΤΥΟ, WEB2.0 KAI WEB X Από τον WEB 1.0 στον WEB X.0
Επεξεργασία Κειμένου Διδακτική προσέγγιση των λογισμικών γενικής χρήσης Ζωγραφική Λογιστικά φύλλα Βάσεις δεδομένων.
Web, Web 2.0, Web 3.0 και Web X.0 ΚΕΦΑΛΑΙΟ 9.
Κεφάλαιο 6o. Επίπεδο εφαρμογής
Το Σχεσιακό Μοντέλο Βάσεις Δεδομένων Ευαγγελία Πιτουρά.
Επιστήμη των Υπολογιστών
ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ
Μάθημα 6ο Ανάλυση Κειμένου και Δεικτοδότηση
Διαχείριση πληροφοριών και επικοινωνίες
Το Σχεσιακό Μοντέλο Βάσεις Δεδομένων Ευαγγελία Πιτουρά.
Μάθημα 9ο Επεξεργασία Κειμένου
Μεταγράφημα παρουσίασης:

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ Προεπεξεργασία Κειμένου

Στόχος Επεξεργασίας  Γραπτό κείμενο :  Τρόπος επικοινωνίας  Φέρει σημασιολογικό περιεχόμενο  Αναζητούμε τρόπο να :  Μετρήσουμε το πληροφοριακό περιεχόμενο  Ποσοτικοποιήσουμε το πληροφοριακό περιεχόμενο  Μετρήσουμε την ομοιότητα μεταξύ κειμένων  Χρειάζεται φορμαλιστική αναπαράσταση  Εφαρμογές :  Συστήματα δεικτοδότησης για Ανάκτηση Πληροφορίας  Κατηγοριοποίηση κειμένου  Σχεδόν ο, τιδήποτε έχει να κάνει με αυτόματη επεξεργασία κειμένου...

Βασικές Έννοιες  Όροι  Κάθε κείμενο περιγράφεται από ένα σύνολο από αντιπροσωπευτικές λέξεις κλειδιά που ονομάζονται όροι.  Λεξιλόγιο  Το σύνολο όλων των μοναδικών όρων που υπάρχουν στη συλλογή κειμένων  Αναπαράσταση κειμένου  Η αντιστοίχιση του κειμένου ( αδόμητη πληροφορία ) σε δομημένη αναπαράσταση

Πίνακας όρων - κειμένων  Η ύπαρξη ενός όρου σε ένα κείμενο δημιουργεί μια σχέση μεταξύ τους  Αυτή η σχέση ποσοτικοποιείται από τη συνάρτηση f(i,j), διαφορετική σε κάθε μοντέλο αναπαράστασης  Πόσες f ξέρετε ?  Οι αντιπροσωπευτικοί όροι παρέχουν μια λογική αναπαράσταση του κειμένου. d1d2 term 1 term 2 term 3

Αναπαράσταση Κειμένου  Λογική αναπαράσταση κειμένου  Από το πλήρες κείμενο σε σύνολο αντιπροσωπευτικών όρων

Βασικά σημεία προεπεξεργασίας  Επεξεργασία της δομής  Εξαγωγή του κειμένου με επεξεργασία των μεταδεδομένων και των στοιχείων δομής, αν υπάρχουν  Λεξική ανάλυση  Μετατροπή του κειμένου σε ακολουθία λέξεων  Αφαίρεση των τερματικών όρων (stopwords)  Αφαίρεση των λέξεων που δεν φέρουν σημασιολογικό περιεχόμενο  Κανονικοποίηση των λέξεων  Αναγωγή όλων των μορφολογικών τύπων μιας λέξης σε μια ενιαία αναπαράσταση  Επιλογή των αντιπροσωπευτικών όρων  Κατασκευή της λογικής αναπαράστασης του κειμένου

Επεξεργασία της δομής ιστοσελίδων  Για πλήρη επεξεργασία html δείτε :  Built-in python support “Dive into Python”: Chapter 8. HTML Processing “Dive into Python”  Beautiful Soup package Beautiful Soup package Αφαίρεση του html markup με το NLTK:

Encodings  Για τα encodings που υποστηρίζονται δείτε : 

Λεξική Ανάλυση  Μετατροπή του κειμένου από ακολουθία χαρακτήρων σε ακολουθία δομικών μονάδων.  Οι λέξεις που αναγνωρίζονται είναι υποψήφιες για αντιπροσωπευτικοί όροι του κειμένου.  Απλούστερη μορφή : αναγνώριση των ορίων των δομικών μονάδων στα κενά.  Η λεξική ανάλυση περιλαμβάνει πολλά περισσότερα...

Λεξική Ανάλυση – όχι και τόσο απλή...  4 βασικά θέματα :  Ψηφία  Παύλες  Σημεία στίξης  Κεφαλαία / πεζά  Web-specific  Διευθύνσεις  URLs ...

Λεξική Ανάλυση – Λύσεις  Regular Expressions  NTLK tokenizer

Λεξική Ανάλυση - Επιλογές  Δεν υπάρχει ενιαία λύση που να καλύπτει όλες τις περιπτώσεις. Δεν επιτυγχάνεται 100% απόδοση.  Αποφασίζουμε τι είναι token και τι όχι ανάλογα με το πεδίο εφαρμογής.  Αντιμετωπίζουμε τις περιπτώσεις που συναντάμε συχνότερα στα δεδομένα μας.  Στο NLTK περιλαμβάνεται παράδειγμα του « ιδεατού » tokenization:

Αφαίρεση Τερματικών Όρων  Τερματικοί Όροι (stopwords)  Όροι οι οποίοι δεν φέρουν πληροφορία για το θέμα του κειμένου  Αφαιρούμε :  Συγκεκριμένα μέρη του λόγου  Όρους με υπερβολικά μεγάλη συχνότητα σε όλα τα κείμενα

Αναγνώριση μέρους του λόγου  Χρειάζεται μορφοσυντακτική ανάλυση (Part-Of- Speech Tagging)  Προσοχή : Αν χρησιμοποιηθεί tagger τότε στην είσοδό του δεν πρέπει να έχει αφαιρεθεί τίποτα από το κείμενο ! ( Γιατί ?)

Κανονικοποίηση  Κανονικοποίηση λέξεων : μετατροπή σε τύπους που μπορούν να ομαδοποιηθούν.  Επιλογές :  Αναγωγή στο θέμα πχ : runs, running -> run colder, colds -> cold beginning,begins->begin  Αναγωγή στον πρώτο κλιτικό τύπο πχ : am,was -> be has,had -> have

Κανονικοποίηση - Αποκατάληξη  Stemming ( αποκατάληξη )  Αναγωγή στο θέμα της λέξης  Χρησιμοποιεί σύνολο κανόνων αποκατάληξης

Κανονικοποίηση - Λημματοποίηση  Lemmatization ( λημματοποίηση )  Αναγωγή στον πρώτο κλιτικό τύπο  Χρησιμοποιεί μορφολογικό λεξικό Το πόσο ενημερωμένο είναι επηρεάζει την απόδοση !

Επιλογή αντιπροσωπευτικών όρων  Ποσοτικοποίηση του πόσο σημαντικός είναι ο κάθε όρος  Υπολογισμός βαρών  Επιλογή των πιο σημαντικών (= όρων με τα μεγαλύτερα βάρη )  Προσοχή : Η μέτρηση συχνοτήτων εμφάνισης και ο υπολογισμός της idf είναι bottleneck!

Τελικά  Με τους επιλεγμένους όρους κατασκευάζω τον πίνακα : d1d2 term 1 term 2 term 3  Όπου η f είναι :  Boolean μοντέλο : 0 ή 1  Vector μοντέλο :  Συχνότητα εμφάνισης : απλοϊκή επιλογή  TfIdf: Συχνότητα όρων & αντίστροφη συχνότητα εγγράφου  Πως τον αποθηκεύω ? Πως τον φορτώνω στη μνήμη ?

Εργαλεία – Tree-tagger  Tree-tagger – κλήση από windows  Δέχεται tokenized είσοδο

Εργαλεία - Gposttl tagger  Gposttl tagger – κλήση από linux  Δεν χρειάζεται tokenized είσοδο.

Recommended Reading  “Natural Language Processing with Python”  Chapter 3: Preprocessing Raw Text