ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ Information Extraction.

Slides:



Advertisements
Παρόμοιες παρουσιάσεις
ΛΟΓΙΣΜΙΚΟ ΔΙΑΧΕΙΡΙΣΗΣ DATA, ΤΟΠΟΘΕΣΙΩΝ ΚΑΙ ΠΟΡΩΝ.
Advertisements

Τεχνολογίες Web Απαραίτητες γνώσεις για την υλοποίηση της άσκησης.
Τεχνολογίες ανάκτησης και εξαγωγής δεδομένων με γλωσσική υποστήριξη - Εφαρμογές στο e-government και e-business - Εφαρμογές στο e-government και e-business.
Εισαγωγή στην XML Μάρτιος 2005 Γ. Σ. Σακελλάρης Τ. Α. Κοντογιώργης
Ινστιτούτο Επεξεργασίας του Λόγου Βέλτιστες Πρακτικές στη Γλωσσική Τεχνολογία Βέλτιστες Πρακτικές στη Γλωσσική Τεχνολογία Εβδομάδα Επιστήμης & Τεχνολογίας.
ΚΕΙΜΕΝΟ  Ο πρώτος τρόπος απεικόνισης πληροφορίας (και βασικός ως σήμερα).  Αδυναμία πρώτων υπολογιστών να χειριστούν άλλη μορφή πληροφορίας.  Πρόβλημα.
ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ Εισαγωγικό Φροντιστήριο.
Να περιγράψετε τους 2 τρόπους οργάνωσης Ιστοσελίδων
Η γλώσσα μορφοποίησης υπερκειμένου HTML
Λεξικά όρων και θησαυροί Μαρία Γαβριηλίδου ΙΝΣΤΙΤΟΥΤΟ ΕΠΕΞΕΡΓΑΣΙΑΣ ΤΟΥ ΛΟΓΟΥ INSTITUTE FOR LANGUAGE & SPEECH PROCESSING.
ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ
Ανάκτηση και Εξαγωγή Πληροφορίας από Πολυμεσικές και Πολυγλωσσικές
Γιάννης Ιωαννίδης Πανεπιστήμιο Αθηνών Διαχείριση Δεδομένων: Τα Επόμενα Βήματα.
Η γλώσσα XHTML Επιμέλεια: Νικάκη Θεοδώρα Μάθημα: Εισαγωγικά θέματα WWW 2007.
Ο ΣΗΜΑΣΙΟΛΟΓΙΚΟΣ ΙΣΤΟΣ ΠΑΝΤΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΤΜΗΜΑ ΨΥΧΟΛΟΓΙΑΣ ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ Δυνητικές Κοινότητες: Κοινωνιοψυχολογικές Προσεγγίσεις και.
ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ Τεχνικές NLP – Σχεδιαστικά Θέματα.
ΟΡΟΛΟΓΙΑ Στην ΚτΠ: Χρησιμότητα στον Δημόσιο Τομέα ή Η σημασία της γνώσης των όρων για αποτελεσματική πρόσβαση στην πληροφορία Γ. Καραγιάννης Καθηγητής.
Εισαγωγή στους Αλγορίθμους
ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ WordNet.
Βάσεις Δεδομένων 1 T.Manavis– N.Kyritsis.
Χαράλαμπος Ευτ. Τσουρακάκης
Resource Description Framework
Η μηχανική μάθηση στην αντιμετώπιση της Υπερπληροφόρησης
Ανάκτηση & Εξαγωγή Πληροφορίας στο Διαδίκτυο Γιώργος Παλιούρας Εργαστήριο Τεχνολογίας Γνώσεων & Λογισμικού Ινστιτούτο Πληροφορικής & Τηλεπικοινωνιών Ε.Κ.Ε.Φ.Ε.
Λάζαρος Πολυμενάκος, καθηγητής ΑΙΤ Ηρακλής Καπρίτσας, telia.co.gr
Η αυτόματη επεξεργασία των φυσικών γλωσσών: Μέθοδοι και εφαρμογές
ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ Προεπεξεργασία Κειμένου.
Τμήμα Πληροφορικής Πανεπιστημίου Κύπρου ΕΠΛ 371 – Προγραμματισμός Συστημάτων Ονόματα: Αντώνης Μαυρής, Γιώργος Ματθαίου, Χρίστος Κυριάκου Ταυτότητες: ,
Παιδικοσ αλφαβητισμοσ: προσεγγισεισ και προοπτικεσ
E X a M p L e Αξιοποιώντας την τεχνολογία XML στη διαχείριση της πληροφορίας Λίνα Μπουντούρη Εθνικό Κέντρο Τεκμηρίωσης 13ο Πανελλήνιο Συνέδριο Ακαδημαϊκών.
Σημασιολογική Ολοκλήρωση Δεδομένων με τη χρήση Οντολογιών Λίνα Μπουντούρη - Μανόλης Γεργατσούλης Ιόνιο Πανεπιστήμιο 15ο Πανελλήνιο Συνέδριο Ακαδημαϊκών.
PHP/MYSQL ΠΑΡΟΥΣΙΑΣΗ ΣΤΑ ΠΛΑΙΣΙΑ ΤΟΥ ΜΑΘΗΜΑΤΟΣ ΕΠΟΙΚΟΙΝΩΝΙΑ ΑΝΘΡΩΠΟΥ-ΜΗΧΑΝΗΣ ΤΥΡΟΛΟΓΟΥ ΓΛΥΚΕΡΙΑ ΑΜ 875 ΡΙΖΟΥ ΔΕΣΠΟΙΝΑ ΑΜ 816.
1.5 Γλώσσες Προγραμματισμού
ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ Μάθημα 1ο Εισαγωγή στη Γλωσσική Τεχνολογία
Μάθημα 1ο: Εισαγωγή στη Γλωσσική Τεχνολογία
ΒΑΣΙΚΕΣ ΕΝΝΟΙΕΣ ΑΛΓΟΡΙΘΜΩΝ
Εθνικό και Καποδιστριακό Πανεπιστήμιο Αθηνών – Τμήμα Πληροφορικής και Τηλεπικοινωνιών 1 Κεφάλαιο 4 Σημασιολογία μιας Απλής Προστακτικής Γλώσσας Προπτυχιακό.
Σημασιολογική Ολοκλήρωση Ολοκλήρωση Πληροφορίας Το πρόβλημα της ολοκλήρωσης πληροφορίας (information integration) προκύπτει από την ύπαρξη ετερογενών.
ΕΙΣΑΓΩΓΗ ΣΤΙΣ ΒΑΣΙΚΕΣ ΕΝΝΟΙΕΣ ΤΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ
University of Crete HY566-Semantic Web CS566 – Semantic Web Computer Science Department - UoC Heraklion 1 April, 2003 Παπαγγελής Μάνος, Κοφφινά Ιωάννα,
Template-Independent News Extraction Based on Visual Consistency  Shuyi Zheng  Ruihua Song  Ji-Rong Wen Παπαντωνίου.
Τεχνολογία ΛογισμικούSlide 1 Εξειδίκευση Βασισμένη σε Μοντέλο u Τυπική εξειδίκευση λογισμικού με ανάπτυξη μαθηματικού μοντέλου για το σύστημα.
Βάσεις Δεδομένων ΙΙ Ευαγγελία Πιτουρά 1 Βάσεις Διαδικτύου.
Τεχνολογία ΛογισμικούSlide 1 Τεχνολογία Απαιτήσεων u Καθορίζει τι θέλει ο πελάτης από ένα σύστημα λογισμικού.
Εφαρμογές Πολυμέσων: Εισαγωγή στην HTML (1)
ΒΑΣΙΚΕΣ ΕΝΝΟΙΕΣ ΑΛΓΟΡΙΘΜΩΝ
ΠΡΙΝ ΞΕΚΙΝΗΣΟΥΜΕ Πράγματα που αξιολογείτε θετικά σε σχέση με το μάθημα του προηγούμενου τετραμήνου Πράγματα που θα μπορούσαν να βελτιωθούν.
Εισαγωγή στη Βιοπληροφορική Ενότητα 9: Text Mining Μακρής Χρήστος, Τσακαλίδης Αθανάσιος, Ιωάννου Μαρίνα Πολυτεχνική Σχολή Τμήμα Μηχανικών Η/Υ και Πληροφορικής.
Προγραμματιστικά Εργαλεία για το Διαδίκτυο Κατασκευή Ιστοσελίδων 3 ο Κεφάλαιο Βελώνης Γεώργιος – Καθηγητής Πληροφορικής ΠΕ20.
Βασικές Έννοιες της Πληροφορικής
ΤΙΤΛΟΣ ΕΡΓΑΣΙΑΣ ΒΑΣΕΙΣ ΔΕΔΟΜΕΝΩΝ Ανδρέου Βασίλης.
ΑΝΑΠΤΥΞΗ ΕΦΑΡΜΟΓΩΝ ΣΕ ΠΡΟΓΡΑΜΜΑΤΙΣΤΙΚΟ ΠΕΡΙΒΑΛΛΟΝ
ΔΙΑΔΙΚΤΥΟ, WEB2.0 KAI WEB X Από τον WEB 1.0 στον WEB X.0
Web, Web 2.0, Web 3.0 και Web X.0 ΚΕΦΑΛΑΙΟ 9.
Κεφάλαιο 6o. Επίπεδο εφαρμογής
ΑΝΑΠΤΥΞΗ ΕΦΑΡΜΟΓΩΝ ΣΕ ΠΡΟΓΡΑΜΜΑΤΙΣΤΙΚΟ ΠΕΡΙΒΑΛΛΟΝ
Η πολύ λαίμαργη φάλαινα που έφαγε την θάλασσα (του Ευγένιου Τριβιζά)
Κεφαλαιο 11 ΕΙΣΑΓΩΓΗ ΣΤΗΝ HTML.
HTML.
ΕΝΟΤΗΤΑ 1 – Κεφάλαιο 1: Ο Υπολογιστής και η Επεξεργασία των Δεδομένων
Εφαρμογές Πληροφορικής Κεφάλαιο 11
ΦΑΣΕΙΣ ΕΠΙΛΥΣΗΣ ΠΡΟΒΛΗΜΑΤΟΣ – ΑΝΑΠΤΥΞΗΣ ΠΡΟΓΡΑΜΜΑΤΟΣ
Εισαγωγή στην HTML Κεφάλαιο 11.
Μήνυμα Η ευχρηστία και η προσβασιμότητα είναι θέμα κυρίως διεπαφής
ΕΝΟΤΗΤΑ 1 – Κεφάλαιο 1: Ο Υπολογιστής και η Επεξεργασία των Δεδομένων
Βασικές έννοιες αλγορίθμων
Γυμνάσιο Νέας Κυδωνίας
ΕΝΟΤΗΤΑ 1 – Κεφάλαιο 1: ΒΑΣΙΚΕΣ ΕΝΝΟΙΕΣ ΤΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ
ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ
17/2/2019 ΒΑΣΙΚΕΣ ΕΝΝΟΙΕΣ (2) Ενότητα A1.1 β Ο Δάσκαλος.
Μεταγράφημα παρουσίασης:

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ Information Extraction

 Μορφή της πληροφορίας  Δομημένα δεδομένα Relational Databases (SQL) XML markup  Μη - δομημένα δεδομένα Ελεύθερο κείμενο Multimedia (images/audio/video)  Ημι - δομημένα δεδομένα Πίνακες μέσα στο κείμενο Σχόλια  Information Extraction:  Το πρόβλημα της μετατροπής της πληροφορίας σε δομημένα δεδομένα

Information Extraction – Παράδειγμα  Μη δομημένη μορφή « Η Μαρία σπούδασε στην Ιατρική του Πανεπιστημίου Πατρών. Ο Γιώργος σπούδασε στη Νομική του ΑΠΘ. Εκεί σπούδασε και η Χριστίνα.»  Μετατροπή σε δομημένη  Αναγνώριση οντοτήτων Με επίλυση αναφορών  Αναγνώριση σχέσεων  Αναπαράσταση σε δομημένη πληροφορία XML Relational

Information Extraction – Παράδειγμα  XML  Relational σπούδασε ( Μαρία, Ιατρική ) ανήκει ( Ιατρική, Πανεπιστήμιο Πατρών ) σπούδασε ( Γιώργος, Νομική ) ανήκει ( Νομική, ΑΠΘ ) σπούδασε ( Χριστίνα, Νομική )

Εφαρμογή στο Διαδίκτυο  Διαδίκτυο : εκρηκτική αύξηση της μη - δομημένης πληροφορίας  Για να εκμεταλλευτούμε την πληροφορία πλήρως πρέπει να μετατραπεί σε δομημένη.  Tim Berners-Lee: Transformation of “Web of Documents” to “Web of Data”.  Απαιτήσεις για το web:  Χαμηλό κόστος  Προσαρμοστικότητα σε πολλά πεδία  Ευκολία ανάπτυξης  Χρήση του HTML/XML markup

Προσεγγίσεις  Wrappers:  Σύνολα κανόνων μεγάλης ακρίβειας  Εξάγουν συγκεκριμένη πληροφορία από σελίδες  Εφαρμόζονται σε σελίδες με πολύ συγκεκριμένη δομή  Αποτυγχάνουν σε πιο ελεύθερα δομημένη πληροφορία  Adaptive Information Extraction:  Συστήματα που εφαρμόζονται σε διαφορετικά δομημένη πληροφορία  Εφαρμόζονται τεχνικές NLP

Information Extraction Architecture  Είσοδος : ελεύθερο κείμενο  Έξοδος : σχέσεις μεταξύ οντοτήτων

Προεπεξεργασία  Βήμα 1: Sentence Segmentations  Βήμα 2: Tokenization  Βήμα 3: Tagging

Entity Recognition  Βήμα 4: Αναγνώριση οντοτήτων  Οντότητες που εκφράζονται από : Κύρια ονόματα Ο Γιάννης πήγε στην παραλία. Ονοματικές φράσεις Ο Γιάννης πήγε στην παραλία. Αναφορές ή συνώνυμα με προηγούμενη αναφορά στις οντότητες Εκεί ήπιε καφέ.

Entity Recognition - Chunking  Η κύρια τεχνική αναγνώρισης οντοτήτων  Ανάθεση ακολουθιών από tokens σε συντακτικές κατηγορίες πχ  Noun Phrases ( Ονοματικές Φράσεις )  Verbal Phrases ( Ρηματικές Φράσεις )  Χρησιμοποιούμε κυρίως ονοματικές φράσεις

Chunking - Αναπαράσταση  Διαφορετικές μορφές αναπαράστασης chunks  Ανάλογα με την αναπαράσταση των εμφωλευμένων στοιχείων : IOB tags: Input/Output/Begin tag σε κάθε chunk Δέντρο

Chunking - Διαδικασία  Δημιουργία ενός NP-chunker:  Ορισμός της γραμματικής για το chunking: Κανόνες για το πως οι προτάσεις μπορούν να γίνουν chunked  Οι κανόνες ορίζουν tag patterns Με σύνταξη παρόμοια με regular expressions, ορίζουν ακολουθίες από Part-Of-Speech tags. πχ NP: { ? * } { +}

Chunking – Παράδειγμα

Chunking – Classifier based chunkers  Αρκεί μόνο το POS για την αναγνώριση των chunks? Joey sold the farmer rice. Nick broke my computer monitor.  Ανάγκη για εκμετάλλευση και της λέξης εκτός από το POS  Εκπαίδευση ενός classifier ( ανάλογα με τη δημιουργία του POS tagger)  Training set: Ένα corpus με σημειωμένα τα IOB-tags πχ στο NLTK το Wall Street Journal  Features: POS της τρέχουσας λέξης Η ίδια η τρέχουσα λέξη POS από τις προηγούμενες Οι προηγούμενες / επόμενες λέξεις

Chunking with NLTK  To NLTK έχει classifier-based chunker εκπαιδευμένο ήδη για να αναγνωρίζει Named Entities.

Relation Extraction  Βήμα 5: Αναγνώριση σχέσεων  Με δεδομένες τις οντότητες  Αναγνώριση τριάδων (X,a,Y) όπου X, Y οντότητες και a ακολουθία που εκφράζει τη σχέση.  Βασική προσέγγιση :  Επιλογή με regular expressions των λέξεων που εκφράζουν τη σχέση από τα tokens μεταξύ των οντοτήτων.

Relation Extraction – Παράδειγμα

Recommended Reading  “Natural Language Processing with Python”  Chapter 7: Extracting Information from Text