ΔιαχειριΣη Web Περιεχομενου & ΓλωΣΣικα Εργαλεια

Slides:



Advertisements
Παρόμοιες παρουσιάσεις
Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1 Ευρετήρια.
Advertisements

Ερωτηματολόγιο Συλλογής Απαιτήσεων Εφαρμογών Υψηλών Επιδόσεων
Διάγραμμα Παρουσίασης
Πέτσας Δημήτριος Παρουσίαση στο μάθημα: Ψηφιακές Βιβλιοθήκες
Τεχνολογίες ανάκτησης και εξαγωγής δεδομένων με γλωσσική υποστήριξη - Εφαρμογές στο e-government και e-business - Εφαρμογές στο e-government και e-business.
Computers: Information Technology in Perspective By Long and Long Copyright 2002 Prentice Hall, Inc. Λογισμικό Διάλεξη 5 η.
ΔΙ.ΟΡΓΑΝΩ.ΣΗ Σύστημα ΔΙαχείρισης ΟΡΓΑΝΩσιακής ΓνώΣΗς για τις ελληνικές επιχειρήσεις. Μπίμπη Σταματία1 Σαμολαδάς Ιωάννης1 Σταμέλος Ιωάννης1 Κατσιαδάκης.
ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ Εισαγωγή στις Βάσεις Δεδομένων για Μαθητές Λυκείων και Τεχνικών Σχολών Δημήτρης Ζεϊναλιπούρ Λέκτορας Τμήμα Πληροφορικής,
Διαχείριση Έργου Οργάνωση, σχεδιασμός και προγραμματισμός έργων ανάπτυξης λογισμικού.
Ανάκτηση και Εξαγωγή Πληροφορίας από Πολυμεσικές και Πολυγλωσσικές
-Στοίβα-Ουρά - Πλεονεκτήματα πινάκων -Δομές δεδομένων δευτερεύουσας μνήμης -Πληροφορική και δεδομένα -Παραδείγματα-Προβλήματα ψευδοκώδικα.
1 Μηχανές αναζήτησης στον Παγκόσμιο Ιστό Search Engines.
ΟΡΟΛΟΓΙΑ Στην ΚτΠ: Χρησιμότητα στον Δημόσιο Τομέα ή Η σημασία της γνώσης των όρων για αποτελεσματική πρόσβαση στην πληροφορία Γ. Καραγιάννης Καθηγητής.
Σελ. 1 Ε.2.2 Υπηρεσίες – Λειτουργία Helpdesk Καταχώρηση και παρακολούθηση αιτημάτων μέσω web Ε Καταχώρηση αιτημάτων υποστήριξης.
ΣΤΟΙΧΕΙΑ ΨΕΥΔΟΚΩΔΙΚΑ ΒΑΣΙΚΕΣ ΔΟΜΕΣ ΒΑΣΙΚΟΙ ΑΛΓΟΡΙΘΜΟΙ ΠΙΝΑΚΩΝ
Βάσεις Δεδομένων 1 T.Manavis– N.Kyritsis.
Κεφάλαιο 6 Υλοποίηση Γλωσσών Προγραμματισμού
ΗΥ-566 Διαχείρηση Γνώσης στο Διαδίκτυο1 SWRC Ontology Κτιστάκης Γιώργος Μπούτσικα Κατερίνα Παπαδάκης Μύρων.
Εισαγωγή στον Προγραμματισμό, Αντώνιος Συμβώνης, ΣΕΜΦΕ, ΕΜΠ, Slide 1 Εβδομάδα 3: Υλοποίηση μεθόδων.
Μονάδα Διασφάλισης Ποιότητας του ΤΕΙ Σερρών
Δρ. Παναγιώτης Συμεωνίδης
HMMY Τεχνολογία Λογισμικού Διδάσκων Κώστας Κοντογιάννης Αναπλ
ΕΙΣΑΓΩΓΗ ΣΤΑ ΝΕΥΡΩΝΙΚΑ ΔΙΚΤΥΑ
Resource Description Framework
Λανθάνουσα Σημασιολογική Ανάλυση (Latent Semantic Analysis)
Page  1 Ο.Παλιάτσου Γαλλική Επανάσταση 1 ο Γυμνάσιο Φιλιππιάδας.
Κώστας Διαμαντάρας Τμήμα Πληροφορικής ΤΕΙ Θεσσαλονίκης 2011 Συστολικοί επεξεργαστές.
Μηχανική Μάθηση και Εξόρυξη Γνώσης
Η μηχανική μάθηση στην αντιμετώπιση της Υπερπληροφόρησης
Ανάκτηση & Εξαγωγή Πληροφορίας στο Διαδίκτυο Γιώργος Παλιούρας Εργαστήριο Τεχνολογίας Γνώσεων & Λογισμικού Ινστιτούτο Πληροφορικής & Τηλεπικοινωνιών Ε.Κ.Ε.Φ.Ε.
Θέματα Βάσεων Δεδομένων Αποθήκευση XML δεδομένων σε Σχεσιακή Βάση Δεδομένων Θέματα Βάσεων Δεδομένων Αποθήκευση XML δεδομένων σε Σχεσιακή Βάση Δεδομένων.
Αναγνώριση Προτύπων.
Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1 Συναρτησιακές Εξαρτήσεις.
ΑΠΕΙΚΟΝΙΣΗ ΕΝΝΟΙΩΝ 1. 2 Χρήστης Στόχος Ταμίας διενέργεια πώλησης διενέργεια ενοικίασης εισαγωγή ταμείου εξαγωγή ταμείου * 1 Μοντέλο Πεδίου Προβλήματος.
Α.Π.Θ. Π.Τ.Δ.Ε. Π.Μ.Σ Επιστήμες της Αγωγής-Κατεύθυνση Διδακτική των Φυσικών Επιστημών και Νέες Τεχνολογίες Διερεύνηση εφαρμογής.
ΕΥΡΕΣΗ ΚΑΤΗΓΟΡΙΚΩΝ ΕΚΤΟΠΩΝ ΣΕ ΒΙΒΛΙΟΓΡΑΦΙΚΗ ΒΑΣΗ ΔΕΔΟΜΕΝΩΝ
Μάθημα 2 ο : Βασικές έννοιες 1 Ακαδημαϊκό Έτος
Λάζαρος Πολυμενάκος, καθηγητής ΑΙΤ Ηρακλής Καπρίτσας, telia.co.gr
Διαδικτυακή εφαρμογή ανάλυσης και επεξεργασίας δεδομένων κυβερνητικών διαβουλεύσεωνgov.insight Η. Ζαβιτσάνος, Γ. Γιαννακόπουλος, Γ. Παλιούρας Ινστιτούτο.
Ανάκτηση Πληροφορίας (Information Retrieval – IR) Πανεπιστήμιο Θεσσαλίας Πολυτεχνική Σχολή Τμήμα Μηχ. Η/Υ, Τηλ/νιών & Δικτύων Ακαδημαϊκό Έτος
1 Προχωρημένα Θέματα Τεχνολογίας και Εφαρμογών Βάσεων Δεδομένων Επεξεργασία και βελτιστοποίηση ερωτήσεων Πάνος Βασιλειάδης Σεπτέμβρης.
Προχωρημένα Θέματα Τεχνολογίας και Εφαρμογών Βάσεων Δεδομένων Επεξεργασία και βελτιστοποίηση ερωτήσεων Πάνος Βασιλειάδης Σεπτέμβρης 2005.
ΕΙΣΑΓΩΓΗ ΣΤΑ ΓΕΩΓΡΑΦΙΚΑ ΣΥΣΤΗΜΑΤΑ ΠΛΗΡΟΦΟΡΙΩΝ
ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ Προεπεξεργασία Κειμένου.
Τμήμα Πληροφορικής Πανεπιστημίου Κύπρου ΕΠΛ 371 – Προγραμματισμός Συστημάτων Ονόματα: Αντώνης Μαυρής, Γιώργος Ματθαίου, Χρίστος Κυριάκου Ταυτότητες: ,
1 Ενότητα 5.3.1: Ερωτηματολόγια με τη χρήση του Διαδικτύου Διδάσκων: Χρήστος Κατσάνος - Πανεπιστημιακό κέντρο εκπαίδευσης επιμορφωτών.
Μοντέλα Συστημάτων Παρουσιάσεις των συστημάτων των οποίων οι απαιτήσεις αναλύονται.
Προγραμματισμός ΙΙ Διάλεξη #5: Εντολές Ανάθεσης Εντολές Συνθήκης Δρ. Νικ. Λιόλιος.
ANAKOINWSH H 2η Ενδιάμεση Εξέταση μεταφέρεται στις αντί για , την 24 Νοεμβρίου στις αίθουσες ΧΩΔ και 110 λόγω μη-διαθεσιμότητας.
1 Τ.Ε.Ι. ΚΑΒΑΛΑΣ Σ.Δ.Ο. Τμήμα: Διαχείριση Πληροφοριών Ον.Επ.: Μπίκος Κωνσταντίνος Μάντη Χρυσάνθη Χατζημάρκου Αθηνά Καπίταλη Ζωή Εισηγητής: Χατζής Θέμα:
E X a M p L e Αξιοποιώντας την τεχνολογία XML στη διαχείριση της πληροφορίας Λίνα Μπουντούρη Εθνικό Κέντρο Τεκμηρίωσης 13ο Πανελλήνιο Συνέδριο Ακαδημαϊκών.
Σημασιολογική Ολοκλήρωση Δεδομένων με τη χρήση Οντολογιών Λίνα Μπουντούρη - Μανόλης Γεργατσούλης Ιόνιο Πανεπιστήμιο 15ο Πανελλήνιο Συνέδριο Ακαδημαϊκών.
Τα προϊόντα της EmGoldEx Τα προϊόντα της EmGoldEx Ράβδοι χρυσού 24k καθαρότητας 999,9 απο 1 έως 100 γραμμάρια Όλες οι ράβδοι χρυσού είναι πιστοποιημένες.
ΜΑΘΗΜΑ: ΜΕΤΑΓΛΩΤΤΙΣΤΕΣ ΔΙΔΑΣΚΟΝΤΕΣ: Π. ΚΑΤΣΑΡΟΣ Τρίτη, 31 Μαρτίου 2015Τρίτη, 31 Μαρτίου 2015Τρίτη, 31 Μαρτίου 2015Τρίτη, 31 Μαρτίου 2015Τμ. Πληροφορικής,
Ημέρα 1η.
ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ Information Extraction.
Εξόρυξη Δεδομένων και Αλγόριθμοι Μάθησης. K-means k-windows k-means: 2 φάσεις 1. Μια διαμέριση των στοιχείων σε k clusters 2. Η ποιότητα της διαμέρισης.
ΜΑΘΗΜΑ: ΜΕΤΑΓΛΩΤΤΙΣΤΕΣ ΔΙΔΑΣΚΟΝΤΕΣ: Π. ΚΑΤΣΑΡΟΣ Τετάρτη, 1 Απριλίου 2015Τετάρτη, 1 Απριλίου 2015Τετάρτη, 1 Απριλίου 2015Τετάρτη, 1 Απριλίου 2015Τμ. Πληροφορικής,
Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1 Σχεδιασμός Σχεσιακών Σχημάτων.
ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ Μάθημα 1ο Εισαγωγή στη Γλωσσική Τεχνολογία
Βάσεις Δεδομένων Εργαστήριο ΙΙ Τμήμα Πληροφορικής ΑΠΘ
Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1 Σχεσιακό Μοντέλο.
Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1 Σχεσιακό Μοντέλο.
Εθνικό και Καποδιστριακό Πανεπιστήμιο Αθηνών – Τμήμα Πληροφορικής και Τηλεπικοινωνιών 1 Κεφάλαιο 3 Η Σημασιολογία των Γλωσσών Προγραμματισμού Προπτυχιακό.
1 Βάσεις Δεδομένων ΙI Επιμέλεια: ΘΟΔΩΡΗΣ ΜΑΝΑΒΗΣ SQL (3 από 3) T Manavis.
Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1 Μετατροπή Σχήματος Ο/Σ σε Σχεσιακό.
1 Διαχείριση Γνώσης Μ. Γεργατσούλης Χ. Παπαθεοδώρου.
ΕΦΑΡΜΟΓΕΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΥΠΟΛΟΓΙΣΤΩΝ ΤΣΩΝΗΣ ΚΩΝΣΤΑΝΤΙΝΟΣ.
ΤΙΤΛΟΣ ΕΡΓΑΣΙΑΣ ΒΑΣΕΙΣ ΔΕΔΟΜΕΝΩΝ Ανδρέου Βασίλης.
Μάθημα 6ο Ανάλυση Κειμένου και Δεικτοδότηση
Μεταγράφημα παρουσίασης:

ΔιαχειριΣη Web Περιεχομενου & ΓλωΣΣικα Εργαλεια Information Extraction(Εξαγωγή Πληροφορίας)

Πληροφορία κειμένου User Generated Content: μη δομημένη πληροφορία κειμένου(UGC) Ανάγκη εξαγωγής δομημένης πληροφορίας για επεξεργασία, διαχείριση και εξόρυξη δεδομένων Εξαγωγή Πληροφορίας

Εξαγωγή Πληροφορίας Στόχος: Συμπλήρωση πεδίων ΒΔ από μέρη του κειμένου October 14, 2002, 4:00 a.m. PT For years, Microsoft Corporation CEO Bill Gates railed against the economic philosophy of open-source software with Orwellian fervor, denouncing its communal licensing as a "cancer" that stifled technological innovation. Today, Microsoft claims to "love" the open-source concept, by which software code is made public to encourage improvement and development by outside programmers. Gates himself says Microsoft will gladly disclose its crown jewels--the coveted code behind the Windows operating system--to select customers. "We can be open source. We love the concept of shared source," said Bill Veghte, a Microsoft VP. "That's a super-important shift for us in terms of code access.“ Richard Stallman, founder of the Free Software Foundation, countered saying… NAME TITLE ORGANIZATION

Εξαγωγή Πληροφορίας Στόχος: Συμπλήρωση πεδίων ΒΔ από μέρη του κειμένου October 14, 2002, 4:00 a.m. PT For years, Microsoft Corporation CEO Bill Gates railed against the economic philosophy of open-source software with Orwellian fervor, denouncing its communal licensing as a "cancer" that stifled technological innovation. Today, Microsoft claims to "love" the open-source concept, by which software code is made public to encourage improvement and development by outside programmers. Gates himself says Microsoft will gladly disclose its crown jewels--the coveted code behind the Windows operating system--to select customers. "We can be open source. We love the concept of shared source," said Bill Veghte, a Microsoft VP. "That's a super-important shift for us in terms of code access.“ Richard Stallman, founder of the Free Software Foundation, countered saying… IE NAME TITLE ORGANIZATION Bill Gates CEO Microsoft Bill Veghte VP Microsoft Richard Stallman founder Free Soft..

Εξαγωγή Πληροφορίας Τεχνικές: Εξαγωγή Πληροφορίας = segmentation + classification + clustering + association Τεχνικές: October 14, 2002, 4:00 a.m. PT For years, Microsoft Corporation CEO Bill Gates railed against the economic philosophy of open-source software with Orwellian fervor, denouncing its communal licensing as a "cancer" that stifled technological innovation. Today, Microsoft claims to "love" the open-source concept, by which software code is made public to encourage improvement and development by outside programmers. Gates himself says Microsoft will gladly disclose its crown jewels--the coveted code behind the Windows operating system--to select customers. "We can be open source. We love the concept of shared source," said Bill Veghte, a Microsoft VP. "That's a super-important shift for us in terms of code access.“ Richard Stallman, founder of the Free Software Foundation, countered saying… Microsoft Corporation CEO Bill Gates Microsoft Gates Bill Veghte VP Richard Stallman founder Free Software Foundation Εξαγωγή ονοματικών οντοτήτων

Εξαγωγή Πληροφορίας Τεχνικές: Εξαγωγή Πληροφορίας = segmentation + classification + association + clustering Τεχνικές: October 14, 2002, 4:00 a.m. PT For years, Microsoft Corporation CEO Bill Gates railed against the economic philosophy of open-source software with Orwellian fervor, denouncing its communal licensing as a "cancer" that stifled technological innovation. Today, Microsoft claims to "love" the open-source concept, by which software code is made public to encourage improvement and development by outside programmers. Gates himself says Microsoft will gladly disclose its crown jewels--the coveted code behind the Windows operating system--to select customers. "We can be open source. We love the concept of shared source," said Bill Veghte, a Microsoft VP. "That's a super-important shift for us in terms of code access.“ Richard Stallman, founder of the Free Software Foundation, countered saying… Microsoft Corporation CEO Bill Gates Microsoft Gates Bill Veghte VP Richard Stallman founder Free Software Foundation

Εξαγωγή Πληροφορίας Τεχνικές: Εξαγωγή Πληροφορίας = segmentation + classification + association + clustering Τεχνικές: October 14, 2002, 4:00 a.m. PT For years, Microsoft Corporation CEO Bill Gates railed against the economic philosophy of open-source software with Orwellian fervor, denouncing its communal licensing as a "cancer" that stifled technological innovation. Today, Microsoft claims to "love" the open-source concept, by which software code is made public to encourage improvement and development by outside programmers. Gates himself says Microsoft will gladly disclose its crown jewels--the coveted code behind the Windows operating system--to select customers. "We can be open source. We love the concept of shared source," said Bill Veghte, a Microsoft VP. "That's a super-important shift for us in terms of code access.“ Richard Stallman, founder of the Free Software Foundation, countered saying… Microsoft Corporation CEO Bill Gates Microsoft Gates Bill Veghte VP Richard Stallman founder Free Software Foundation

Εξαγωγή Πληροφορίας Τεχνικές: Εξαγωγή Πληροφορίας = segmentation + classification + association + clustering Τεχνικές: October 14, 2002, 4:00 a.m. PT For years, Microsoft Corporation CEO Bill Gates railed against the economic philosophy of open-source software with Orwellian fervor, denouncing its communal licensing as a "cancer" that stifled technological innovation. Today, Microsoft claims to "love" the open-source concept, by which software code is made public to encourage improvement and development by outside programmers. Gates himself says Microsoft will gladly disclose its crown jewels--the coveted code behind the Windows operating system--to select customers. "We can be open source. We love the concept of shared source," said Bill Veghte, a Microsoft VP. "That's a super-important shift for us in terms of code access.“ Richard Stallman, founder of the Free Software Foundation, countered saying… Microsoft Corporation CEO Bill Gates Microsoft Gates Bill Veghte VP Richard Stallman founder Free Software Foundation NAME TITLE ORGANIZATION Bill Gates CEO Microsoft Bill Veghte VP Richard Stallman founder Free Soft..

Εξαγωγή Πληροφορίας από περιεχόμενο Load ΔΒ Αναζήτηση Εξόρυξη Δεδομένων Βάση Δεδομένων Δημιουργία οντολογίας Segment Classify, Associate Cluster προσκομιστής ΕΠ Συλλογή Κειμένων Φιλτράρισμα σχετικότητας Επισημείωση σώματος εκπαίδευσης Εκπαίδευση μοντέλων εξαγωγής

Επισκόπηση θεμάτων Βήματα για την εξαγωγή πληροφορίας Επισημείωση οντοτήτων Εξαγωγή συσχετίσεων Εξαγωγή γεγονότων Κλιμάκωση εξαγωγής πληροφορίας Κλιμάκωση για δεδομένα μεγάλου όγκου Ανοιχτά ζητήματα κλιμάκωσης

Βήματα Εξαγωγής Πληροφορίας Εξαγωγή οντοτήτων και συσχετίσεων Οντότητες: ονοματικές και γενικές Συσχετίσεις: σύνδεση οντοτήτων Γεγονότα: αποτελούνται από πλειάδες πολλών σχέσεων Βήματα εξαγωγής: Προεπεξεργασία: διαχωρισμός προτάσεων, συντατική ανάλυση Δημιουργία κανόνων ή εξαγωγή προτύπων: χειρωνακτικά, μηχανική μάθηση, υβριδικά Εφαρμογή προτύπων ή κανόνων για εξαγωγή νέας πληροφορίας Υστερο-επεξεργασία και ενσωμάτωση πληροφορίας

Επισημείωση Οντοτήτων Ανίχνευση αναφορών σε οντότητες στο κείμενο (π.χ. Ονόματα ανθρώπων, τοποθεσίες,κτλ) Χειρωνακτικά vs. Τεχνικές μηχανικής μάθησης Η βέλτιστη προσέγγιση εξαρτάται από τον τύπο οντοτήτων και το πεδίο Κλειστού τύπου (π.χ., γεωγραφικές περιοχές, ονόματα ασθενειών): χειρωνακτικά+ λεξικά Συντακτική (π.χ., τηλεφωνικοί αριθμοί, ταχυδρομικοί κώδικες): regular expressions Σημασιολογική (π.χ., ονόματα ανθρώπων): συνδυασμός περιεχομένου, συντακτικών γνωρισμάτων, λεξικών, κα.

Παράδειγμα εξαγωγής οντοτήτων Ronald Fagin, Combining Fuzzy Information from Multiple Systems, Proc. of ACM SIGMOD, 2002 Citation Segment(si) Sequence Label(si) S1 Ronald Fagin Author S2 Combining Fuzzy Information from Multiple Systems Title S3 Proc. of ACM SIGMOD Conference S4 2002 Year

Χειρωνακτικές μέθοδοι Αποδοτικές για ορισμένες περιπτώσεις (π.χ αναγνώριση τιμών, ταχυδρομικού κώδικα, ονόματα συνεδρίων, κτλ) Ζητήματα κλιμάκωσης: Κοπιαστική εργασία Domain-specific Corpus-specific Ακριβό το ταίριασμα των κανόνων ContactPattern  RegularExpression(Email.body,”can be reached at”) [IBM Avatar]

Τεχνικές Μηχανικής Μάθησης Αποτελεσματικές όταν υπάρχουν μεγάλα σώματα εκπαίδευσης Αποτυπώνουν σύνθετα πρότυπα που είναι δύκολο να κωδικοποιηθούν χειρωνακτικά Αν μια αξιολόγηση είναι θετική ή αρνητική Χωρίς τοπικές εξαρτήσεις

Μοντέλα αναπαράστασης [Cohen and McCallum, 2003] Lexicons Alabama Alaska … Wisconsin Wyoming Abraham Lincoln was born in Kentucky. member? Classify Pre-segmented Candidates Classifier which class? …and beyond NP PP VP S Most likely parse? Context Free Grammars NNP V P BEGIN END Sliding Window Finite State Machines Try alternate window sizes: Most likely state sequence? Boundary Models

Εξαγωγή Συσχετίσεων Disease Outbreaks relation Relation Extraction May 19 1995, Atlanta -- The Centers for Disease Control and Prevention, which is in the front line of the world's response to the deadly Ebola epidemic in Zaire, is finding itself hard pressed to cope with the crisis… Date Disease Name Location Jan. 1995 Malaria Ethiopia July 1995 Mad Cow Disease U.K. Feb. 1995 Pneumonia U.S. May 1995 Ebola Zaire Relation Extraction

Τεχνικές εξαγωγής συσχετίσεων Μηχανική Μάθηση Εποπτευόμενη: εκπαίδευση συστήματος σε χειρωνακτικά επισημειωμένα δεδομένα Ημι-εποπτευόμενη: εκπαίδευση συστήματος με bootstrapping από “seed” παραδείγματα Υβριδικά ή διαδραστικά συστήματα: Ειδικοί αλληλεπιδρούν με αλγορίθμους μηχανικής μάθησης για να διορθώσουν επαναλληπτικά κανόνες και πρότυπα Οι διαδράσεις περικλείουν παραδείγματα επισημείωσης, κανόνες τροποποίησης ή συνδυασμούς

Εξαγωγή Γεγονότων Παρόμοια με την εξαγωγή συσχετίσεων, αλλά: Τα γεγονότα μπορεί να είναι εμφωλευμένα Μεγαλύτερη πολυπλοκότητα Συχνά απαιτείται επίλυση συν-αναφορών, αποσαφήνιση και συμπερασμός Π.χ.integrated disease outbreak event

Προκλήσεις στην εξαγωγή γεγονότων Η πληροφορία βρίσκεται σε πολλά κείμενα Απούσες ή λανθασμένες τιμές Συνδυασμός πλειάδων για σύνθετα γεγονότα Απουσία μοναδικού κλειδιού για την ομαδοποίηση διπλότυπων κατά το διαχωρισμό παρόμοιων αλλά διαφορετικών οντοτήτων Ασάφεια: διαφορετικές οντότητες με κοινό όνομα (Kennedy)

Κλιμάκωση εξαγωγής πληροφορίας Διαστάσεις κλιμάκωσης Μέγεθος δεδομένων Ακριβή η εφαρμογή κανόνων/προτύπων Αποτελεσματικοί τρόποι επιλογής σχετικών κειμένων Προσβασιμότητα κειμένων Αόρατος ιστός: πρόσβαση μέσω διεπαφής Δυναμικά δεδομένα Ετερογένεια πηγής Ακριβή η εκμάθηση προτύπων για κάθε πηγή Απαιτούνται πολλοί κανόνες Διαφοροποίηση πεδίου Εξαγωγή πληροφορίας από κάθε πεδίο

Αποδοτική Εξαγωγή Πληροφορίας Output Tuples … Text Database Classifier Φιλτράρισμα Extraction System Ανάκτηση κειμένων Επεξεργασία κειμένων Εξαγωγή πλειάδων Κανόνας 80/20: λίγοι και απλοί κανόνες για την εξαγωγή των περισσότερων στιγμιοτύπων Εκπαίδευση κατηγοριοποιητή για απαλοιφή των μη σχετικών κειμένων χωρίς εξέταση Διαμοιρασμός κοινών επισημειώσεων (ετικέτες οντοτήτων) για πολλαπλές εργασίες εξαγωγής

Επαναληπτική διεύρυνση συνόλου Text Database Output Tuples … Δημιουργία Ερωτήματος Extraction System Επεξεργασία ανακτηθέντων κειμένων Διεύρυνση πλειάδων Ερώτηση στη ΔΒ με πλειάδες [Ebola AND Zaire]) Εξαγωγή πλειάδων (π.χ., <Malaria, Ethiopia>) Execution time = |Retrieved Docs| * (R + P) + |Queries| * Q Χρόνος ανάκτησης κειμένου Χρόνος επεξεργασίας κειμένου Χρόνος απάντησης ερωτήματος

Πρόσκτηση μέσω ερωτημάτων Γράφος πρόσκτησης Πλειάδες Κείμενα t1 t1 d1 <SARS, China> t2 t3 t2 d2 <Ebola, Zaire> t3 d3 t5 t4 <Malaria, Ethiopia> t4 d4 t1 ανακτά το κείμενο d1 που περιέχει το t2 <Cholera, Sudan> t5 d5 <H5N1, Vietnam> Άνω όριο ανάκλησης: καθορίζεται από το μέγεθος του πιο συνδεδεμένου στοιχείου

User-Provided Seed Tuples Information Extraction Όρια πρόσκτησης User-Provided Seed Tuples Seed Sampling QXtract Πρόσκτηση δείγματος κειμένου με “μάλλον αρνητικά” και “μάλλον θετικά” παραδείγματα Επισημείωση δειγμάτων κειμένων χρησιμοποιώντας το σύστημα εξαγωγής ως “μαντείο” Εκπαίδευσης κατηγοριοποιητών για την “αναγνώριση” χρήσιμων κειμένων Δημιουργία ερωτημάτων από τους κανόνες κατηγοριοποίησης Information Extraction Classifier Training Query Generation Queries