Ανάκτηση & Εξαγωγή Πληροφορίας στο Διαδίκτυο Γιώργος Παλιούρας Εργαστήριο Τεχνολογίας Γνώσεων & Λογισμικού Ινστιτούτο Πληροφορικής & Τηλεπικοινωνιών Ε.Κ.Ε.Φ.Ε.

Ανάκτηση & Εξαγωγή Πληροφορίας στο Διαδίκτυο Γιώργος Παλιούρας Εργαστήριο Τεχνολογίας Γνώσεων & Λογισμικού Ινστιτούτο Πληροφορικής & Τηλεπικοινωνιών Ε.Κ.Ε.Φ.Ε. «Δημόκριτος» paliourg@iit.demokritos.gr http://www.iit.demokritos.gr/skel

Περιεχόμενα Γιατί χρειάζεται η ανάκτηση και εξαγωγή πληροφορίας στο Διαδίκτυο. Το σύστημα CROSSMARC. Ενδιαφέροντα θέματα.

Διαδίκτυο: Το πολύτιμο χάος Παράδοση Ευκολία! Επιλογές!; Χάος; Διαδίκτυο

Νέα προβλήματα – Νέες λύσεις Παρατήρηση: Η επικοινωνία στο Διαδίκτυο γίνεται μέσω προγραμμάτων. Απαίτηση: Τα προγράμματα να γίνουν πιο έξυπνα και φιλικά προς τον χρήστη. Παρατήρηση: Μεγάλο μέρος των δεδομένων που μεταφέρονται είναι κείμενα. Απαίτηση: Έξυπνα προγράμματα επεξεργασίας φυσικής γλώσσας.

Προσεγγίζοντας τη λύση Ανάκτηση ενδιαφερόντων ιστιακών τόπων. (focused crawling) Ανάκτηση ενδιαφερουσών ιστοσελίδων. (intelligent spidering) Εξαγωγή ενδιαφέρουσας πληροφορίας από ιστοσελίδες σε διάφορες γλώσσες. (cross- lingual information extraction) Εξατομικευμένη παρουσίαση αποτελεσμάτων. (personalization)

Εξαγωγή Πληροφορίας ΑγοραστήςΑγοραζόμενοςΠοσοστόΈκδοση Albio ΒιοκαρπέτΠέρσικα ΑΕ100%04/10/01 Groupe DanoneStonyField Farm40%04/10/01 … Γεγονός: Εξαγορές Επιχειρήσεων...

Στοιχεία για το έργο Έργο IST (3/2001 – 9/2003) CROSSMARC: CROSS-lingual Multi- Agent Retail Comparison Αντικείμενο: Πρωτότυπο σύστημα ανάκτησης και εξαγωγής πληροφορίας από ιστοσελίδες που περιγράφουν προϊόντα σε διάφορες γλώσσες.

Η κοινοπραξία ΦορέαςΤύποςΧώρα Ε.Κ.Ε.Φ.Ε. «Δημόκριτος» CEL VeltiNet A.E. PEL University of Edinburgh PUK Universita di Roma Tor Vergata PI Lingway PF

CROSSMARC: Χαρακτηριστικά Έμφαση σε: Καινοτόμες τεχνολογίες ανάκτησης και εξαγωγής πληροφορίας. Διαγλωσσική επεκτάσιμη αρχιτεκτονική. Ταχεία προσαρμογή σε νέες θεματικές περιοχές. Εξατομικευμένη διεπαφή.

CROSSMARC: Εποπτεία domain ontology named-entity recognition and matching fact extraction annotated pages Extraction interesting pages database XML records domain- specific spidering focused crawling Retrieval interesting Web sites Personalized interface user profiles

Focused crawling Εκκίνηση από γνωστούς καταλόγους. Αναγνώριση γλώσσας κειμένου. Κατασκευή ταξινομητών ιστοσελίδων με χρήση μηχανικής μάθησης.

Domain-specific spidering Εξαγωγή υπερσυνδέσμων από τις ιστοσελίδες. Πλοήγηση με βάση την αξία των συνδέσμων. Κατασκευή εκτιμητή αξίας συνδέσμων με χρήση μηχανικής μάθησης. Κατασκευή ταξινομητή ιστοσελίδων με χρήση μηχανικής μάθησης. Χρήση της οντολογίας και των λεξικών για κάθε γλώσσα.

Domain-specific ontology Τρία επίπεδα εξειδίκευσης: Product -> Features Feature -> Attributes Attribute -> Values Τρία επίπεδα εξειδίκευσης: Product -> Features Feature -> Attributes Attribute -> Values

Named-entity recognition Χρήση της οντολογίας και των λεξικών. Δυνατότητα ενσωμάτωσης διαφορετικών συστημάτων για κάθε γλώσσα (προκαθορισμένη είσοδος και έξοδος). Δύο εκδόσεις του Ελληνικού συστήματος αναγνώρισης ονομάτων (χειρονακτικά και με μηχανική μάθηση)

Fact extraction Συνδυασμός τεχνικών wrapper induction με παραδοσιακά συστήματα εξαγωγής πληροφορίας. Δυνατότητα ενσωμάτωσης διαφορετικών συστημάτων για κάθε γλώσσα. Αξιολόγηση διαφόρων τεχνικών wrapper induction.

Ενδιαφέροντα θέματα Πιο αποτελεσματικά συστήματα ανάκτησης χρήσιμης πληροφορίας (crawling και spidering). Ανοιχτά συστήματα εξαγωγής πληροφορίας για διαγλωσσικές εφαρμογές. Ταχεία (ημι-αυτόματη) προσαρμογή σε νέες θεματικές περιοχές. Πιο ευέλικτες μέθοδοι wrapper induction.

Ανάκτηση & Εξαγωγή Πληροφορίας στο Διαδίκτυο Γιώργος Παλιούρας Εργαστήριο Τεχνολογίας Γνώσεων & Λογισμικού Ινστιτούτο Πληροφορικής & Τηλεπικοινωνιών Ε.Κ.Ε.Φ.Ε. «Δημόκριτος» paliourg@iit.demokritos.gr http://www.iit.demokritos.gr/skel

Ανάκτηση & Εξαγωγή Πληροφορίας στο Διαδίκτυο Γιώργος Παλιούρας Εργαστήριο Τεχνολογίας Γνώσεων & Λογισμικού Ινστιτούτο Πληροφορικής & Τηλεπικοινωνιών Ε.Κ.Ε.Φ.Ε.

Παρόμοιες παρουσιάσεις

Παρόμοιες παρουσιάσεις

Σχετικά με το έργο

Σχόλια

Είσοδος

Σύνδεση μέσω των κοινωνικών δικτύων:

Ανάκτηση & Εξαγωγή Πληροφορίας στο Διαδίκτυο Γιώργος Παλιούρας Εργαστήριο Τεχνολογίας Γνώσεων & Λογισμικού Ινστιτούτο Πληροφορικής & Τηλεπικοινωνιών Ε.Κ.Ε.Φ.Ε.

Παρόμοιες παρουσιάσεις

Παρόμοιες παρουσιάσεις

Σχετικά με το έργο

Σχόλια