Κατέβασμα παρουσίασης
Η παρουσίαση φορτώνεται. Παρακαλείστε να περιμένετε
ΔημοσίευσεCyrus Gekas Τροποποιήθηκε πριν 10 χρόνια
1
Ανάκτηση & Εξαγωγή Πληροφορίας στο Διαδίκτυο Γιώργος Παλιούρας Εργαστήριο Τεχνολογίας Γνώσεων & Λογισμικού Ινστιτούτο Πληροφορικής & Τηλεπικοινωνιών Ε.Κ.Ε.Φ.Ε. «Δημόκριτος» paliourg@iit.demokritos.gr http://www.iit.demokritos.gr/skel
2
Περιεχόμενα Γιατί χρειάζεται η ανάκτηση και εξαγωγή πληροφορίας στο Διαδίκτυο. Το σύστημα CROSSMARC. Ενδιαφέροντα θέματα.
3
Περιεχόμενα Γιατί χρειάζεται η ανάκτηση και εξαγωγή πληροφορίας στο Διαδίκτυο. Το σύστημα CROSSMARC. Ενδιαφέροντα θέματα.
4
Διαδίκτυο: Το πολύτιμο χάος Παράδοση Ευκολία! Επιλογές!; Χάος; Διαδίκτυο
5
Νέα προβλήματα – Νέες λύσεις Παρατήρηση: Η επικοινωνία στο Διαδίκτυο γίνεται μέσω προγραμμάτων. Απαίτηση: Τα προγράμματα να γίνουν πιο έξυπνα και φιλικά προς τον χρήστη. Παρατήρηση: Μεγάλο μέρος των δεδομένων που μεταφέρονται είναι κείμενα. Απαίτηση: Έξυπνα προγράμματα επεξεργασίας φυσικής γλώσσας.
6
Προσεγγίζοντας τη λύση Ανάκτηση ενδιαφερόντων ιστιακών τόπων. (focused crawling) Ανάκτηση ενδιαφερουσών ιστοσελίδων. (intelligent spidering) Εξαγωγή ενδιαφέρουσας πληροφορίας από ιστοσελίδες σε διάφορες γλώσσες. (cross- lingual information extraction) Εξατομικευμένη παρουσίαση αποτελεσμάτων. (personalization)
7
Εξαγωγή Πληροφορίας ΑγοραστήςΑγοραζόμενοςΠοσοστόΈκδοση Albio ΒιοκαρπέτΠέρσικα ΑΕ100%04/10/01 Groupe DanoneStonyField Farm40%04/10/01 … Γεγονός: Εξαγορές Επιχειρήσεων...
8
Περιεχόμενα Γιατί χρειάζεται η ανάκτηση και εξαγωγή πληροφορίας στο Διαδίκτυο. Το σύστημα CROSSMARC. Ενδιαφέροντα θέματα.
9
Στοιχεία για το έργο Έργο IST (3/2001 – 9/2003) CROSSMARC: CROSS-lingual Multi- Agent Retail Comparison Αντικείμενο: Πρωτότυπο σύστημα ανάκτησης και εξαγωγής πληροφορίας από ιστοσελίδες που περιγράφουν προϊόντα σε διάφορες γλώσσες.
10
Η κοινοπραξία ΦορέαςΤύποςΧώρα Ε.Κ.Ε.Φ.Ε. «Δημόκριτος» CEL VeltiNet A.E. PEL University of Edinburgh PUK Universita di Roma Tor Vergata PI Lingway PF
11
CROSSMARC: Χαρακτηριστικά Έμφαση σε: Καινοτόμες τεχνολογίες ανάκτησης και εξαγωγής πληροφορίας. Διαγλωσσική επεκτάσιμη αρχιτεκτονική. Ταχεία προσαρμογή σε νέες θεματικές περιοχές. Εξατομικευμένη διεπαφή.
12
CROSSMARC: Εποπτεία domain ontology named-entity recognition and matching fact extraction annotated pages Extraction interesting pages database XML records domain- specific spidering focused crawling Retrieval interesting Web sites Personalized interface user profiles
13
Focused crawling Εκκίνηση από γνωστούς καταλόγους. Αναγνώριση γλώσσας κειμένου. Κατασκευή ταξινομητών ιστοσελίδων με χρήση μηχανικής μάθησης.
14
Domain-specific spidering Εξαγωγή υπερσυνδέσμων από τις ιστοσελίδες. Πλοήγηση με βάση την αξία των συνδέσμων. Κατασκευή εκτιμητή αξίας συνδέσμων με χρήση μηχανικής μάθησης. Κατασκευή ταξινομητή ιστοσελίδων με χρήση μηχανικής μάθησης. Χρήση της οντολογίας και των λεξικών για κάθε γλώσσα.
15
Domain-specific ontology Τρία επίπεδα εξειδίκευσης: Product -> Features Feature -> Attributes Attribute -> Values Τρία επίπεδα εξειδίκευσης: Product -> Features Feature -> Attributes Attribute -> Values
16
Language-specific lexicons Ένα λεξικό για κάθε γλώσσα. Αναφέρεται σε έννοιες της οντολογίας. Περιέχει συνώνυμα και κανονικές εκφράσεις. Ontology concept reference Intel Pentium III Pentium III P3 PIII (Intel|INTEL)?(S)?(Pentium|PENTIUM|P|Pent|PENT)(S)?[\.]?[\-]?(S)?(3|III) Ontology concept reference Intel Pentium III Pentium III P3 PIII (Intel|INTEL)?(S)?(Pentium|PENTIUM|P|Pent|PENT)(S)?[\.]?[\-]?(S)?(3|III)
17
Named-entity recognition Χρήση της οντολογίας και των λεξικών. Δυνατότητα ενσωμάτωσης διαφορετικών συστημάτων για κάθε γλώσσα (προκαθορισμένη είσοδος και έξοδος). Δύο εκδόσεις του Ελληνικού συστήματος αναγνώρισης ονομάτων (χειρονακτικά και με μηχανική μάθηση)
18
Fact extraction Συνδυασμός τεχνικών wrapper induction με παραδοσιακά συστήματα εξαγωγής πληροφορίας. Δυνατότητα ενσωμάτωσης διαφορετικών συστημάτων για κάθε γλώσσα. Αξιολόγηση διαφόρων τεχνικών wrapper induction.
19
Περιεχόμενα Γιατί χρειάζεται η ανάκτηση και εξαγωγή πληροφορίας στο Διαδίκτυο. Το σύστημα CROSSMARC. Ενδιαφέροντα θέματα.
20
Ενδιαφέροντα θέματα Πιο αποτελεσματικά συστήματα ανάκτησης χρήσιμης πληροφορίας (crawling και spidering). Ανοιχτά συστήματα εξαγωγής πληροφορίας για διαγλωσσικές εφαρμογές. Ταχεία (ημι-αυτόματη) προσαρμογή σε νέες θεματικές περιοχές. Πιο ευέλικτες μέθοδοι wrapper induction.
21
Ανάκτηση & Εξαγωγή Πληροφορίας στο Διαδίκτυο Γιώργος Παλιούρας Εργαστήριο Τεχνολογίας Γνώσεων & Λογισμικού Ινστιτούτο Πληροφορικής & Τηλεπικοινωνιών Ε.Κ.Ε.Φ.Ε. «Δημόκριτος» paliourg@iit.demokritos.gr http://www.iit.demokritos.gr/skel
Παρόμοιες παρουσιάσεις
© 2024 SlidePlayer.gr Inc.
All rights reserved.