Η παρουσίαση φορτώνεται. Παρακαλείστε να περιμένετε

Η παρουσίαση φορτώνεται. Παρακαλείστε να περιμένετε

WRAPPER MAINTENANCE Διπλωματική Εργασία Χαράλαμπος Ευτ. Τσουρακάκης Ακαδημαϊκό Έτος:2005-2006.

Παρόμοιες παρουσιάσεις


Παρουσίαση με θέμα: "WRAPPER MAINTENANCE Διπλωματική Εργασία Χαράλαμπος Ευτ. Τσουρακάκης Ακαδημαϊκό Έτος:2005-2006."— Μεταγράφημα παρουσίασης:

1 WRAPPER MAINTENANCE Διπλωματική Εργασία Χαράλαμπος Ευτ. Τσουρακάκης Ακαδημαϊκό Έτος:

2 ΑΞΟΝΕΣ ΠΑΡΟΥΣΙΑΣΗΣ 1. Τι είναι wrapper,πώς παράγεται, ορισμός wrapper maintenance προβλήματος. 2. Σύντομη παρουσίαση ορισμένων εργασιών σε wrapper verification και σε wrapper reinduction. 3. Παρουσίαση της εργασίας μας: Ιδέα, αποτελέσματα. 4. Συμπεράσματα-μελλοντική εργασία.

3 Το 80% των ιστοσελίδων περιέχουν δεδομένα τα οποία προέρχονται από μία ΒΔ.

4 Tι είναι ο web wrapper?  Web wrapper είναι ένα πρόγραμμα το οποίο με βάση ένα σύνολο κανόνων εξάγει αυτόματα πληροφορία από ιστοσελίδες και την αποθηκεύει σε μία δομημένη μορφή.  To σύνολο των κανόνων βασίζεται στην κανονικότητα που υπάρχει στην παρουσίαση της πληροφορίας στον χρήστη (layout).

5 Data Integration & wrappers

6 Τρόποι παραγωγής wrappers 1ος τρόπος Πρόγραμμα σε κάποια γλώσσα. Πρόγραμμα σε κάποια γλώσσα. Ασύμφορο…. Ασύμφορο…. 2ος τρόπος Wrapper Induction System Wrapper Induction System Είσοδος:Σύνολο ιστοσελίδων με Είσοδος:Σύνολο ιστοσελίδων με παραδείγματα επιθυμητής πληροφορίας. παραδείγματα επιθυμητής πληροφορίας. Έξοδος: wrapper Έξοδος: wrapper

7 Wrapper Maintenance  Οι ιστοσελίδες αρκετά συχνά αλλάζουν layout, ακόμα και περιεχόμενο.  Το σύνολο των κανόνων εξαγωγής του wrapper παύει να εξάγει την επιθυμητή πληροφορία.  Wrapper Maintenance= Wrapper verification+ Wrapper reinduction Wrapper verification+ Wrapper reinduction

8

9 ΑΞΟΝΕΣ ΠΑΡΟΥΣΙΑΣΗΣ 1. Τι είναι wrapper,πώς παράγεται, ορισμός wrapper maintenance προβλήματος. 2. Σύντομη παρουσίαση ορισμένων εργασιών σε wrapper verification και σε wrapper reinduction. 3. Παρουσίαση της εργασίας μας: Ιδέα, αποτελέσματα. 4. Συμπεράσματα-μελλοντική εργασία.

10 STRAWMAN

11 RAPTURE  Πρώτη content based μέθοδος [Kushmerick]  Πυκνότητα HTML χαρακτήρων = Τ.Μ που ακολουθεί την κανονική κατανομή  Για τις testing σελίδες υπολογίζει με βάση τις εκτιμήτριες μ1,σ1 τις πιθανότητες για κάθε γνώρισμα τα εξαγόμενα δεδομένα ανά attribute να παίρνουν τις τιμές τους.  Testing probability με βάση μ2,σ2  Σύγκριση testing probability με threshold  Από την verified πληροφορία υπολογίζει τις εκτιμήτριες μ1,σ1 καθώς και τις πιθανότητες τα εξαγόμενα δεδομένα για το κάθε attribute να παίρνουν τις τιμές τους.  Verified probability και υπολογισμός μ2,σ2  Άλλα γνωρίσματα : Πυκνότητα γραμμάτων, πυκνότητα ψηφίων, πυκνότητα χαρακτήρων στίξης,πλήθος tokens,μήκος tokens.

12 Wrapper Verification (Lerman,Minton,Knoblock)  Βελτίωση RAPTURE αλγόριθμου.  DATAPROG αλγόριθμος εύρεσης patterns πληροφορίας.  Στατιστικός έλεγχος Pearson.  Για κάθε κοινό pattern προσθέτει έναν όρο της μορφής N=#tuples training attribute, n=#tuples testing attribute, ri=#tuples που ακολουθούν το pattern pi N=#tuples training attribute, n=#tuples testing attribute, ri=#tuples που ακολουθούν το pattern pi

13 WRAPPER REINDUCTION (Raposo, Pan, Viña, Álvarez )  Αποθήκευση αποτελεσμάτων queries κατά τη διάρκεια της ορθής λειτουργίας του wrapper σε ΒΔ.  Εξεύρεση παραδειγμάτων στις αλλαγμένες ιστοσελίδες.  «Τροφοδότηση» WI συστήματος με αλλαγμένες ιστοσελίδες και παραδείγματα.

14 ΑΞΟΝΕΣ ΠΑΡΟΥΣΙΑΣΗΣ 1. Τι είναι wrapper,πώς παράγεται, ορισμός wrapper maintenance προβλήματος. 2. Σύντομη παρουσίαση ορισμένων εργασιών σε wrapper verification και σε wrapper reinduction. 3. Παρουσίαση της εργασίας μας: Ιδέα, αποτελέσματα. 4. Συμπεράσματα-μελλοντική εργασία.

15 Γιατί δόθηκε έμφαση στο wrapper verification?  Ένα καλό reinduction σύστημα χωρίς ένα καλό verification σύστημα δεν αποδίδει καλά.  Η ανάγκη για αυτοματοποίηση του verification μέρους είναι μεγαλύτερη από του reinduction λόγω της ύπαρξης WI systems.

16 ARMAGEDDON  ΧΑΡΑΚΤΗΡΙΣΤΙΚΑ VERIFICATION module Content based σύστημα. Content based σύστημα. Σύνθετος αλγόριθμος:εκμεταλλεύεται όσο περισσότερο τη δομή την εξαγόμενης πληροφορίας. Σύνθετος αλγόριθμος:εκμεταλλεύεται όσο περισσότερο τη δομή την εξαγόμενης πληροφορίας. Εύρωστο. Εύρωστο. Πολύ καλή απόδοση στο verification task. Πολύ καλή απόδοση στο verification task.  ΧΑΡΑΚΤΗΡΙΣΤΙΚΑ REINDUCTION module Απλή ιδέα Απλή ιδέα Καλή απόδοση σε σελίδες με στατικό περιεχόμενο. Καλή απόδοση σε σελίδες με στατικό περιεχόμενο. Βοηθητικό εργαλείο για τον χρήστη. Βοηθητικό εργαλείο για τον χρήστη.

17 Verification System  Είσοδοι: Training attribute, Testing Attribute.  ΙΔΕΑ:Έστω ότι η πληροφορία του testing attribute είναι η σωστή. Άρα ίδια σημασιολογία με του training attribute Άρα ίδια σημασιολογία με του training attribute Άρα παρόμοια δομή και παρόμοια patterns !!! Άρα παρόμοια δομή και παρόμοια patterns !!!

18 Στάδια Verification αλγορίθμου

19 Κατασκευή Διανυσμάτων Μεταπληροφορίας

20 Παράδειγμα διανύσματος Είσοδος 12 Aiginitoy Street 11 Antifylou Street 42 Hrwwn Polytexneiou Street Street 25 Laodikeias Street 53 Papagou Avenue Διάνυσμα

21 Μάθηση Patterns  Κατασκευή ιεραρχίας token types.  Λεκτικός αναλυτής που απονέμει σε κάθε token το πιο συγκεκριμένο τύπο που μπορεί να λάβει. CS123 ALPHANUM 12 INTEGER 12.3 DECIMAL DATABASE ALLUPPERCASE course ALLLOWERCASE ! PUNCT Alice CAPITALIZED TheBook ALPHABETIC

22 Μάθηση Patterns  Προσδιορισμός μήκους starting patterns με βάση το μέσο πλήθος λεκτικών μονάδων ανά εγγραφή.  Null Hypothesis Testing.  Κεντρικό οριακό θεώρημα.  Ζ-test

23 Πώς λειτουργεί? (1)  Θέση 1: Ο τύπος CAPITALIZED δεν είναι στατιστικά σημαντικός (null hypothesis).  Αν απορριφθεί η μηδενική υπόθεση:

24 Πώς λειτουργεί? (2)  Θέση 2: Ο τύπος ΑLPHANUMERIC δεν είναι στατιστικά σημαντικός μετά το τύπο CAPITALIZED(null hypothesis).  Αν απορριφθεί η μηδενική υπόθεση:

25 Πώς λειτουργεί? (3)  Παράγεται ένα PATTERN tree.  βάθος=f(μέσο πλήθος tokens/εγγραφή).  Διάσχιση του δένδρου δίνει τα starting patterns!

26 Έλεγχος Pearson (goodness of fit method)  Training (ver) και testing (test) διανύσματα μεταπληροφορίας.  Έλεγχος ομοιότητας διανυσμάτων.  Για digDen(x1),..,averNumOfTokensPerLine(x6):

27 Σύστημα ποινών  Αν q<Χ όπου Χ=χ^2(freedomDegrees- 1,0.05) τότε το σύστημα εισέρχεται σε ένα σύστημα ποινών.  ΠΟΙΝΗ γιατί q αυξάνεται χωρίς να αυξάνονται αντίστοιχα οι βαθμοί ελευθερίας.  Σύνθετο σύστημα  Ίδια σημασιολογία  παρόμοια patterns

28 Βασικές έννοιες του συστήματος ποινών (1)  Ομάδες συσχετιζόμενων token types.  Ομάδα1={“*”,”ALPHANUM”},  Ομάδα2={“ALPHABETIC”,”ALLUPPERCASE”,”ALLLOWERCASE”,”CAPITA LIZED”,”*”}  Ομάδα3={“INTEGER”,”DECIMAL”,”*”}  Συσχετιζόμενα patterns.  Αν υπάρχει 1-1 αντιστοιχία μεταξύ των token types σε τουλάχιστον ένα πλήθος θέσεων, το οποίο είναι συνάρτηση της πολυπλοκότητας του πλήθους tokens του μικρότερου pattern.  Συσχετιζόμενα σύνολα patterns P1={p11,..,p1m},P2={p21,..,p2n}.  Αν κάθε pattern p1i είναι συσχετιζόμενο με κάποιο p2j και αντιστρόφως.

29 Βασικές έννοιες του συστήματος ποινών (2)  Πλήθος εγγραφών στο training attribute που μας επιτρέπουν να έχουμε αυξημένη πεποίθηση ότι έχουμε δει τα περισσότερα από τα patterns κατά την εκπαίδευση.  Διάκριση περιπτώσεων για τη σχέση των συνόλων patterns Pver & Ptest.

30 Βασικές έννοιες του συστήματος ποινών (3)  Άλλες παράμετροι που λαμβάνονται υπ’όψιν είναι:  Πληθικότητες Pver & Ptest & Pcommon  Ποσοστό εγγραφών του Ptest που καλύπτονται από τα κοινά patterns.

31 Reinduction System  Προσαρμοσμένο στην υλοποίηση του STALKER που διαθέταμε (single και όχι multi slot extractor).  Brute force αλγόριθμος αναζήτησης παραδειγμάτων ορθής πληροφορίας στις αλλαγμένες ιστοσελίδες.  Έξοδος : annotation files στο format που θέλει ο STALKER.

32 Ενδεχόμενα λειτουργίας verification συστήματος  α = Το σύστημα συμπεραίνει ότι ο wrapper λειτουργεί σωστά  b = Στην πραγματικότητα ο wrapper λειτουργεί σωστά  4 ενδεχόμενα λειτουργία του συστήματος b!b αTPFP !αFNTN

33 Μετρικές αξιολόγησης Verification συστήματος  ac=accuracy=(TP+TN)/(TP+FP+FN+TN)  up=unchanged precision= TP/(TP+FP)  cp=changed precision= TN/(TN+FN)  ur=unchanged recall= TP/(TP+FN)  cr=changed recall= TN/(TN+FP)  Fchanged=(2*cr*cp)/(cr+cp)  Funchanged=(2*ur*up)/(ur+up)

34 RAPTURE DATASET  16 query-able web sites Ενδεικτικά αναφέρουμε : Από κάθε site κάναμε εξαγωγή πληροφορίας από 1 έως και 8 attributes.

35  WEB SITE επίπεδο  ac=100%,up=100%, cp=100%,ur=100%, cr=100%, Fchanged=100% Fchanged=100% Funchanged=100% Funchanged=100%  ATTRIBUTE επίπεδο  ac=99.37%,up=100% cp=96.55%,ur=99.23%, cr=100%, Fchanged=99.82% Fchanged=99.82% Funchanged=99.61% Funchanged=99.61% b!b α210 !α07b!bα1290 !α128

36 Αξιολόγηση wrapper reinduction συστήματος Web site Attributes Πόσα βρέθηκαν σωστά Σχόλια Altavistaτίτλοςυπερσύνδεσμος2/2Ο.Κ Webcrawlerτίτλος % σχετικότητα με query 0/2 Τίτλοι είχαν αλλάξει,% δεν υπήρχε Cinemachine τίτλος ταινίας 1/1Ο.Κ Lycosτίτλοςυπερσύνδεσμος % σχετικότητα με query 2/3 % δεν υπήρχε People yahoo Internet domain(Ι.D) Ονοματεπώνυμο1/2 I.D δεν υπήρχε

37 Παρατήρηση  To reinduction σύστημα μπορεί να χρησιμοποιηθεί για να διευκολύνει το χρήστη να παράγει έναν σωστό wrapper πολύ εύκολα…

38 ΑΞΟΝΕΣ ΠΑΡΟΥΣΙΑΣΗΣ 1. Τι είναι wrapper,πώς παράγεται, ορισμός wrapper maintenance προβλήματος. 2. Σύντομη παρουσίαση ορισμένων εργασιών σε wrapper verification και σε wrapper reinduction. 3. Παρουσίαση της εργασίας μας: Ιδέα, αποτελέσματα. 4. Συμπεράσματα-μελλοντική εργασία.

39 Συμπεράσματα  Ανάπτυξη εύρωστου,content based συστήματος για wrapper verification.  Δεν βασίζεται καθόλου σε HTML πυκνότητες όπως τα προηγούμενα…  Έμφαση στη σημασιολογία.  Παρατηρήθηκε ότι η ιδέα ότι τα ποσοστά των εγγραφών που ακολουθούν κάποιο κοινό pattern να είναι ίδια στο verified & στο training attribute!

40 Μελλοντική εργασία  Εφαρμογή της μεθόδου σε άλλα προβλήματα.  Εκτενή πειράματα για αξιολόγηση wrapper verification συστήματος.  Ανάπτυξη συνθετότερου reinduction συστήματος.


Κατέβασμα ppt "WRAPPER MAINTENANCE Διπλωματική Εργασία Χαράλαμπος Ευτ. Τσουρακάκης Ακαδημαϊκό Έτος:2005-2006."

Παρόμοιες παρουσιάσεις


Διαφημίσεις Google