Χαράλαμπος Ευτ. Τσουρακάκης WRAPPER MAINTENANCE Διπλωματική Εργασία Χαράλαμπος Ευτ. Τσουρακάκης Ακαδημαϊκό Έτος:2005-2006
ΑΞΟΝΕΣ ΠΑΡΟΥΣΙΑΣΗΣ Τι είναι wrapper,πώς παράγεται, ορισμός wrapper maintenance προβλήματος. Σύντομη παρουσίαση ορισμένων εργασιών σε wrapper verification και σε wrapper reinduction. Παρουσίαση της εργασίας μας: Ιδέα , αποτελέσματα. Συμπεράσματα-μελλοντική εργασία.
Το 80% των ιστοσελίδων περιέχουν δεδομένα τα οποία προέρχονται από μία ΒΔ.
Tι είναι ο web wrapper? Web wrapper είναι ένα πρόγραμμα το οποίο με βάση ένα σύνολο κανόνων εξάγει αυτόματα πληροφορία από ιστοσελίδες και την αποθηκεύει σε μία δομημένη μορφή. To σύνολο των κανόνων βασίζεται στην κανονικότητα που υπάρχει στην παρουσίαση της πληροφορίας στον χρήστη (layout).
Data Integration & wrappers
Τρόποι παραγωγής wrappers 1ος τρόπος Πρόγραμμα σε κάποια γλώσσα. Ασύμφορο…. 2ος τρόπος Wrapper Induction System Είσοδος:Σύνολο ιστοσελίδων με παραδείγματα επιθυμητής πληροφορίας. Έξοδος: wrapper
Wrapper Maintenance Οι ιστοσελίδες αρκετά συχνά αλλάζουν layout, ακόμα και περιεχόμενο. Το σύνολο των κανόνων εξαγωγής του wrapper παύει να εξάγει την επιθυμητή πληροφορία. Wrapper Maintenance= Wrapper verification+ Wrapper reinduction
ΑΞΟΝΕΣ ΠΑΡΟΥΣΙΑΣΗΣ Τι είναι wrapper,πώς παράγεται, ορισμός wrapper maintenance προβλήματος. Σύντομη παρουσίαση ορισμένων εργασιών σε wrapper verification και σε wrapper reinduction. Παρουσίαση της εργασίας μας: Ιδέα , αποτελέσματα. Συμπεράσματα-μελλοντική εργασία.
STRAWMAN
RAPTURE Πρώτη content based μέθοδος [Kushmerick] Πυκνότητα HTML χαρακτήρων = Τ.Μ που ακολουθεί την κανονική κατανομή Για τις testing σελίδες υπολογίζει με βάση τις εκτιμήτριες μ1,σ1 τις πιθανότητες για κάθε γνώρισμα τα εξαγόμενα δεδομένα ανά attribute να παίρνουν τις τιμές τους. Testing probability με βάση μ2,σ2 Σύγκριση testing probability με threshold Από την verified πληροφορία υπολογίζει τις εκτιμήτριες μ1,σ1 καθώς και τις πιθανότητες τα εξαγόμενα δεδομένα για το κάθε attribute να παίρνουν τις τιμές τους. Verified probability και υπολογισμός μ2,σ2 Άλλα γνωρίσματα : Πυκνότητα γραμμάτων, πυκνότητα ψηφίων, πυκνότητα χαρακτήρων στίξης,πλήθος tokens,μήκος tokens.
Wrapper Verification (Lerman,Minton,Knoblock) Βελτίωση RAPTURE αλγόριθμου. DATAPROG αλγόριθμος εύρεσης patterns πληροφορίας. Στατιστικός έλεγχος Pearson. Για κάθε κοινό pattern προσθέτει έναν όρο της μορφής N=#tuples training attribute, n=#tuples testing attribute, ri=#tuples που ακολουθούν το pattern pi
WRAPPER REINDUCTION (Raposo, Pan, Viña, Álvarez ) Αποθήκευση αποτελεσμάτων queries κατά τη διάρκεια της ορθής λειτουργίας του wrapper σε ΒΔ. Εξεύρεση παραδειγμάτων στις αλλαγμένες ιστοσελίδες. «Τροφοδότηση» WI συστήματος με αλλαγμένες ιστοσελίδες και παραδείγματα.
ΑΞΟΝΕΣ ΠΑΡΟΥΣΙΑΣΗΣ Τι είναι wrapper,πώς παράγεται, ορισμός wrapper maintenance προβλήματος. Σύντομη παρουσίαση ορισμένων εργασιών σε wrapper verification και σε wrapper reinduction. Παρουσίαση της εργασίας μας: Ιδέα , αποτελέσματα. Συμπεράσματα-μελλοντική εργασία.
Γιατί δόθηκε έμφαση στο wrapper verification? Ένα καλό reinduction σύστημα χωρίς ένα καλό verification σύστημα δεν αποδίδει καλά. Η ανάγκη για αυτοματοποίηση του verification μέρους είναι μεγαλύτερη από του reinduction λόγω της ύπαρξης WI systems.
ARMAGEDDON ΧΑΡΑΚΤΗΡΙΣΤΙΚΑ VERIFICATION module Content based σύστημα. Σύνθετος αλγόριθμος:εκμεταλλεύεται όσο περισσότερο τη δομή την εξαγόμενης πληροφορίας. Εύρωστο. Πολύ καλή απόδοση στο verification task. ΧΑΡΑΚΤΗΡΙΣΤΙΚΑ REINDUCTION module Απλή ιδέα Καλή απόδοση σε σελίδες με στατικό περιεχόμενο. Βοηθητικό εργαλείο για τον χρήστη. Να τονίσω γιατί δόθηκε ιδιαίτερη έμφαση στο verification σύστημα!
Verification System Είσοδοι: Training attribute , Testing Attribute. Άρα παρόμοια δομή και παρόμοια patterns !!!
Στάδια Verification αλγορίθμου
Κατασκευή Διανυσμάτων Μεταπληροφορίας
Παράδειγμα διανύσματος Παράδειγμα διανύσματος Είσοδος 12 Aiginitoy Street 11 Antifylou Street 42 Hrwwn Polytexneiou Street 25 Laodikeias Street 53 Papagou Avenue Διάνυσμα <address,5,1, *INTEGER* *CAPITALIZED* *CAPITALIZED*,5, 0.101, 0.111, 0.707,0,5.6875,3.2>
Μάθηση Patterns Κατασκευή ιεραρχίας token types. CS123 ALPHANUM 12 INTEGER 12.3 DECIMAL DATABASE ALLUPPERCASE course ALLLOWERCASE ! PUNCT Alice CAPITALIZED TheBook ALPHABETIC
Μάθηση Patterns Προσδιορισμός μήκους starting patterns με βάση το μέσο πλήθος λεκτικών μονάδων ανά εγγραφή. Null Hypothesis Testing. Κεντρικό οριακό θεώρημα. Ζ-test
Πώς λειτουργεί? (1) Θέση 1: Ο τύπος CAPITALIZED δεν είναι στατιστικά σημαντικός (null hypothesis). Αν απορριφθεί η μηδενική υπόθεση:
Πώς λειτουργεί? (2) Θέση 2: Ο τύπος ΑLPHANUMERIC δεν είναι στατιστικά σημαντικός μετά το τύπο CAPITALIZED(null hypothesis). Αν απορριφθεί η μηδενική υπόθεση:
Πώς λειτουργεί? (3) Παράγεται ένα PATTERN tree. βάθος=f(μέσο πλήθος tokens/εγγραφή). Διάσχιση του δένδρου δίνει τα starting patterns!
Έλεγχος Pearson (goodness of fit method) Training (ver) και testing (test) διανύσματα μεταπληροφορίας. Έλεγχος ομοιότητας διανυσμάτων. Για digDen(x1),..,averNumOfTokensPerLine(x6):
Σύστημα ποινών Αν q<Χ όπου Χ=χ^2(freedomDegrees-1,0.05) τότε το σύστημα εισέρχεται σε ένα σύστημα ποινών. ΠΟΙΝΗ γιατί q αυξάνεται χωρίς να αυξάνονται αντίστοιχα οι βαθμοί ελευθερίας. Σύνθετο σύστημα Ίδια σημασιολογία παρόμοια patterns
Βασικές έννοιες του συστήματος ποινών (1) Ομάδες συσχετιζόμενων token types. Ομάδα1={“*”,”ALPHANUM”}, Ομάδα2={“ALPHABETIC”,”ALLUPPERCASE”,”ALLLOWERCASE”,”CAPITALIZED”,”*”} Ομάδα3={“INTEGER”,”DECIMAL”,”*”} Συσχετιζόμενα patterns. Αν υπάρχει 1-1 αντιστοιχία μεταξύ των token types σε τουλάχιστον ένα πλήθος θέσεων, το οποίο είναι συνάρτηση της πολυπλοκότητας του πλήθους tokens του μικρότερου pattern. Συσχετιζόμενα σύνολα patterns P1={p11,..,p1m},P2={p21,..,p2n}. Αν κάθε pattern p1i είναι συσχετιζόμενο με κάποιο p2j και αντιστρόφως.
Βασικές έννοιες του συστήματος ποινών (2) Πλήθος εγγραφών στο training attribute που μας επιτρέπουν να έχουμε αυξημένη πεποίθηση ότι έχουμε δει τα περισσότερα από τα patterns κατά την εκπαίδευση. Διάκριση περιπτώσεων για τη σχέση των συνόλων patterns Pver & Ptest.
Βασικές έννοιες του συστήματος ποινών (3) Άλλες παράμετροι που λαμβάνονται υπ’όψιν είναι: Πληθικότητες Pver & Ptest & Pcommon Ποσοστό εγγραφών του Ptest που καλύπτονται από τα κοινά patterns.
Reinduction System Προσαρμοσμένο στην υλοποίηση του STALKER που διαθέταμε (single και όχι multi slot extractor). Brute force αλγόριθμος αναζήτησης παραδειγμάτων ορθής πληροφορίας στις αλλαγμένες ιστοσελίδες. Έξοδος : annotation files στο format που θέλει ο STALKER.
Ενδεχόμενα λειτουργίας verification συστήματος α = Το σύστημα συμπεραίνει ότι ο wrapper λειτουργεί σωστά b = Στην πραγματικότητα ο wrapper λειτουργεί σωστά 4 ενδεχόμενα λειτουργία του συστήματος b !b α TP FP !α FN TN TP=true positive, FP=false positive, FN=false negative, TN= true negative
Μετρικές αξιολόγησης Verification συστήματος ac=accuracy=(TP+TN)/(TP+FP+FN+TN) up=unchanged precision= TP/(TP+FP) cp=changed precision= TN/(TN+FN) ur=unchanged recall= TP/(TP+FN) cr=changed recall= TN/(TN+FP) Fchanged=(2*cr*cp)/(cr+cp) Funchanged=(2*ur*up)/(ur+up)
RAPTURE DATASET 16 query-able web sites Ενδεικτικά αναφέρουμε : www.altavista.com, www.uk.lycos.de, www.thriveonline.com , www.news.com, www.usnews.com Από κάθε site κάναμε εξαγωγή πληροφορίας από 1 έως και 8 attributes.
WEB SITE επίπεδο ATTRIBUTE επίπεδο Fchanged=99.82% b !b α 21 !α 7 b !b ac=100%,up=100%, cp=100%,ur=100%, cr=100%, Fchanged=100% Funchanged=100% ATTRIBUTE επίπεδο ac=99.37%,up=100% cp=96.55%,ur=99.23%, cr=100%, Fchanged=99.82% Funchanged=99.61% b !b α 21 !α 7 b !b α 129 !α 1 28
Αξιολόγηση wrapper reinduction συστήματος Web site Attributes Πόσα βρέθηκαν σωστά Σχόλια Altavista τίτλος υπερσύνδεσμος 2/2 Ο.Κ Webcrawler % σχετικότητα με query 0/2 Τίτλοι είχαν αλλάξει,% δεν υπήρχε Cinemachine τίτλος ταινίας 1/1 Lycos 2/3 % δεν υπήρχε People yahoo Internet domain(Ι.D) Ονοματεπώνυμο 1/2 I.D δεν υπήρχε
Παρατήρηση To reinduction σύστημα μπορεί να χρησιμοποιηθεί για να διευκολύνει το χρήστη να παράγει έναν σωστό wrapper πολύ εύκολα…
ΑΞΟΝΕΣ ΠΑΡΟΥΣΙΑΣΗΣ Τι είναι wrapper,πώς παράγεται, ορισμός wrapper maintenance προβλήματος. Σύντομη παρουσίαση ορισμένων εργασιών σε wrapper verification και σε wrapper reinduction. Παρουσίαση της εργασίας μας: Ιδέα , αποτελέσματα. Συμπεράσματα-μελλοντική εργασία.
Συμπεράσματα Ανάπτυξη εύρωστου,content based συστήματος για wrapper verification. Δεν βασίζεται καθόλου σε HTML πυκνότητες όπως τα προηγούμενα… Έμφαση στη σημασιολογία. Παρατηρήθηκε ότι η ιδέα ότι τα ποσοστά των εγγραφών που ακολουθούν κάποιο κοινό pattern να είναι ίδια στο verified & στο training attribute!
Μελλοντική εργασία Εφαρμογή της μεθόδου σε άλλα προβλήματα. Εκτενή πειράματα για αξιολόγηση wrapper verification συστήματος. Ανάπτυξη συνθετότερου reinduction συστήματος.