Template-Independent News Extraction Based on Visual Consistency Shuyi Zheng Ruihua Song Ji-Rong Wen Παπαντωνίου Κατερίνα Μ840 10/1/2008
Εισαγωγή Ανήκει στην περιοχή του Web Information Extraction Επιλογή για μελέτη του domain των ειδήσεων Δυο προσεγγίσεις: 1.Εξαγωγή δομημένων δεδομένων σε επίπεδο template Παραδοσιακή προσέγγιση Τ-Wrapper (template- dependent) Βασίζεται στην συνέπεια των HTML DOM trees Αυξημένο κόστος για διατήρηση wrapper Δεν αντιμετωπίζουν αποτελεσματικά: Έλλειψη δομικής συνέπειας Την πληθώρα τοπολογικών δομών 2.Τεχνικές με χρήση οπτικής πληροφορίας
Visual Wrapper Κατασκεύη ενός V-wrapper: για ολόκληρο το domain ανεξάρτητου από template προσομοιώνει την ανθρώπινη συμπεριφορά βασίζεται στην οπτική συνέπεια
Προσέγγιση 1.Αναπαράσταση Δεδομένων 2.Χρήση Οπτικών Χαρακτηριστικών Βασικά Επεκτάσιμα 3.Εκμάθηση του V-Wrapper 4.Εξαγωγή του Νέων απο τον V- Wrapper
Αναπαράσταση Δεδομένων Μετατροπή κάθε Web Page σε visual tree Visual Block: ορατή ορθογώνια περιοχή σε μια Web Page με σταθερή θέση και μη μηδενικό μέγεθος. Αντιστοιχεί σε ένα ζεύγος ΗΤΜL tags π.χ και Το είδος των tags δεν χρησιμοποιείται για την εκμάθηση του wrapper
Visual Tree
Οπτικά Χαρακτηριστικά Η ομοιότητα μεταξύ web pages προκύπτει με τη χρήση οπτικών χαρακτηριστικών Βασικά: Θέσης Left, Top, NestedDepth Μεγέθους Width, Height Μορφής FontSize, isBoldFont, isItalicFont Στατιστικά ImageNumber, HyperLinkNumber, TextLength,ParagraphNumber,ItalicParagraphNumber,BoldParg raphNumber,TableNumber Επεκτάσιμα ‘parent-child’ σχέση και όχι τοπολογική δόμή Parent Block and Child Block: με δεδόμενα δυο visual blocks b1, b2 το b1 είναι parent του b2 έαν το b1 καλύπτει το b2 και δεν υπάρχει b3 στην ίδια σελίδα που το b1 να καλύπτει το b3 και το b3 να καλύπτει το b2. Έχει οριστεί ένα σύνολο Π.χ RelativeWidthOfParent=Width/ParentWidth
Εκμάθηση του Vision Wrapper(1) Σύνθετο Οπτικό Χαρακτηριστικό: Συνδυασμός πολλών οπτικών χαρακηριστικών σε ένα σύνθετο Χρήση του Adaboost για την εκμάθηση του σύνθετου χαρακτηριστικού Διαχωρισμός blocks: Inner Block έχει τουλάχιστον ένα παιδί Leaf Block διαφορετικά Training Data: Με το χέρι γίνεται ο σχολιασμός των leaf block ως: L = {Title,Content,Others} Θεώρημα:ένα inner block είναι positive έαν δεν έχει χαρακτηριστεί others κάποιο από τα child block του L′ {PI,NI}
Εκμάθηση του Vision Wrapper(2) Προσομοίωση της ανθρώπινης συμπεριφοράς 1.Επιλογή όλων των inner blocks με τα labels και εκπαίδευση ενός ταξινομητή για το έαν περιέχεται κάποια είδηση 2.Επιλογή όλων PI και εκπαίδευση ενός ταξινομήτη για να προβλεφθεί ποιο label ταιρίάζει σε κάθε leaf block
Εξαγωγή Ειδήσεων 1.Εξαγωγή των leaf blocks που οι γονείς τους είναι positive inner blocks ως υποψήφια block Χρήση μια αναδρομικής και top-down διαδικασίας 2.O leaf block classifier χρησιμοποείται για να ταιρίαξει κάθε leaf block με labels Το αποτέλεσμα είναι η πληροφορία που θα πρέπει να εξαχθεί από μια σελίδα p
Αποτελέσματα Υπερτερεί του T-Wrapper και στα 3 μεγέθη Ο μέσος όρος της F1-value είναι 94.96%
Συμπεράσματα Καλύπτει αποτελεσματικά ολόκληρο το domain χωρίς να χρειάζεται retrain για διαφορετικές σελίδες Κέρδος σε χρόνο και χρήμα Τα λάθη προέρχονται κυρίως από πληροφορία θορύβου Είναι ανεξάρτητος από templates Επέκταση σε άλλα domain
Adaboost 1997 – Γενικευμένη έκδοση AdaBoost (Schapire & Singer) Αλγόριθμος για την κατασκευή ενός “strong” ταξινομητή ως γραμμικός συνδυασμός απλών “weak” ταξινομητών (feature)