Η παρουσίαση φορτώνεται. Παρακαλείστε να περιμένετε

Η παρουσίαση φορτώνεται. Παρακαλείστε να περιμένετε

Template-Independent News Extraction Based on Visual Consistency  Shuyi Zheng  Ruihua Song  Ji-Rong Wen ------------------------------------------ Παπαντωνίου.

Παρόμοιες παρουσιάσεις


Παρουσίαση με θέμα: "Template-Independent News Extraction Based on Visual Consistency  Shuyi Zheng  Ruihua Song  Ji-Rong Wen ------------------------------------------ Παπαντωνίου."— Μεταγράφημα παρουσίασης:

1 Template-Independent News Extraction Based on Visual Consistency  Shuyi Zheng  Ruihua Song  Ji-Rong Wen Παπαντωνίου Κατερίνα Μ840 10/1/2008

2 Εισαγωγή  Ανήκει στην περιοχή του Web Information Extraction  Επιλογή για μελέτη του domain των ειδήσεων  Δυο προσεγγίσεις: 1.Εξαγωγή δομημένων δεδομένων σε επίπεδο template Παραδοσιακή προσέγγιση  Τ-Wrapper (template- dependent)  Βασίζεται στην συνέπεια των HTML DOM trees  Αυξημένο κόστος για διατήρηση wrapper  Δεν αντιμετωπίζουν αποτελεσματικά: Έλλειψη δομικής συνέπειας Την πληθώρα τοπολογικών δομών 2.Τεχνικές με χρήση οπτικής πληροφορίας

3

4 Visual Wrapper  Κατασκεύη ενός V-wrapper: για ολόκληρο το domain ανεξάρτητου από template προσομοιώνει την ανθρώπινη συμπεριφορά βασίζεται στην οπτική συνέπεια

5 Προσέγγιση 1.Αναπαράσταση Δεδομένων 2.Χρήση Οπτικών Χαρακτηριστικών Βασικά Επεκτάσιμα 3.Εκμάθηση του V-Wrapper 4.Εξαγωγή του Νέων απο τον V- Wrapper

6 Αναπαράσταση Δεδομένων  Μετατροπή κάθε Web Page σε visual tree  Visual Block: ορατή ορθογώνια περιοχή σε μια Web Page με σταθερή θέση και μη μηδενικό μέγεθος. Αντιστοιχεί σε ένα ζεύγος ΗΤΜL tags π.χ και  Το είδος των tags δεν χρησιμοποιείται για την εκμάθηση του wrapper

7 Visual Tree

8 Οπτικά Χαρακτηριστικά  Η ομοιότητα μεταξύ web pages προκύπτει με τη χρήση οπτικών χαρακτηριστικών  Βασικά: Θέσης  Left, Top, NestedDepth Μεγέθους  Width, Height Μορφής  FontSize, isBoldFont, isItalicFont Στατιστικά  ImageNumber, HyperLinkNumber, TextLength,ParagraphNumber,ItalicParagraphNumber,BoldParg raphNumber,TableNumber  Επεκτάσιμα ‘parent-child’ σχέση και όχι τοπολογική δόμή Parent Block and Child Block: με δεδόμενα δυο visual blocks b1, b2 το b1 είναι parent του b2 έαν το b1 καλύπτει το b2 και δεν υπάρχει b3 στην ίδια σελίδα που το b1 να καλύπτει το b3 και το b3 να καλύπτει το b2. Έχει οριστεί ένα σύνολο  Π.χ RelativeWidthOfParent=Width/ParentWidth

9 Εκμάθηση του Vision Wrapper(1)  Σύνθετο Οπτικό Χαρακτηριστικό: Συνδυασμός πολλών οπτικών χαρακηριστικών σε ένα σύνθετο Χρήση του Adaboost για την εκμάθηση του σύνθετου χαρακτηριστικού  Διαχωρισμός blocks: Inner Block  έχει τουλάχιστον ένα παιδί Leaf Block  διαφορετικά  Training Data: Με το χέρι γίνεται ο σχολιασμός των leaf block ως: L = {Title,Content,Others} Θεώρημα:ένα inner block είναι positive έαν δεν έχει χαρακτηριστεί others κάποιο από τα child block του L′ {PI,NI}

10 Εκμάθηση του Vision Wrapper(2)  Προσομοίωση της ανθρώπινης συμπεριφοράς 1.Επιλογή όλων των inner blocks με τα labels και εκπαίδευση ενός ταξινομητή για το έαν περιέχεται κάποια είδηση 2.Επιλογή όλων PI και εκπαίδευση ενός ταξινομήτη για να προβλεφθεί ποιο label ταιρίάζει σε κάθε leaf block

11 Εξαγωγή Ειδήσεων 1.Εξαγωγή των leaf blocks που οι γονείς τους είναι positive inner blocks ως υποψήφια block Χρήση μια αναδρομικής και top-down διαδικασίας 2.O leaf block classifier χρησιμοποείται για να ταιρίαξει κάθε leaf block με labels  Το αποτέλεσμα είναι η πληροφορία που θα πρέπει να εξαχθεί από μια σελίδα p

12

13 Αποτελέσματα Υπερτερεί του T-Wrapper και στα 3 μεγέθη Ο μέσος όρος της F1-value είναι 94.96%

14 Συμπεράσματα Καλύπτει αποτελεσματικά ολόκληρο το domain χωρίς να χρειάζεται retrain για διαφορετικές σελίδες Κέρδος σε χρόνο και χρήμα Τα λάθη προέρχονται κυρίως από πληροφορία θορύβου Είναι ανεξάρτητος από templates Επέκταση σε άλλα domain

15 Adaboost  1997 – Γενικευμένη έκδοση AdaBoost (Schapire & Singer)  Αλγόριθμος για την κατασκευή ενός “strong” ταξινομητή ως γραμμικός συνδυασμός απλών “weak” ταξινομητών (feature)


Κατέβασμα ppt "Template-Independent News Extraction Based on Visual Consistency  Shuyi Zheng  Ruihua Song  Ji-Rong Wen ------------------------------------------ Παπαντωνίου."

Παρόμοιες παρουσιάσεις


Διαφημίσεις Google