Template-Independent News Extraction Based on Visual Consistency  Shuyi Zheng  Ruihua Song  Ji-Rong Wen ------------------------------------------ Παπαντωνίου.

Slides:



Advertisements
Παρόμοιες παρουσιάσεις
Μεταπτυχιακή Διατριβή
Advertisements

Πέτσας Δημήτριος Παρουσίαση στο μάθημα: Ψηφιακές Βιβλιοθήκες
Βάσεις Δεδομένων Ευαγγελία Πιτουρά1 Λογικός Σχεδιασμός Σχεσιακών Σχημάτων: Αποσύνθεση.
Συνάφεια Κρυφής Μνήμης σε Επεκτάσιμα Μηχανήματα. Συστήματα με Κοινή ή Κατανεμημένη Μνήμη  Σύστημα μοιραζόμενης μνήμης  Σύστημα κατανεμημένης μνήμης.
ΠΡΟΤΥΠΑ ΜΑΘΗΣΙΑΚΩΝ ΤΕΧΝΟΛΟΓΙΩΝ ΠΑΡΟΥΣΙΑΣΗ ΚΑΙ ΔΙΔΑΚΤΙΚΑ ΟΦΕΛΗ Ενότητα 3.7 – Β’ Μέρος.
Χαράλαμπος Ευτ. Τσουρακάκης
Η μηχανική μάθηση στην αντιμετώπιση της Υπερπληροφόρησης
Ανάκτηση & Εξαγωγή Πληροφορίας στο Διαδίκτυο Γιώργος Παλιούρας Εργαστήριο Τεχνολογίας Γνώσεων & Λογισμικού Ινστιτούτο Πληροφορικής & Τηλεπικοινωνιών Ε.Κ.Ε.Φ.Ε.
Project Εξαμήνου 2008 Χρήση Ενισχυτικής Μάθησης Για Την Εύρεση Πολιτικών Του Παιχνιδιού Με Χαρτιά Poker. Μιχάλης Τρουλλινός ΑΜ:
Αναγνώριση Προτύπων.
Συνέπεια Τόξου (Arc Consistency)
Αναγνώριση Προτύπων.
1 ΕΝΤΟΛΕΣ ΠΛΗΡΟΦΟΡΙΩΝ ΓΕΝΙΚΕΣ ΠΛΗΡΟΦΟΡΙΕΣΓΕΝΙΚΕΣ ΠΛΗΡΟΦΟΡΙΕΣ ΘΕΣΗ ΣΗΜΕΙΟΥΘΕΣΗ ΣΗΜΕΙΟΥ ΑΠΟΣΤΑΣΗΑΠΟΣΤΑΣΗ ΕΜΒΑΔΟΝΕΜΒΑΔΟΝ.
ΕΥΡΕΣΗ ΚΑΤΗΓΟΡΙΚΩΝ ΕΚΤΟΠΩΝ ΣΕ ΒΙΒΛΙΟΓΡΑΦΙΚΗ ΒΑΣΗ ΔΕΔΟΜΕΝΩΝ
Για τη διδασκαλία των πολυμέσων 1/15 ΛΟΓΙΣΜΙΚΟ ΑΝΑΠΤΥΞΗΣ ΕΦΑΡΜΟΓΩΝ ΠΟΛΥΜΕΣΩΝ Ομάδα Ανάπτυξης Ομάδα Ανάπτυξης: Φίλιππος Δεληγιάννης, Παναγιώτης Κωστάκης,
Ενεργή επιλογή αλγορίθμου, Active Algorithm Selection, Feilong Chen and Rong Jin Εύα Σιταρίδη.
ΙΟΝΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΕΤΑΠΤΥΧΙΑΚΟ ΠΡΟΓΡΑΜΜΑ ΣΠΟΥΔΩΝ ΕΡΓΑΣΙΑ ΣΤΟ ΜΑΘΗΜΑ «ΨΗΦΙΑΚΕΣ ΒΙΒΛΙΟΘΗΚΕΣ» ΜΕ ΘΕΜΑ: A Comparison of Methodic Segmentation Techniques for.
E X a M p L e Αξιοποιώντας την τεχνολογία XML στη διαχείριση της πληροφορίας Λίνα Μπουντούρη Εθνικό Κέντρο Τεκμηρίωσης 13ο Πανελλήνιο Συνέδριο Ακαδημαϊκών.
ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ Information Extraction.
Drupal Themeing. Προυποθέσεις βασικές γνώσεις HTML/ CSS στοιχειώδης κατανόηση της PHP εξοικείωση με το drupal.
ΙΟΝΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΤΜΗΜΑ ΑΡΧΕΙΟΝΟΜΙΑΣ- ΒΙΒΛΙΟΘΗΚΟΝΟΜΙΑΣ ΗΛΕΚΤΡΟΝΙΚΗ ΔΗΜΟΣΙΕΥΣΗ Υπεύθυνος καθηγητής: κος. Σ. Καπιδάκης Επιμελήτρια: Παπαγιάννη Ανδρονίκη.
Διπλωματική Εργασία Πειραματική Αξιολόγηση της Μοναδιαίας Οκνηρής Συνέπειας Τόξου (Singleton Lazy Arc Consistency) Ιωαννίδης Γιώργος (ΑΕΜ: 491)
Γραφικό Περιβάλλον Συγγραφής Κανόνων στο Σημασιολογικό Διαδίκτυο Διπλωματική Εργασία της Βασιλικής Ζερβάκη Επιβλέπων Καθηγητής: Νικόλαος Βασιλειάδης Θεσσαλονίκη.
Βάσεις Δεδομένων Ευαγγελία Πιτουρά1 Λογικός Σχεδιασμός Σχεσιακών Σχημάτων.
ΗΛΕΚΤΡΟΝΙΚΗ ΔΗΜΟΣΙΕΥΣΗ: ΠΑΡΑΠΟΜΠΕΣ ΤΜΗΜΑ ΑΡΧΕΙΟΝΟΜΙΑΣ ΒΙΒΛΙΟΘΗΚΟΝΟΜΙΑΣ ΤΣΙΦΛΙΔΟΥ ΕΥΘΥΜΙΑ ΥΔΡΑΙΟΥ ΙΩΑΝΝΑ.
Εμμανουήλ-Μάνος Γεροθανάσης Ευάγγελος Μπέκος
Πρόβλεψη Θέσης Χρήστη σε Κινητά Δίκτυα - Ταξινομητής Βέλτιστης Παύσης Σπύρος Γεωργάκης Διπλωματική Εργασία.
Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1 Ευρετήρια.
1ο Εργαστήριο Οργάνωση Παραγωγής I
Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1 Ευρετήρια.
On user-defined features Christoph M Hoffmann and Robert Joan-Arinyo Ανδρέας Φωτίου.
Λογισμικό Εκπαίδευσης M- Pedia Ελευθέριος Μιχαηλίδης Διευθύνων Σύμβουλος, M-Data
Εφαρμογές Πολυμέσων: Εισαγωγή στην HTML (1)
Advanced Data Indexing (Προηγμένη ευρετηρίαση δεδομένων) Ροές Δεδομένων (3 ο Μέρος)
ΠΤΥΧΙΑΚΗ ΕΡΓΑΣΙΑ: ΤΑΞΙΝΟΜΗΣΗ ΨΗΦΙΑΚΩΝ ΕΙΚΟΝΩΝ ΜΕ ΧΩΡΙΚΗ-ΣΗΜΑΣΙΟΛΟΓΙΚΗ ΑΝΤΙΣΤΟΙΧΗΣΗ ΣΠΟΥΔΑΣΤΗΣ : ΦΩΤΙΑΔΗΣ ΚΥΡΙΑΚΟΣ Α.Μ ΕΠΙΒΛΕΠΩΝ : Δρ. ΝΙΚΟΛΑΙΔΗΣ.
Γλώσσες Προγραμματισμού Μεταγλωττιστές Πίνακας Συμβόλων Πανεπιστήμιο Μακεδονίας Τμήμα Εφαρμοσμένης Πληροφορικής Ηλίας Σακελλαρίου.
HTML/CSS: Εισαγωγή Θερινό Σχολείο, 14 – 20 Ιουλίου 2014 Γιώργος Φουρτούνης Μονάδα Αριστείας ΕΛ/ΛΑΚ ΤΕΙ Αθήνας.
ΘΕΑΤΡΟΠΑΙΔΑΓΩΓΙΚΟ ΠΡΟΓΡΑΜΜΑ ΣΕ ΣΥΝΕΡΓΑΣΙΑ ΜΕ ΤΟ ΣΥΛΛΟΓΟ ΑΜΕΑ ΑΡΓΟΛΙΔΑΣ.
Καλώς ήλθατε, μαθητές! Όνομα δασκάλου. Πρόγραμμα τάξης 8:15 - 9:00Το σχολείο ξεκινά, παίρνουμε παρουσίες 9: :00Ανάγνωση και έκθεση 10: :00Ορθογραφία.
Ασκήσεις WEKA Δέντρα αποφάσεων.
ΕΞΟΡΥΞΗ ΓΝΩΣΗΣ ΑΠΟ ΒΑΣΗ ΔΕΔΟΜΕΝΩΝ ΜΕ ΧΡΗΣΗ JAVA: ΤΟ ΛΟΓΙΣΜΙΚΟ WEKA
Βασικές Έννοιες της Πληροφορικής
Ευρετήρια Βάσεις Δεδομένων Ευαγγελία Πιτουρά.
Πανεπιστήμιο Θεσσαλίας Παιδαγωγικό Τμήμα Ειδικής Αγωγής
Δυναμικός Κατακερματισμός
Independent Component Analysis (ICA)
Παπαγεωργίου Ελένη ΑΕΜ : 2272
Άθλημα Πετοσφαίρισης Βογιατζή Ίριδα-Βοϊλα Έφη.
Άκουσμα Διαδικτυακό λογισμικό για αλλόφωνους μαθητές με δραστηριότητες για την κατανόηση προφορικού λόγου.
Κανονικοπηση(normalization)
ΕΜΠΟΔΙΑ ΣΥΜΒΟΥΛΕΥΤΙΚΗΣ ΔΙΑΔΙΚΑΣΙΑΣ
Όνομα σχολείου Ημερομηνία
Ανάπτυξη Εφαρμογών σε Προγραμματιστικό Περιβάλλον ΑΕΠΠ
ΥΠΟΛΟΓΙΣΜΟΣ ΚΑΘΑΡΟΥ ΚΕΡΔΟΥΣ ΑΠΌ ΤΗΝ ΑΓΡΟΤΙΚΗ ΔΡΑΣΤΗΡΙΟΤΗΤΑ
ΕΝΟΤΗΤΑ 1 – Κεφάλαιο 1: Ο Υπολογιστής και η Επεξεργασία των Δεδομένων
Διδασκαλία εννοιών προγραμματισμού με το Scratch για τις Ε’ και ΣΤ’ δημοτικού Η παρούσα σειρά μαθημάτων ΤΠΕ υλοποιήθηκε στο 15ο Δημοτικό Σχολείο.
Εισαγωγή στα Ευρετήρια
ΔΙΠΛΩΜΑΤΙΚΗ ΜΕΤΑΠΤΥΧΙΑΚΗ ΕΡΓΑΣΙΑ Γεώργιος Τζούμας (ΑΕΜ:45)  
Javascript – Χειρισμός της σελίδας
ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ
Πείθουμε τους εαυτούς μας ότι η ζωή μας θα είναι καλύτερη όταν θα παντρευτούμε, θα αποκτήσουμε ένα μωρό, μετά ένα ακόμα. Μετά αγχωνόμαστε διότι τα παιδιά.
Εννοιολογική Χαρτογράφηση
Άκουσμα Διαδικτυακό λογισμικό για αλλόφωνους μαθητές με δραστηριότητες για την κατανόηση προφορικού λόγου.
Η Ιστοσελίδα της Α΄ Τάξης Αυτή η πολύ απλή σελίδα είναι φτιαγμένη
ΤΙΤΛΟΣ ΤΗΣ ΕΚΔΗΛΩΣΗΣ ΣΑΣ
Καλώς ήλθατε, μαθητές! Όνομα δασκάλου.
Πείθουμε τους εαυτούς μας ότι η ζωή μας θα είναι καλύτερη όταν θα παντρευτούμε, θα αποκτήσουμε ένα μωρό, μετά ένα ακόμα. Μετά αγχωνόμαστε διότι τα παιδιά.
Πείθουμε τους εαυτούς μας ότι η ζωή μας θα είναι καλύτερη όταν θα παντρευτούμε, θα αποκτήσουμε ένα μωρό, μετά ένα ακόμα. Μετά αγχωνόμαστε διότι τα παιδιά.
Δυναμικός Κατακερματισμός
Παράδειγμα στόχος Έμπνευση Ενέργειες/εργασίες Πόροι Σκέψεις
Μεταγράφημα παρουσίασης:

Template-Independent News Extraction Based on Visual Consistency  Shuyi Zheng  Ruihua Song  Ji-Rong Wen Παπαντωνίου Κατερίνα Μ840 10/1/2008

Εισαγωγή  Ανήκει στην περιοχή του Web Information Extraction  Επιλογή για μελέτη του domain των ειδήσεων  Δυο προσεγγίσεις: 1.Εξαγωγή δομημένων δεδομένων σε επίπεδο template Παραδοσιακή προσέγγιση  Τ-Wrapper (template- dependent)  Βασίζεται στην συνέπεια των HTML DOM trees  Αυξημένο κόστος για διατήρηση wrapper  Δεν αντιμετωπίζουν αποτελεσματικά: Έλλειψη δομικής συνέπειας Την πληθώρα τοπολογικών δομών 2.Τεχνικές με χρήση οπτικής πληροφορίας

Visual Wrapper  Κατασκεύη ενός V-wrapper: για ολόκληρο το domain ανεξάρτητου από template προσομοιώνει την ανθρώπινη συμπεριφορά βασίζεται στην οπτική συνέπεια

Προσέγγιση 1.Αναπαράσταση Δεδομένων 2.Χρήση Οπτικών Χαρακτηριστικών Βασικά Επεκτάσιμα 3.Εκμάθηση του V-Wrapper 4.Εξαγωγή του Νέων απο τον V- Wrapper

Αναπαράσταση Δεδομένων  Μετατροπή κάθε Web Page σε visual tree  Visual Block: ορατή ορθογώνια περιοχή σε μια Web Page με σταθερή θέση και μη μηδενικό μέγεθος. Αντιστοιχεί σε ένα ζεύγος ΗΤΜL tags π.χ και  Το είδος των tags δεν χρησιμοποιείται για την εκμάθηση του wrapper

Visual Tree

Οπτικά Χαρακτηριστικά  Η ομοιότητα μεταξύ web pages προκύπτει με τη χρήση οπτικών χαρακτηριστικών  Βασικά: Θέσης  Left, Top, NestedDepth Μεγέθους  Width, Height Μορφής  FontSize, isBoldFont, isItalicFont Στατιστικά  ImageNumber, HyperLinkNumber, TextLength,ParagraphNumber,ItalicParagraphNumber,BoldParg raphNumber,TableNumber  Επεκτάσιμα ‘parent-child’ σχέση και όχι τοπολογική δόμή Parent Block and Child Block: με δεδόμενα δυο visual blocks b1, b2 το b1 είναι parent του b2 έαν το b1 καλύπτει το b2 και δεν υπάρχει b3 στην ίδια σελίδα που το b1 να καλύπτει το b3 και το b3 να καλύπτει το b2. Έχει οριστεί ένα σύνολο  Π.χ RelativeWidthOfParent=Width/ParentWidth

Εκμάθηση του Vision Wrapper(1)  Σύνθετο Οπτικό Χαρακτηριστικό: Συνδυασμός πολλών οπτικών χαρακηριστικών σε ένα σύνθετο Χρήση του Adaboost για την εκμάθηση του σύνθετου χαρακτηριστικού  Διαχωρισμός blocks: Inner Block  έχει τουλάχιστον ένα παιδί Leaf Block  διαφορετικά  Training Data: Με το χέρι γίνεται ο σχολιασμός των leaf block ως: L = {Title,Content,Others} Θεώρημα:ένα inner block είναι positive έαν δεν έχει χαρακτηριστεί others κάποιο από τα child block του L′ {PI,NI}

Εκμάθηση του Vision Wrapper(2)  Προσομοίωση της ανθρώπινης συμπεριφοράς 1.Επιλογή όλων των inner blocks με τα labels και εκπαίδευση ενός ταξινομητή για το έαν περιέχεται κάποια είδηση 2.Επιλογή όλων PI και εκπαίδευση ενός ταξινομήτη για να προβλεφθεί ποιο label ταιρίάζει σε κάθε leaf block

Εξαγωγή Ειδήσεων 1.Εξαγωγή των leaf blocks που οι γονείς τους είναι positive inner blocks ως υποψήφια block Χρήση μια αναδρομικής και top-down διαδικασίας 2.O leaf block classifier χρησιμοποείται για να ταιρίαξει κάθε leaf block με labels  Το αποτέλεσμα είναι η πληροφορία που θα πρέπει να εξαχθεί από μια σελίδα p

Αποτελέσματα Υπερτερεί του T-Wrapper και στα 3 μεγέθη Ο μέσος όρος της F1-value είναι 94.96%

Συμπεράσματα Καλύπτει αποτελεσματικά ολόκληρο το domain χωρίς να χρειάζεται retrain για διαφορετικές σελίδες Κέρδος σε χρόνο και χρήμα Τα λάθη προέρχονται κυρίως από πληροφορία θορύβου Είναι ανεξάρτητος από templates Επέκταση σε άλλα domain

Adaboost  1997 – Γενικευμένη έκδοση AdaBoost (Schapire & Singer)  Αλγόριθμος για την κατασκευή ενός “strong” ταξινομητή ως γραμμικός συνδυασμός απλών “weak” ταξινομητών (feature)