Η παρουσίαση φορτώνεται. Παρακαλείστε να περιμένετε

Η παρουσίαση φορτώνεται. Παρακαλείστε να περιμένετε

Περίληψη Κειμένου με Διεύρυνση Κειμένου (Single Document Summarization with Document Expansion) Xiaojun Wan and Jianwu Yang Institute of Computer Science.

Παρόμοιες παρουσιάσεις


Παρουσίαση με θέμα: "Περίληψη Κειμένου με Διεύρυνση Κειμένου (Single Document Summarization with Document Expansion) Xiaojun Wan and Jianwu Yang Institute of Computer Science."— Μεταγράφημα παρουσίασης:

1 Περίληψη Κειμένου με Διεύρυνση Κειμένου (Single Document Summarization with Document Expansion) Xiaojun Wan and Jianwu Yang Institute of Computer Science and Technology Peking University, Beijing, China

2 Σχετική εργασία Μέθοδοι περίληψης κειμένου  Βάσει εξαγωγής Κάθε πρόταση βαθμολογείται και ταξινομείται  Βάσει γράφου ταξινόμησης Γράφημα ομοιότητας  βαρύτητα πρότασης Η περίληψη βασίζεται σε πληροφορίες του ίδιου του κειμένου. Δεν γίνεται χρήση συγγενών κειμένων.

3 Προτεινόμενη Προσέγγιση 1. Διεύρυνση Κειμένου (document): Document d 0  Document Set D = {d 1, d 2, d 3,..., d κ } Document d 0  Document Set D = {d 1, d 2, d 3,..., d κ } 2. Περίληψη Κειμένου: a) Γράφημα Συνάφειας προτάσεων των d+1 κειμένων b) Υπολογισμός πληροφοριακότητας κάθε πρότασης c) Αφαίρεση περιττής πληροφορίας Θέλουμε τις προτάσεις με υψηλή πληροφοριακότητα και περιορισμένη περιττή πληροφορία.

4 1. Διεύρυνση Κειμένου D d0d0 d 0  D = {d 1, d 2, d 3,..., d κ } d 0  D = {d 1, d 2, d 3,..., d κ } Αξιολόγηση ομοιότητας κειμένων βάσει Cosine Measure: Αξιολόγηση ομοιότητας κειμένων βάσει Cosine Measure:

5 2. Περίληψη Κειμένου Σφαιρικό Γράφημα συνάφειας προτάσεων Συνολο Προτάσεων, S: Βάρος Συνάφειας 2 Προτάσεων: - - Αν sim >0  Σύνδεση 2 προτάσεων - - Αλλιώς δεν δημιουργείται σύνδεση S0S0 S1S1 S3S3 L1 L2 Σφαιρικό Γράφημα Συνάφειας Τιμές πίνακα συνάφειας λ = 1  ενδοκειμενική λ = sim(d k,d l )  διακειμενική

6 2. Περίληψη Κειμένου Σφαιρικό Γράφημα συνάφειας προτάσεων Σφαιρικό γράφημα, ενδοκειμενικές και διακειμενικές συνδέσεις G ~ M Ενδο-κειμενικό γράφημα συνάφειας G intra ~ M intra Δια-κειμενικό γράφημα συνάφειας G inter ~ M inter

7 2. Περίληψη Κειμένου Υπολογισμός πληροφοριακότητας κάθε πρότασης Βαθμός Πληροφοριακότητας πρότασης S i ο πίνακας που προκύπτει.... και οι μέθοδοι που προκύπτουν... UniformLinkIFScore( S i ) = IFScore all ( S i ) InterLinkIFScore( S i ) = IFScore inter ( S i ) IntraLinkIFScore( S i ) = IFScore intra ( S i )

8 2. Περίληψη Κειμένου Αφαίρεση περιττής πληροφορίας Εξαγωγή από το σφαιρικό γράφημα G ενός υπογραφήματος G d 0 Δημιουργία πίνακα συνάφειας, M d 0 Χρήση MMR αλγορίθμου για μείωση Β.Π. των λιγότερο πληροφοριακών προτάσεων έναντι αυτών με μεγαλύτερο Β.Π. Τελικά η περίληψη βασίζεται στις προτάσεις με τον υψηλότερο Β.Π. οι οποίες είναι πλούσιες σε πληροφορίες και πρωτότυπες.

9 Πλαίσιο αξιολόγησης Κείμενα: DUC 2002 task1 και TREC-9 Μέθοδος: ROUGE (Lin & Hovy, 2003) Κριτήρια ποιότητας περίληψης βάσει ROUGE:  n-gram  Ακολουθίες λέξεων  Ζεύγη λέξεων Φόρμουλα αξιολόγησης:

10 Αποτελέσματα Δια + Ενδο Δια-Κειμ. Ενδο-Κειμ.

11 Πόσα κείμενα στο σύνολο D;


Κατέβασμα ppt "Περίληψη Κειμένου με Διεύρυνση Κειμένου (Single Document Summarization with Document Expansion) Xiaojun Wan and Jianwu Yang Institute of Computer Science."

Παρόμοιες παρουσιάσεις


Διαφημίσεις Google