Περίληψη Κειμένου με Διεύρυνση Κειμένου (Single Document Summarization with Document Expansion) Xiaojun Wan and Jianwu Yang Institute of Computer Science and Technology Peking University, Beijing, China
Σχετική εργασία Μέθοδοι περίληψης κειμένου Βάσει εξαγωγής Κάθε πρόταση βαθμολογείται και ταξινομείται Βάσει γράφου ταξινόμησης Γράφημα ομοιότητας βαρύτητα πρότασης Η περίληψη βασίζεται σε πληροφορίες του ίδιου του κειμένου. Δεν γίνεται χρήση συγγενών κειμένων.
Προτεινόμενη Προσέγγιση 1. Διεύρυνση Κειμένου (document): Document d 0 Document Set D = {d 1, d 2, d 3,..., d κ } Document d 0 Document Set D = {d 1, d 2, d 3,..., d κ } 2. Περίληψη Κειμένου: a) Γράφημα Συνάφειας προτάσεων των d+1 κειμένων b) Υπολογισμός πληροφοριακότητας κάθε πρότασης c) Αφαίρεση περιττής πληροφορίας Θέλουμε τις προτάσεις με υψηλή πληροφοριακότητα και περιορισμένη περιττή πληροφορία.
1. Διεύρυνση Κειμένου D d0d0 d 0 D = {d 1, d 2, d 3,..., d κ } d 0 D = {d 1, d 2, d 3,..., d κ } Αξιολόγηση ομοιότητας κειμένων βάσει Cosine Measure: Αξιολόγηση ομοιότητας κειμένων βάσει Cosine Measure:
2. Περίληψη Κειμένου Σφαιρικό Γράφημα συνάφειας προτάσεων Συνολο Προτάσεων, S: Βάρος Συνάφειας 2 Προτάσεων: - - Αν sim >0 Σύνδεση 2 προτάσεων - - Αλλιώς δεν δημιουργείται σύνδεση S0S0 S1S1 S3S3 L1 L2 Σφαιρικό Γράφημα Συνάφειας Τιμές πίνακα συνάφειας λ = 1 ενδοκειμενική λ = sim(d k,d l ) διακειμενική
2. Περίληψη Κειμένου Σφαιρικό Γράφημα συνάφειας προτάσεων Σφαιρικό γράφημα, ενδοκειμενικές και διακειμενικές συνδέσεις G ~ M Ενδο-κειμενικό γράφημα συνάφειας G intra ~ M intra Δια-κειμενικό γράφημα συνάφειας G inter ~ M inter
2. Περίληψη Κειμένου Υπολογισμός πληροφοριακότητας κάθε πρότασης Βαθμός Πληροφοριακότητας πρότασης S i ο πίνακας που προκύπτει.... και οι μέθοδοι που προκύπτουν... UniformLinkIFScore( S i ) = IFScore all ( S i ) InterLinkIFScore( S i ) = IFScore inter ( S i ) IntraLinkIFScore( S i ) = IFScore intra ( S i )
2. Περίληψη Κειμένου Αφαίρεση περιττής πληροφορίας Εξαγωγή από το σφαιρικό γράφημα G ενός υπογραφήματος G d 0 Δημιουργία πίνακα συνάφειας, M d 0 Χρήση MMR αλγορίθμου για μείωση Β.Π. των λιγότερο πληροφοριακών προτάσεων έναντι αυτών με μεγαλύτερο Β.Π. Τελικά η περίληψη βασίζεται στις προτάσεις με τον υψηλότερο Β.Π. οι οποίες είναι πλούσιες σε πληροφορίες και πρωτότυπες.
Πλαίσιο αξιολόγησης Κείμενα: DUC 2002 task1 και TREC-9 Μέθοδος: ROUGE (Lin & Hovy, 2003) Κριτήρια ποιότητας περίληψης βάσει ROUGE: n-gram Ακολουθίες λέξεων Ζεύγη λέξεων Φόρμουλα αξιολόγησης:
Αποτελέσματα Δια + Ενδο Δια-Κειμ. Ενδο-Κειμ.
Πόσα κείμενα στο σύνολο D;