Κατέβασμα παρουσίασης
Η παρουσίαση φορτώνεται. Παρακαλείστε να περιμένετε
ΔημοσίευσεAindreas Takes Τροποποιήθηκε πριν 9 χρόνια
1
Περίληψη Κειμένου με Διεύρυνση Κειμένου (Single Document Summarization with Document Expansion) Xiaojun Wan and Jianwu Yang Institute of Computer Science and Technology Peking University, Beijing, China
2
Σχετική εργασία Μέθοδοι περίληψης κειμένου Βάσει εξαγωγής Κάθε πρόταση βαθμολογείται και ταξινομείται Βάσει γράφου ταξινόμησης Γράφημα ομοιότητας βαρύτητα πρότασης Η περίληψη βασίζεται σε πληροφορίες του ίδιου του κειμένου. Δεν γίνεται χρήση συγγενών κειμένων.
3
Προτεινόμενη Προσέγγιση 1. Διεύρυνση Κειμένου (document): Document d 0 Document Set D = {d 1, d 2, d 3,..., d κ } Document d 0 Document Set D = {d 1, d 2, d 3,..., d κ } 2. Περίληψη Κειμένου: a) Γράφημα Συνάφειας προτάσεων των d+1 κειμένων b) Υπολογισμός πληροφοριακότητας κάθε πρότασης c) Αφαίρεση περιττής πληροφορίας Θέλουμε τις προτάσεις με υψηλή πληροφοριακότητα και περιορισμένη περιττή πληροφορία.
4
1. Διεύρυνση Κειμένου D d0d0 d 0 D = {d 1, d 2, d 3,..., d κ } d 0 D = {d 1, d 2, d 3,..., d κ } Αξιολόγηση ομοιότητας κειμένων βάσει Cosine Measure: Αξιολόγηση ομοιότητας κειμένων βάσει Cosine Measure:
5
2. Περίληψη Κειμένου Σφαιρικό Γράφημα συνάφειας προτάσεων Συνολο Προτάσεων, S: Βάρος Συνάφειας 2 Προτάσεων: - - Αν sim >0 Σύνδεση 2 προτάσεων - - Αλλιώς δεν δημιουργείται σύνδεση S0S0 S1S1 S3S3 L1 L2 Σφαιρικό Γράφημα Συνάφειας Τιμές πίνακα συνάφειας λ = 1 ενδοκειμενική λ = sim(d k,d l ) διακειμενική
6
2. Περίληψη Κειμένου Σφαιρικό Γράφημα συνάφειας προτάσεων Σφαιρικό γράφημα, ενδοκειμενικές και διακειμενικές συνδέσεις G ~ M Ενδο-κειμενικό γράφημα συνάφειας G intra ~ M intra Δια-κειμενικό γράφημα συνάφειας G inter ~ M inter
7
2. Περίληψη Κειμένου Υπολογισμός πληροφοριακότητας κάθε πρότασης Βαθμός Πληροφοριακότητας πρότασης S i ο πίνακας που προκύπτει.... και οι μέθοδοι που προκύπτουν... UniformLinkIFScore( S i ) = IFScore all ( S i ) InterLinkIFScore( S i ) = IFScore inter ( S i ) IntraLinkIFScore( S i ) = IFScore intra ( S i )
8
2. Περίληψη Κειμένου Αφαίρεση περιττής πληροφορίας Εξαγωγή από το σφαιρικό γράφημα G ενός υπογραφήματος G d 0 Δημιουργία πίνακα συνάφειας, M d 0 Χρήση MMR αλγορίθμου για μείωση Β.Π. των λιγότερο πληροφοριακών προτάσεων έναντι αυτών με μεγαλύτερο Β.Π. Τελικά η περίληψη βασίζεται στις προτάσεις με τον υψηλότερο Β.Π. οι οποίες είναι πλούσιες σε πληροφορίες και πρωτότυπες.
9
Πλαίσιο αξιολόγησης Κείμενα: DUC 2002 task1 και TREC-9 Μέθοδος: ROUGE (Lin & Hovy, 2003) Κριτήρια ποιότητας περίληψης βάσει ROUGE: n-gram Ακολουθίες λέξεων Ζεύγη λέξεων Φόρμουλα αξιολόγησης:
10
Αποτελέσματα Δια + Ενδο Δια-Κειμ. Ενδο-Κειμ.
11
Πόσα κείμενα στο σύνολο D;
Παρόμοιες παρουσιάσεις
© 2024 SlidePlayer.gr Inc.
All rights reserved.