Η παρουσίαση φορτώνεται. Παρακαλείστε να περιμένετε

Η παρουσίαση φορτώνεται. Παρακαλείστε να περιμένετε

ΙΟΝΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΤΜΗΜΑ ΑΡΧΕΙΟΝΟΜΙΑΣ & ΒΙΒΛΙΟΘΗΚΟΝΟΜΙΑΣ ΠΜΣ: «ΕΠΙΣΤΗΜΗ ΤΗΣ ΠΛΗΡΟΦΟΡΙΑΣ» ΜΑΘΗΜΑ: ΗΛΕΚΤΡΟΝΙΚΗ ΔΗΜΟΣΙΕΥΣΗ ΕΡΓΑΣΙΑ: MULTI-DOCUMENT SUMMARIZATIONS.

Παρόμοιες παρουσιάσεις


Παρουσίαση με θέμα: "ΙΟΝΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΤΜΗΜΑ ΑΡΧΕΙΟΝΟΜΙΑΣ & ΒΙΒΛΙΟΘΗΚΟΝΟΜΙΑΣ ΠΜΣ: «ΕΠΙΣΤΗΜΗ ΤΗΣ ΠΛΗΡΟΦΟΡΙΑΣ» ΜΑΘΗΜΑ: ΗΛΕΚΤΡΟΝΙΚΗ ΔΗΜΟΣΙΕΥΣΗ ΕΡΓΑΣΙΑ: MULTI-DOCUMENT SUMMARIZATIONS."— Μεταγράφημα παρουσίασης:

1 ΙΟΝΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΤΜΗΜΑ ΑΡΧΕΙΟΝΟΜΙΑΣ & ΒΙΒΛΙΟΘΗΚΟΝΟΜΙΑΣ ΠΜΣ: «ΕΠΙΣΤΗΜΗ ΤΗΣ ΠΛΗΡΟΦΟΡΙΑΣ» ΜΑΘΗΜΑ: ΗΛΕΚΤΡΟΝΙΚΗ ΔΗΜΟΣΙΕΥΣΗ ΕΡΓΑΣΙΑ: MULTI-DOCUMENT SUMMARIZATIONS ΔΙΔΑΣΚΩΝ: ΚΑΠΙΔΑΚΗΣ ΣΑΡΑΝΤΟΣ ΦΟΙΤΗΤΗΣ: ΠΕΤΡΙΔΗΣ ΚΩΝΣΤΑΝΤΙΝΟΣ

2 ΠΕΡΙΛΗΨΗ-ΟΡΙΣΜΟΣ Το κείμενο που παράγεται από ένα ή περισσότερα άλλα κείμενα, μεταφέρει σημαντικό κομμάτι της πληροφορίας που υπάρχει στο/στα αρχικό/α κείμενο/α και συνήθως είναι αρκετά μικρότερο σε έκταση από το μισό του αρχικού κειμένου.

3 ΠΕΡΙΛΗΨΗ-ΟΡΙΣΜΟΣ Κείμενο:  Κλασσικό κείμενο βιβλίου  Καταγεγραμμένη ομιλία  Multimedia τεκμήριο  Υπερκείμενο

4 ΒΑΣΙΚΟΣ ΣΤΟΧΟΣ Παρουσίαση κύριων ιδεών του τεκμηρίου σε λιγότερο χώρο απ’ ότι στο τεκμήριο, δίνοντας μια συνοπτική, αλλά μεστή περιγραφή αυτού. Επιτυγχάνεται, λόγω διαφορετικής ποσότητας πληροφορίας που περιέχουν οι προτάσεις του κειμένου.

5 MULTI-DOCUMENT SUMMARIZATION Δημιουργία περίληψης για ομάδα τεκμηρίων Κύριες κατηγορίες:  Generic multi-document summarization  Topic-focused multi-document summarization

6 MULTI-DOCUMENT SUMMARIZATION Generic multi-document summarization Επιδιώκει να παρουσιάσει γενικά τη συνολική πληροφορία της ομάδας τεκμηρίων, διευκολύνοντας τον χρήστη στην κατανόηση του περιεχομένου της ομάδας. Topic-focused multi-document summarization Επιδιώκει να προσαρμόσει κατάλληλα την περίληψη, ώστε να απαντά σε κάποια πληροφοριακή ανάγκη που έχει εκφράσει κάποιος χρήστης. Είναι χρήσιμη για εξατομικευμένες υπηρεσίες.

7 MULTI-DOCUMENT SUMMARIZATION Μια άλλη κατηγοριοποίηση:  Abstractive summarization  Extractive summarization

8 MULTI-DOCUMENT SUMMARIZATION Abstractive summarization Περίληψη σε μορφή σύνοψης/επιτομής Χρειάζεται: Συγχώνευση πληροφορίας Συμπύκνωση προτάσεων Γενική αναμόρφωση του τελικού κειμένου Extractive summarization Περίληψη σε μορφή αποσπάσματος Χρησιμοποίηση προτάσεων των αρχικών τεκμηρίων. Βασίζεται στην κατάλληλη επιλογή των προτάσεων, ανάλογα με την ποσότητα της πληροφορίας που αυτές έχουν.

9 MULTI-DOCUMENT SUMMARIZATION ΠΡΟΚΛΗΣΕΙΣ  Ύπαρξη αρκετής πληροφορίας άσχετης με το κύριο θέμα.  Αλληλοεπικάλυψη πληροφοριών σε διαφορετικά τεκμήρια της ομάδας.  (Για Topic-focused) Ανάγκη για παρουσίαση σημαντικής πληροφορίας, ανάλογα με την πληροφοριακή ανάγκη του χρήστη.

10 ΑΛΓΟΡΙΘΜΟΙ ΥΛΟΠΟΙΗΣΗΣ ΠΕΡΙΛΗΨΕΩΝ Supervised Αλγόριθμοι που εκπαιδεύονται πάνω σε συλλογές από περιλήψεις, οι οποίες έχουν δημιουργηθεί για σχετικά μεγάλο αριθμό τεκμηρίων. Μειονέκτημα: Ανάγκη παροχής νέου «εκπαιδευτικού» υλικού, όταν επιχειρηθεί προσαρμογή τους σε άλλους επιστημονικούς τομείς ή άλλες γλώσσες.

11 ΑΛΓΟΡΙΘΜΟΙ ΥΛΟΠΟΙΗΣΗΣ ΠΕΡΙΛΗΨΕΩΝ Unsupervised Αλγόριθμοι που δεν χρειάζονται επιπλέον δεδομένα όταν επιχειρηθεί η προσαρμογή τους σε άλλους επιστημονικούς τομείς. Χαρακτηριστικό παράδειγμα: Graph-based ranking algorithms

12 GRAPH-BASED RANKING ALGORITHMS Γράφημα: Σύνολο από σημεία (κορυφές) και από γραμμές ή βέλη (ακμές), μεταξύ των σημείων. Χρησιμοποιείται ευρέως για αναπαράσταση σχέσεων και ιεραρχιών μεταξύ διαφόρων οντοτήτων.

13 GRAPH-BASED RANKING ALGORITHMS Τα γραφήματα χρησιμοποιούνται στη δημιουργία περιλήψεων για αναπαράσταση σχέσεων μεταξύ προτάσεων μιας ομάδας τεκμηρίων και κατάδειξη επιπέδων σημαντικότητας, όσον αφορά την ποσότητα της πληροφορίας που αυτές μεταφέρουν.

14 GRAPH-BASED RANKING ALGORITHMS Υλοποίηση της ιδέας του «recommendation»: Η πρόταση του κειμένου που παραπέμπει σε συγκεκριμένες έννοιες δίνει στον αναγνώστη μια σύσταση (recommendation), για να αναφερθεί σε άλλες προτάσεις του κειμένου, που παραπέμπουν στις ίδιες έννοιες. Έτσι, σχεδιάζεται ένας σύνδεσμος (ακμή) ανάμεσα σε δύο τέτοιες προτάσεις (κορυφές) που μοιράζονται παρόμοιο περιεχόμενο. Όσο περισσότερες συνδέσεις έχει μια κορυφή, τόσο σημαντικότερη θεωρείται.

15 ΕΝΟΠΟΙΗΜΕΝΗ ΠΡΟΣΕΓΓΙΣΗ ΓΙΑ GENERIC KAI TOPIC-FOCUSED MULTI-DOCUMENT SUMMARIZATION ΜΕ ΧΡΗΣΗ AFFINITY GRAPH Βασίζεται σε: Χρήση ασύμμετρων μετρικών ομοιότητας προτάσεων (asymmetric similarity measures), για την καλύτερη μέτρηση της βαρύτητας της ομοιότητας δύο προτάσεων. Ενσωμάτωση στο γράφημα πληροφορίας που σχετίζεται με το συγκεκριμένο θέμα που έχει εκφραστεί από το χρήστη (topic), για την ενιαία δημιουργία generic και topic-focused multi- document περίληψης. Διαφοροποίηση των intra-document και inter-document συνδέσμων ανάμεσα σε προτάσεις. Ενσωμάτωση στην όλη διαδικασία της diversity penalty process, για την απαλοιφή των περιττών στοιχείων από την τελική περίληψη.

16 ΕΝΟΠΟΙΗΜΕΝΗ ΠΡΟΣΕΓΓΙΣΗ ΓΙΑ GENERIC KAI TOPIC-FOCUSED MULTI-DOCUMENT SUMMARIZATION ΜΕ ΧΡΗΣΗ AFFINITY GRAPH Βήματα υλοποίησης: 1.Δόμηση του affinity graph. Για topic-focused περίληψη οι ακμές του γραφήματος είναι και topic-oriented, δηλαδή δίνουν βαρύτητα και στην πληροφοριακή ανάγκη του χρήστη. 2.Υπολογισμός του information richness για κάθε πρόταση αποδίδοντας σε κάθε πρόταση αντίστοιχη βαθμολογία. 3.Επιβολή του diversity penalty για τελική κατάταξη των προτάσεων.

17 ΠΕΙΡΑΜΑΤΙΚΗ ΑΞΙΟΛΟΓΗΣΗ Διεξήχθησαν πειράματα στα πλαίσια των συνεδρίων DUC ( Document Understanding Conferences) url: http://www-nlpir.nist.gov/projects/duc

18 ΠΕΙΡΑΜΑΤΙΚΗ ΑΞΙΟΛΟΓΗΣΗ Αποτελέσματα: Εξίσου καλή ή καλύτερη λειτουργία σε σχέση με υφιστάμενα συστήματα. Οι σύνδεσμοι inter-document είναι σημαντικότεροι των intra-document για multi- document summarization.

19 ΕΠΙΛΟΓΟΣ-ΠΡΟΟΠΤΙΚΕΣ Στις μέχρι τώρα μελέτες, οι λέξεις και οι προτάσεις θεωρούνταν ανεξάρτητες η μία από την άλλη, ως προς τη σημασιολογία τους, και οι όποιες επικαλύψεις αυτές είχαν (overlaps) υπολογίζονταν με καθαρά γραμματικά ή συντακτικά κριτήρια.

20 ΕΠΙΛΟΓΟΣ-ΠΡΟΟΠΤΙΚΕΣ Μελλοντικός στόχος: Η ενσωμάτωση στο γράφημα των σημασιολογικών (semantic) σχέσεων μεταξύ λέξεων και προτάσεων, καθώς έτσι θα λαμβάνονται υπόψη οι ουσιαστικές σχέσεις των προτάσεων.

21 ΣΑΣ ΕΥΧΑΡΙΣΤΩ ΕΙΣΑΣΤΕ ΕΝΑ ΥΠΕΡΟΧΟ ΚΟΙΝΟ!!!!!


Κατέβασμα ppt "ΙΟΝΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΤΜΗΜΑ ΑΡΧΕΙΟΝΟΜΙΑΣ & ΒΙΒΛΙΟΘΗΚΟΝΟΜΙΑΣ ΠΜΣ: «ΕΠΙΣΤΗΜΗ ΤΗΣ ΠΛΗΡΟΦΟΡΙΑΣ» ΜΑΘΗΜΑ: ΗΛΕΚΤΡΟΝΙΚΗ ΔΗΜΟΣΙΕΥΣΗ ΕΡΓΑΣΙΑ: MULTI-DOCUMENT SUMMARIZATIONS."

Παρόμοιες παρουσιάσεις


Διαφημίσεις Google