Η παρουσίαση φορτώνεται. Παρακαλείστε να περιμένετε

Η παρουσίαση φορτώνεται. Παρακαλείστε να περιμένετε

ΙΟΝΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΤΜΗΜΑ ΑΡΧΕΙΟΝΟΜΙΑΣ – ΒΙΒΛΙΟΘΗΚΟΝΟΜΙΑΣ ΜΠΣ «ΕΠΙΣΤΗΜΗ ΤΗΣ ΠΛΗΡΟΦΟΡΙΑΣ: ΥΠΗΡΕΣΙΕΣ ΠΛΗΡΟΦΟΡΗΣΗΣ ΣΕ ΨΗΦΙΑΚΟ ΠΕΡΙΒΑΛΛΟΝ» Εργασία για το μάθημα:

Παρόμοιες παρουσιάσεις


Παρουσίαση με θέμα: "ΙΟΝΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΤΜΗΜΑ ΑΡΧΕΙΟΝΟΜΙΑΣ – ΒΙΒΛΙΟΘΗΚΟΝΟΜΙΑΣ ΜΠΣ «ΕΠΙΣΤΗΜΗ ΤΗΣ ΠΛΗΡΟΦΟΡΙΑΣ: ΥΠΗΡΕΣΙΕΣ ΠΛΗΡΟΦΟΡΗΣΗΣ ΣΕ ΨΗΦΙΑΚΟ ΠΕΡΙΒΑΛΛΟΝ» Εργασία για το μάθημα:"— Μεταγράφημα παρουσίασης:

1 ΙΟΝΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΤΜΗΜΑ ΑΡΧΕΙΟΝΟΜΙΑΣ – ΒΙΒΛΙΟΘΗΚΟΝΟΜΙΑΣ ΜΠΣ «ΕΠΙΣΤΗΜΗ ΤΗΣ ΠΛΗΡΟΦΟΡΙΑΣ: ΥΠΗΡΕΣΙΕΣ ΠΛΗΡΟΦΟΡΗΣΗΣ ΣΕ ΨΗΦΙΑΚΟ ΠΕΡΙΒΑΛΛΟΝ» Εργασία για το μάθημα: ΗΛΕΚΤΡΟΝΙΚΗ ΔΗΜΟΣΙΕΥΣΗ (διδάσκων: Καπιδάκης Σαράντος) “ΣΥΣΤΗΜΑ ΣΥΝΟΨΙΣΗΣ ΠΟΛΛΑΠΛΩΝ ΚΕΙΜΕΝΩΝ ΓΙΑ ΠΕΡΙΛΗΨΕΙΣ ΔΙΑΤΡΙΒΩΝ ΚΟΙΝΩΝΙΟΛΟΓΙΑΣ: Σχεδιασμός, Εφαρμογή και Αξιολόγηση ” (των Shiyan Ou, Christopher S.G. Khoo, Dion H. Goh, Τμήμα Επιστήμης Πληροφορίας, Σχολή Επικοινωνιών και Πληροφορίας, Τεχνολογικό Πανεπιστημίο Σιγκαπούρης ) Επιμέλεια εργασίας: Μαυρομιχάλη Μαρίνα Κέρκυρα, Ιούνιος 2007

2 Εισαγωγικά  Τι είναι η συνόψιση πολλαπλών κειμένων; Η δημιουργία μιας ενιαίας περίληψης για ένα σύνολο ξεχωριστών εγγράφων (εδώ με αυτόματο τρόπο).  Γιατί ενιαία περίληψη και όχι ξεχωριστές; 1. Παρέχει μια ολοκληρωμένη επισκόπηση ενός συνόλου κειμένων ή εγγράφων που παρουσιάζουν κοινές πληροφορίες σαν σύνολο. 2. Δίνει τη δυνατότητα να εντοπιστούν οι σχέσεις ανάμεσα στα διάφορα κείμενα και επιτρέπει στους χρήστες να εστιάσουν σε θέματα του ενδιαφέροντος τους με μεγαλύτερη ακρίβεια.  Γιατί μελετάται στα πλαίσια της Ηλεκτρονικής Δημοσίευσης; Γιατί σχετίζεται με τις διαδικασίες αξιοποίησης και ευκολότερης διάχυσης των επιστημονικών πληροφοριών που διατίθενται ηλεκτρονικά.

3 Στόχοι Γενικοί:  Να απεγκλωβιστεί η γνώση από φορείς και υπηρεσίες όπως τα πανεπιστήμια και οι συμβατικές βιβλιοθήκες.  Να υποστηριχθεί η ευρεία διακίνηση της πληροφορίας σε ηλεκτρονική μορφή και βασισμένη στο Διαδίκτυο Ειδικοί:  Δημιουργία ενιαίας περίληψης για ένα σύνολο περιλήψεων διατριβών, ώστε να μην δημιουργείται πληροφοριακή κόπωση (κάθε περίληψη περιέχει λέξεις)  Αξιοποίηση του συστήματος αυτόματης συνόψισης από συναφείς υπηρεσίες (Ψηφιακές Βιβλιοθήκες) με τρόπο που θα διευκολύνει την αναζήτηση του χρήστη πάνω σε ένα συγκεκριμένο θέμα

4 Συστήματα Συνόψισης – Γενικά (1/2) Οι βασικές προσεγγίσεις που συνήθως χρησιμοποιούνται για τη συνόψιση πολλαπλών κειμένων περιλαμβάνει:  εξαγωγή προτάσεων (ομαδοποίηση των προτάσεων από όλα τα κείμενα και επιλογή ενός μικρού αριθμού από κάθε ομάδα)  εξαγωγή πληροφοριών με χρήση οδηγού (εξαγωγή κομματιών πληροφορίας τα οποία προστίθενται σε έναν προκαθορισμένο οδηγό)  αναγνώριση διαφορών και ομοιοτήτων μεταξύ των εγγράφων (εξαγωγή πληροφοριών που είναι κοινές ή επαναλαμβανόμενες στα διάφορα κείμενα, καθώς επίσης και τις πληροφορίες που είναι μοναδικές σε κάθε μεμονωμένο κείμενο)

5 Συστήματα Συνόψισης – Γενικά (2/2) Οι υπάρχουσες προσεγγίσεις για τη δημιουργία ενιαίας περίληψης, παρουσιάζουν τα εξής μειονεκτήματα:  εστιάζουν περισσότερο σε φυσικές γενικότητες (λέξεις, φράσεις, προτάσεις, παράγραφοι) και επιφανειακή ανάλυση, δίχως να εστιάζουν ιδιαίτερα σε ένα σημασιολογικό περιεχόμενο ή σημασιολογικές σχέσεις που μπορεί να παρουσιάζουν τα κείμενα μεταξύ τους.  παράγουν σταθερές, προκαθορισμένες περιλήψεις που δεν ανταποκρίνονται στα διαφορετικά ενδιαφέροντα του κάθε χρήστη.

6 Το Σύστημα Συνοψισμού της έρευνας (1/2) Η συγκεκριμένη έρευνα δεν χρησιμοποίησε παραδοσιακές προσεγγίσεις, αλλά επικεντρώθηκε στο σημασιολογικό περιεχόμενο των κειμένων μέσα από τη μελέτη:  Μεταβλητών (μια συγκεκριμένη έννοια που μελετάται στα πλαίσια μιας συγκεκριμένης έρευνας)  Τιμών (η τιμή κάθε έννοιας μπορεί να αλλάζει κατά περίπτωση)  Σχέσεων ανάμεσα στις τιμές (π.χ. σύγκριση, αιτία-αποτέλεσμα, κλπ) Οι διαφορές και οι ομοιότητες ανάμεσα στις περιλήψεις των διατριβών γίνονται εμφανείς κυρίως μέσα από τις μεταβλητές και τις μεταξύ τους σχέσεις

7 Το Σύστημα Συνοψισμού της έρευνας 2/2  Αναπτύχθηκε μια υποδομή βασισμένη στις μεταβλητές προκειμένου να: 1. να ενοποιήσει τις ίδιες τις μεταβλητές που εξάγονται από διαφορετικές περιλήψεις, και τις μεταξύ τους σχέσεις ώστε να 2. δημιουργήσει μια ενιαία περίληψη για ένα σύνολο διατριβών με κοινό θέμα  Η υποδομή έχει μια ιεραρχική δομή στην οποία οι συνοψισμένες πληροφορίες βρίσκονται στο υψηλότερο επίπεδο και οι πιο λεπτομερείς και εξειδικευμένες πληροφορίες βρίσκονται στο κατώτερο

8

9 Επισκόπηση του Συστήματος Το σύστημα συνόψισης αποτελείται από 5 τμήματα και δημιουργεί μια ροή για τα δεδομένα που εισέρχονται. Κάθε τμήμα διεκπεραιώνει μια διαδικασία συνόψισης: 1.προ-επεξεργασία δεδομένων 2.ανάλυση των διατριβών σε μακροεπίπεδο 3.εξαγωγή πληροφοριών 4.ενοποίηση των πληροφοριών 5.παρουσίαση των περιλήψεων

10 Επισκόπηση του Συστήματος

11 Τα στάδια Συνόψισης (1/6) 1.Προ-επεξεργασία Δεδομένων Οι εισερχόμενες περιλήψεις εισάγονται σε HTML. Μετατρέπονται σε XML και αναλύονται γραμματικά σε προτάσεις και στη συνέχεια σε λεκτικές αποδόσεις με ετικέτες τα μέρη του λόγου. 2. Ανάλυση σε μακροεπίπεδο Αναγνώριση 5 ενοτήτων (ιστορικό, στόχοι έρευνας, μεθοδολογία έρευνας, αποτελέσματα έρευνας και συμπερασματικά σχόλια) και κατηγοριοποίηση των προτάσεων σε μια από αυτές. Σημαντική η παρουσία φράσεων-δεικτών στην αρχή κάθε πρότασης που διευκολύνει την ένταξή της σε κάποια ενότητα. π.χ. “Σκοπός αυτής της μελέτης είναι…” “Τα αποτελέσματα απέδειξαν… ”

12 Τα στάδια Συνόψισης (2/6) 3.Εξαγωγή Πληροφοριών Οι πληροφορίες που εξήχθησαν από τις περιλήψεις των διατριβών ανήκαν σε τέσσερις κατηγορίες: Εξαγωγή με τη χρήση  μεταβλητές της έρευνας  σχέσεις μεταξύ μεταβλητών * όρων  μέθοδοι έρευνας * γλωσσικών σχημάτων  σχέσεις περιβάλλοντος Όροι = ακολουθίες λέξεων διαφορετικού μήκους, π.χ. όροι 1λέξης, 2λέξεων, 3λέξεων, ….. π.χ. όροι 1λέξης: effectiveness, preschool, teacher όροι 2λέξεων: preschool teacher, young child όροι 3λέξεων: effectiveness of preschool, teachers of India

13 Τα στάδια Συνόψισης (3/6) Εξαγωγή πληροφοριών i. Όροι διαφορετικού μήκους συγκρίθηκαν και όσοι είχαν επικαλυπτόμενες λεκτικές αποδόσεις συνδέθηκαν ώστε να σχηματίσουν έναν ολοκληρωμένο όρο Ένας ολόκληρος όρος αναπαριστά μια συγκεκριμένη έννοια του κειμένου και βοηθά στην αναγνώριση των 4 ειδών πληροφορίας, π.χ. αναγνώριση κ εξαγωγή μεταβλητών μέσα από ολόκληρους όρους της ενότητας “στόχοι έρευνας” αναγνώριση κ εξαγωγή μεθόδων έρευνας από όρους της ενότητας “μέθοδοι έρευνας” (χειροκίνητη δημιουργία λίστας)

14 Τα στάδια Συνόψισης (4/6) Εξαγωγή πληροφοριών ii. Σχέσεις Μέσα από ένα δείγμα 300 περιλήψεων διατριβών υπήρξε η αναγνώριση 126 σχημάτων σχέσεων. Αυτά τα σχήματα ανήκουν σε 5 κατηγορίες συγκεκριμένων τύπων σχέσεων που συχνά μελετώνται στις κοινωνιολογικές έρευνες: 1.Σχέσεις αιτίας – αποτελέσματος: μια μεταβλητή προκαλεί αλλαγή ή έχει επίδραση επάνω σε μια άλλη. 2.Συσχετισμός: η αλλαγή σε μια μεταβλητή συνοδεύεται από αλλαγή σε μια άλλη. 3.Σχέσεις σύγκρισης: ύπαρξη διαφορών ανάμεσα σε δύο ή περισσότερες μεταβλητές. 4.Σχέσεις πρόγνωσης: μια μεταβλητή προβλέπει μια άλλη. 5.Σχέσεις δευτέρου βαθμού: η σχέση ανάμεσα σε δύο ή περισσότερες μεταβλητές επηρεάζεται από μια τρίτη.

15 Τα στάδια Συνόψισης (5/6) 4. Ενοποίηση Πληροφοριών Περιλαμβάνει 3 φάσεις:  Χωρισμός των ολόκληρων όρων  Δημιουργία αλυσίδων όρων  Δημιουργία δέντρων ομάδων Σε μια αλυσίδα, ο όρος 1λέξης αποτελεί τη βασική έννοια, ενώ ο όρος με τις περισσότερες λέξεις αποτελεί την ολοκληρωμένη έννοια. Οι έννοιες στα κατώτερα επίπεδα μπορούν να συνοψισθούν από ευρύτερες έννοιες σε υψηλότερα επίπεδα. Τελικά, παρόμοιες έννοιες σε διαφορετικά επίπεδα ομαδοποιούνται αυτόματα.

16 Αλυσίδα όρων

17 Τα στάδια Συνόψισης (6/6) 5. Παρουσίαση Περίληψης Τελικό αποτέλεσμα: -δημιουργία διαδραστικών περιλήψεων, οι οποίες επιτρέπουν στους χρήστες να μελετήσουν ένα θέμα σε βάθος ανάλογα με το ενδιαφέρον τους. -δυνατότητα επιλογής υπερσυνδέσμων και όχι παρουσίαση της περιλήψεις με την παραδοσιακή μορφή κειμένου. -οι τελικές περιλήψεις παρουσιάζονται σε μορφή HTML που μπορεί να προβληθεί μέσα από έναν φυλλομετρητή ιστού. Μέρη περίληψης: 1. κύρια περίληψη 2. λίστες των μεμονωμένων κειμένων που παρουσίαζαν τις ίδιες έννοιες και τελικά συνοψίσθηκαν 3. περιλήψεις των διατριβών στην τελική τους μορφή

18

19 Αξιολόγηση Σκοπός της αξιολόγησης ήταν να υπολογιστεί η ακρίβεια και η αποτελεσματικότητα δυο σημαντικών βημάτων συνόψισης: η εξαγωγή πληροφοριών και η ενοποίηση πληροφοριών δεδομένου ότι επηρεάζουν το τελικό αποτέλεσμα του συστήματος συνόψισης. Μέτρο σύγκρισης: ένα αποτέλεσμα προερχόμενο από ανθρώπινη επεξεργασία. Επιλέχθηκαν, ως προγραμματιστές (human coders), μεταπτυχιακοί φοιτητές Κοινωνικών Επιστημών, που ανέλαβαν την αντίστοιχη χειροκίνητη διαδικασία. Μέρη Σύγκρισης: οι έννοιες που εξήγαγαν οι φοιτητές με εκείνες που εξήγαγε το σύστημα.

20 Αποτελέσματα Αξιολόγησης Οι τρεις προγραμματιστές εξήγαγαν έννοιες τριών επιπέδων σημαντικότητας - σημαντικές, σημαντικότερες, πιο σημαντικές έννοιες. Η σύγκριση της αυτοματοποιημένης με την χειροκίνητη διαδικασία απέδειξε ότι:  η ανάλυση της διατριβής σε μακρο-επίπεδο ήταν χρήσιμη για την αναγνώριση των σημαντικότερων εννοιών του θέματος, και ότι  η ακρίβεια στην αυτοματοποιημένη διαδικασία εξαγωγής πληροφοριών ήταν αποδεκτή.  για την ενοποίηση των πληροφοριών, χρησιμοποιήθηκε μια ιεραρχική ομαδοποίηση εννοιών, η οποία παρήγαγε αρκετά καλές ομάδες, σε σύγκριση με τις ομάδες που παρήγαγαν οι άνθρωποι.

21 Βιβλιογραφία - Δικτυογραφία  S. Ou, C. S.G. Khoo, D. H. Goh, Summarization System for Sociology Dissertation Abstracts: Design, Implementation and Evaluation, LNCS, issue 3652, p  National Institute of Standards and Technology: Document Understanding Conferences (2002) nlpir.nist.gov/projects/duc/index.htmlhttp://www- nlpir.nist.gov/projects/duc/index.html  Βάση Τηλεπικοινωνιακών Όρων TELETERM (http://www.moto-teleterm.gr/search_gr.asp) Βάση Τηλεπικοινωνιακών Όρων TELETERMhttp://www.moto-teleterm.gr/search_gr.asp  Otterbacher, J.C., A.J., & Radev, D.R., The Michigan single and multi-document summarizer for DUC, (Document Understanding Conferences, 2002). nlpir.nist.gov/projects/duc/pubs/2002papers/umich otter.pdfhttp://www- nlpir.nist.gov/projects/duc/pubs/2002papers/umich otter.pdf  S. Ou, C. S.G. Khoo, D. H. Goh, Multi-document summarization of dissertation Abstracts using a variable- based framework, LNCS, issue 3652, p


Κατέβασμα ppt "ΙΟΝΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΤΜΗΜΑ ΑΡΧΕΙΟΝΟΜΙΑΣ – ΒΙΒΛΙΟΘΗΚΟΝΟΜΙΑΣ ΜΠΣ «ΕΠΙΣΤΗΜΗ ΤΗΣ ΠΛΗΡΟΦΟΡΙΑΣ: ΥΠΗΡΕΣΙΕΣ ΠΛΗΡΟΦΟΡΗΣΗΣ ΣΕ ΨΗΦΙΑΚΟ ΠΕΡΙΒΑΛΛΟΝ» Εργασία για το μάθημα:"

Παρόμοιες παρουσιάσεις


Διαφημίσεις Google