Η παρουσίαση φορτώνεται. Παρακαλείστε να περιμένετε

Η παρουσίαση φορτώνεται. Παρακαλείστε να περιμένετε

Αξιοποιώντας τη Χρονική Πληροφορία στον Εντοπισμό Θέματος και την Παρακολούθηση Δημοσιεύματος (Utilizing Temporal Information in Topic Detection and Tracking)

Παρόμοιες παρουσιάσεις


Παρουσίαση με θέμα: "Αξιοποιώντας τη Χρονική Πληροφορία στον Εντοπισμό Θέματος και την Παρακολούθηση Δημοσιεύματος (Utilizing Temporal Information in Topic Detection and Tracking)"— Μεταγράφημα παρουσίασης:

1 Αξιοποιώντας τη Χρονική Πληροφορία στον Εντοπισμό Θέματος και την Παρακολούθηση Δημοσιεύματος (Utilizing Temporal Information in Topic Detection and Tracking) Juha Makkonen and Helena Ahonen – Myka Department of Computer Science, University of Helsinki, P.O. Box 26, University of Helsinki, Finland {jamakkon, Ιόνιο Πανεπιστήμιο Τμήμα Αρχειονομίας Βιβλιοθηκονομίας Πρόγραμμα μεταπτυχιακών σπουδών «Επιστήμη της Πληροφορίας» Επιστήμη της Πληροφόρησης στο Σύγχρονο Περιβάλλον Εργασία στο μάθημα: Ηλεκτρονική Δημοσίευση του Μεταπτυχιακού Φοιτητή: Στέφανου Ασωνίτη Υπεύθυνος Καθηγητής:Σαράντος Καπιδάκης

2 2 Τεχνολογία «Εντοπισμού Θέματος και Παρακολούθησης Δημοσιεύματος» Αυτοματοποιημένη χρήση της χρονικής πληροφορίας Μεθοδολογία των Makkonen Juha και Ahonen – Myka Helena, για την εξαγωγή χρονικών εκφράσεων και την σύγκριση χρονικών ενδείξεων σε έγγραφα ειδήσεων Αποτίμηση της μεθοδολογίας των Makkonen Juha και Ahonen – Myka Helena Θέματα που διαπραγματεύεται η Εργασία

3 3 Η Τεχνολογία TDT εφαρμόζεται επί ενός κειμένου ειδήσεων Αποδομεί το πρωτογενές κείμενο σε επιμέρους ειδησεογραφικά θέματα Παρακολουθεί τα θέματα αυτά, για γεγονότα που δεν είχαν αναδειχθεί στο πρωτογενές κείμενο Ομαδοποιεί τα γεγονότα σε ομάδες Η χρονική φύση των γεγονότων χαρακτηρίζει την τεχνολογία TDT Τεχνολογία «Εντοπισμού Θέματος και Παρακολούθησης Δημοσιεύματος» (TDT – Topic Detection and Tracking)

4 4 Η χρονική πληροφορία φέρεται στα κείμενα μέσω των χρονικών εκφράσεων. Οι χρονικές εκφράσεις όμως: Είναι δύσκολο να εντοπιστούν Έχουν μορφή μη κατάλληλη για άμεση χρήση Μπορεί να έχουν αμφίβολη έννοια, όσον αφορά στην ερμηνεία Δεν μπορούν να αποτελέσουν υποκείμενο μιας σύγκρισης Χρονική Πληροφορία

5 5 Η αυτοματοποιημένη χρήση της χρονικής πληροφορίας είναι μια διαδικασία που αποτελείται από τρία στάδια: Αναγνώριση χρονικών εκφράσεων στο σώμα κειμένου και εξαγωγή τους Τυποποίηση των χρονικών εκφράσεων Σύγκριση των χρονικών εκφράσεων Αυτοματοποιημένη χρήση της Χρονικής Πληροφορίας

6 6 Για την αναγνώριση των χρονικών εκφράσεων χρησιμοποιείται ένας αναλυτής συνδέσεων συναρτησιακών εξαρτήσεων γραμματικής (Connexor’s Functional Dependency Grammar parser), της εταιρείας Connexor (www.connexor.com)www.connexor.com Αναγνώριση Χρονικών Εκφράσεων (1) Είναι ένα λογισμικό που διαβάζει μία προς μία τις λέξεις (parser) και περιγράφει τη σύνταξη της πρότασης.

7 7 Το αποτέλεσμα μηχανικής σύνταξης με το λογισμικό Machinese Syntax της Connexor, για την πρόταση:«The second lecture in Digital Publishing, will take place on Monday next week» Αναγνώριση Χρονικών Εκφράσεων (2)

8 8 Οι όροι που περιέχονται στις χρονικές εκφράσεις διαιρούνται σε κατηγορίες. Αναγνώριση Χρονικών Εκφράσεων (3) ΚατηγορίαΌροι Βασικός όροςμέρα, εβδομάδα, όνομα ημέρας εβδομάδας, όνομα μήνα, τρίμηνο, εποχή, έτος, δεκαετία ΤαξινομικήΧθες, σήμερα, αύριο ΔιάστημαΣτην αρχή, στο τέλος, νωρίς, αργά, ανάμεσα ΠροσδιοριστικόςΑυτό, το προηγούμενο, το επόμενο, το Χρονικόςμέσα, κατά, από, κατά τη διάρκεια, μετά, έως ότου, έως, πριν, μετά Μεταδιαμορφωτήςαπό, σε Αριθμητικόςμία, δύο,… Διαδοχικόςπρώτη, δεύτερη,…. ΕπιρρηματικόςΕδώ και (ago) Μετα-από την αρχή μέχρι το τέλος Ασαφήςμερικές, λίγες, αρκετές Επαναληπτικόςκάθε, ανά Πηγήαπό

9 9 Υλοποιείται μια αυτοματοποιημένη μέθοδος, πεπερασμένου αριθμού βημάτων, για την αναγνώριση των χρονικών εκφράσεων Αναγνώριση Χρονικών Εκφράσεων (4)

10 10 Μόλις αναγνωρισθεί μια χρονική έκφραση, οι όροι που περιέχει μετατρέπονται σε λειτουργίες: Χρονικών μετατοπίσεων Προσδιορισμού χρονικών διαστημάτων που μεταφέρουν το χρονικό δεδομένο, όπως εκφράζεται από το κείμενο στο παρελθόν ή στο μέλλον, πάνω σε ένα ημερολόγιο(*) Τυποποίηση Χρονικών Εκφράσεων (1) (*) Ένα ημερολόγιο αποτελείται από ένα καθολικό άξονα του χρόνου, στον οποίο, έχει υλοποιηθεί μια άλγεβρα για τις χρονικές εκφράσεις.

11 11 Τυποποίηση Χρονικών Εκφράσεων (2)

12 12 Τυποποίηση Χρονικών Εκφράσεων (3) Ημερολόγιο Ένα ημερολόγιο, παρέχει ένα χώρο όπου τα στοιχεία μπορούν να συγκριθούν, να μπουν σε μια σειρά και να μετακινηθούν. Χωρίς ένα ημερολόγιο, εκφράσεις όπως «τον προηγούμενο Απρίλη» και «δύο εβδομάδες μετά» δεν μπορούν να αποτιμηθούν.

13 13 Τυποποίηση Χρονικών Εκφράσεων (4) Παράδειγμα συνάρτησης μετατροπής σε ένα Ημερολόγιο

14 14 Τυποποίηση Χρονικών Εκφράσεων (6) Η μετατροπή των γλωσσικών εκφράσεων σε μαθηματικούς τελεστές που να μετατρέπουν την χρονική αναφορά στο πριν ή στο μετά, σε μια κίνηση προς τα αριστερά ή προς τα δεξιά, αντίστοιχα στον άξονα του χρόνου, ονομάζεται κανονικοποίηση Κανονικοποίηση

15 15 Τυποποίηση Χρονικών Εκφράσεων (6) Παράδειγμα μετατροπής χρονικής στιγμής στο πριν (τρεις μήνες νωρίτερα), με μια κίνηση προς τα αριστερά (Left) στον άξονα του χρόνου (χρόνος αναφοράς είναι η χρονική στιγμή tr= , που είναι Τρίτη, Ιούνιος 26η 2002).

16 16 Τυποποίηση Χρονικών Εκφράσεων (7) Βήμα 1ο Αποτιμάμε το χρονικό σημείο εκκίνησης, όπως προσδιορίζεται από το βασικό όρο, εξετάζοντας το χρόνο του ρήματος και το χρόνο αναφοράς Βήμα 2ο Μετακινούμε το σημείο εκκίνησης προς τα αριστερά ή στα δεξιά (αν είναι απαραίτητο) Βήμα 3ο Συναρτήσεις εύρους τροποποιούν τα σημεία εκκίνησης και τερματισμού Περιγραφή διαδικασία κανονικοποίησης λίστα κανονικοποιημένων βασικών χρονικών όρων (το σημείο εκκίνησης αναφέρεται στο παρελθόν):

17 17 Σύγκριση Χρονικών Εκφράσεων (1) Η σύγκριση χρονικών εκφράσεων σημαίνει τον προσδιορισμό του πόσο επικαλύπτονται οι χρονικές αναφορές ανάμεσα σε δύο έγγραφα κειμένου. Οι κανονικοποιημένες χρονικές εκφράσεις συγκρίνονται ανά ζεύγη. Οι πιθανές συσχετίσεις εμπίπτουν σε μία από τις παρακάτω επτά κατηγορίες:

18 18 Σύγκριση Χρονικών Εκφράσεων (2) Σε κάθε κείμενο αναμένουμε ένα σύνολο χρονικών διαστημάτων. Για τη σύγκριση ανάμεσα σε δύο κείμενα τοποθετούμε τα σύνολα σε ένα πίνακα διπλής εισόδου:

19 19 Σύγκριση Χρονικών Εκφράσεων (3) Ορίζουμε μία συνάρτηση βαρύτητας, που θα ερμηνεύει ότι: [είναι προτιμότερο για τη σύγκριση δύο κειμένων να γνωρίζουμε πως μια ημέρα «πέφτει μέσα» σε μια εβδομάδα, παρά του να γνωρίζουμε ότι μια εβδομάδα «πέφτει μέσα» σε ένα διάστημα του έτους]. Η συνάρτηση βαρύτητας: Η συνάρτηση βαρύτητας επιστρέφει 1, αν οι χρονικές εκφράσεις βρίσκονται σε απόλυτη συμφωνία και 0, αν οι εκφράσεις είναι ξένες μεταξύ τους. Σε κάθε άλλη περίπτωση επιστρέφει ένα αριθμό του διαστήματος (0,1)

20 20 Σύγκριση Χρονικών Εκφράσεων (4)

21 21 Σύγκριση Χρονικών Εκφράσεων (5) Οι τιμές της παραμέτρου μ, για όλα τα δυνατά ζεύγη διαστημάτων, απεικονίζονται σε έναν πίνακα, ο οποίος ονομάζεται πίνακας κάλυψης:

22 22 Σύγκριση Χρονικών Εκφράσεων (5) Η συνολική κάλυψη δύο συνόλων διαστημάτων δίδεται από τον τύπο: Η συνολική κάλυψη, όπως υπολογίζεται με τον παραπάνω τύπο, είναι υψηλότερη στην περίπτωση που δύο έγγραφα αναφέρονται στο ίδιο γεγονός, παρά στην αντίθετη περίπτωση. Αυτός ο δείκτης «χρονικής ομοιότητας», παρέχει επιπρόσθετα αξιόπιστα στοιχεία στη μέθοδο TDT, για τον Εντοπισμό και την Παρακολούθηση Θέματος.

23 23 Αποτίμηση της μεθοδολογίας Makkonen και Ahonen-Myka συνολικά Το πείραμα Η μεθοδολογία Makkonen και Ahonen-Myka, εφαρμόστηκε επί 8595 εγγράφων. Τα έγγραφα αυτά Ήταν έγγραφα ειδήσεων στα αγγλικά Είχαν δημοσιευθεί από την 1/1/1998 έως τις 31/01/1998 Πηγή των εγγράφων ήταν: α) διαδικτυακές εφημερίδες β) μαγνητοφωνήσεις ραδιοφωνικών και τηλεοπτικών μεταδόσεων Αποτελέσματα Διαπιστώθηκαν 35 γεγονότα 2382 (από τα 8595 έγγραφα) αποδόθηκαν σε ένα (01) από τα 35 γεγονότα

24 24 Αποτίμηση της μεθοδολογίας Makkonen και Ahonen-Myka ειδικά για τα στάδια της Αναγνώρισης - Κανονικοποίησης Χρησιμοποιήθηκαν 1417 προτάσεις, προερχόμενες από 65 έγγραφα ειδήσεων Σε αυτές τις προτάσεις περιλαμβάνονταν 535 χρονικές, από αυτές: 326 ήταν απλές χρονικές προτάσεις 209 ήταν σύνθετες χρονικές προτάσεις Το πείραμα Αποτελέσματα το ποσοστό των ορθών συσχετίσεων σε σχέση με το σύνολο των χρονικών εκφράσεων στο κείμενο

25 25 Αποτίμηση της μεθοδολογίας Makkonen και Ahonen-Myka ειδικά για το στάδιο της Σύγκρισης Αποτιμήθηκαν όλα τα ζεύγη εγγράφων, από τα 8595 έγγραφα, αρκεί ένα τουλάχιστον από τα έγγραφα του ζεύγους να έφερε τίτλο. Το πείραμα Αποτελέσματα Μέση κατανομή των χρονικών συσχετίσεων ανάμεσα σε έγγραφα που διαπραγματεύονται το ίδιο και διαφορετικά θέματα

26 26 Αποτίμηση της μεθοδολογίας Makkonen και Ahonen-Myka ειδικά για τη συνάρτηση βαρύτητας και τη συνάρτηση κάλυψης Αποτελέσματα Τα αποτελέσματα δείχνουν υψηλότερες μ-τιμές για τη συνάρτηση βαρύτητας, και υψηλότερες τιμές για τη συνάρτηση κάλυψης, όταν δύο έγγραφα διαπραγματεύονται το ίδιο θέμα, παρά σε αντίθετη περίπτωση

27 27 Όρια και περιορισμοί του σήμερα Η μέθοδος εφαρμόζεται μόνο σε κείμενα που είναι γραμμένα στα αγγλικά ασαφείς χρονικές εκφράσεις, όπως «μερικές εβδομάδες μετά», ενώ αναγνωρίζονται και εξάγονται από το σώμα κειμένου ως χρονικές εκφράσεις, εντούτοις λόγο της χρονικής ασάφειας που ενσωματώνουν, δεν αποτιμούνται

28 28 Συμπεράσματα για τη μέθοδο (1) Η κύρια συνεισφορά της μεθοδολογίας Makkonen και Ahonen-Myka, είναι η προσέγγιση του προβλήματος της σύγκρισης δύο συνόλων διαστημάτων, στα πλαίσια της χρονικής κάλυψης, και ειδικότερα: στην περίπτωση που τα δύο έγγραφα αναφέρονται στο ίδιο γεγονός, η επικάλυψη είναι υψηλότερη και άρα παρέχει επιπρόσθετα αξιόπιστα στοιχεία, για τον εντοπισμό και την παρακολούθηση θέματος (TDT)

29 29 Συμπεράσματα για τη μέθοδο (2)

30 30 Συμπεράσματα για τη μέθοδο (3) Προφανής βελτίωση της μεθόδου είναι η δημιουργία μιας αποτελεσματικότερης τεχνικής κανονικοποίησης που να επεκτείνει το χώρο εφαρμογής των κανονικοποιημένων εκφράσεων, περιλαμβάνοντας και ασαφείς χρονικές εκφράσεις. Θα μπορούσε, για το σκοπό αυτό, να οριστεί μια συνάρτηση ασάφειας που θα μετρούσε την ασάφεια της χρονικής έκφρασης.

31 31 Συμπεράσματα για τη μέθοδο (4) Το πλήθος (8595) των κειμένων ειδήσεων που χρησιμοποιήθηκε, υποδηλώνει τη χρήση λογισμικού για την εφαρμογή της μεθόδου επί του πλήθους αυτού. Αν εξαιρέσουμε το λογισμικό εξαγωγής των χρονικών εκφράσεων από το σώμα του κειμένου (Connexor’s Functional Dependency Grammar parser) Δεν γίνεται καμία αναφορά στο λογισμικό που χρησιμοποιήθηκε στα υπόλοιπα στάδια της μεθοδολογίας

32 32 Πιθανή χρήση της μεθόδου στην Ελλάδα Από έναν ειδησεογραφικό οργανισμό, για τον εντοπισμό θέματος (είναι μια συνήθης διαδικασία που επιτελούν οι δημοσιογράφοι, στο αρχείο του οργανισμού που εργάζονται, για τη δημιουργία ενός αφιερώματος σε ένα γεγονός ) Από τη διπλωματική υπηρεσία του Υπουργείου εξωτερικών, για τον Εντοπισμό Θέματος από ένα εκτεταμένο αρχείο ειδήσεων που έχει αποθηκεύσει ψηφιακά συλλέγοντας, για παράδειγμα, κείμενα ειδήσεων από το διαδίκτυο. Για τον εντοπισμό πολιτιστικών θεμάτων σε ένα μουσείο. Η χρονική πληροφορία μπορεί να αναγνωρισθεί, να κανονικοποιηθεί και συγκριτικά να οδηγήσει στον εντοπισμό ενός πολιτιστικού θέματος σε ένα λαογραφικό μουσείο (π.χ. κερκυραϊκή φορεσιά στις αρχές του 19ου αι.). Στην προσαρμογή αυτή, η οντότητα της είδησης έχει αντικατασταθεί από την οντότητα του αντικειμένου της συλλογής.

33 33 Βιβλιογραφία 1.Allan James, Topic Detection and Tracking – Event – Based Information Organization, Kluwer Academic Publishers (2002) 2.Makkonen J., Myka H.,: Utilizing Temporal Information in Topic Detection and Tracking, Department of Computer Science, University of Helsinki, Finland (2006) 3.Tapanainen, P., Jarvien, T.: A non-projective dependency parser. In: Proc. 5th Conference on Applied Natural Language Processing (1997). 4.Γεωργατσούλης, Μ., Λιλής, Π., Λουρδή, Ε.: Αναπαράσταση και διαχείριση χρονικά εξαρτώμενης πληροφορίας στις πολιτιστικές συλλογές, Ιόνιο Πανεπιστήμιο, Τμήμα Αρχειονομίας και Βιβλιοθηκονομίας, Κέρκυρα (2005) 5.Connexor: Machinese Syntax, [ημερομηνία πρόσβασης; ]http://www.connexor.com/demo/syntax/

34 34 Σας ευχαριστώ για την προσοχή σας…


Κατέβασμα ppt "Αξιοποιώντας τη Χρονική Πληροφορία στον Εντοπισμό Θέματος και την Παρακολούθηση Δημοσιεύματος (Utilizing Temporal Information in Topic Detection and Tracking)"

Παρόμοιες παρουσιάσεις


Διαφημίσεις Google