Αξιοποιώντας τη Χρονική Πληροφορία στον Εντοπισμό Θέματος και την Παρακολούθηση Δημοσιεύματος (Utilizing Temporal Information in Topic Detection and Tracking)

Slides:



Advertisements
Παρόμοιες παρουσιάσεις
Γραφήματα & Επίπεδα Γραφήματα
Advertisements

Έρευνα για την οικοδομική δραστηριότητα 2010 Επαμεινώνδας Ε. Πανάς Καθηγητής Οικονομικού Πανεπιστημίου Αθηνών Πρόεδρος του Τμήματος Στατιστικής Απόψεις.
Το νέο Λύκειο και το νέο σύστημα εισαγωγής στην Τριτοβάθμια Εκπαίδευση
Αποτελέσματα Μελέτης για το Μέγαρο Πολιτισμού Κύπρου Ετοιμάστηκε για την Εταιρεία KPMG Από την Εταιρεία RAI Consultants Public Ltd Μάρτιος 2008.
CytaInfo+ 1 ένα application για τη Cyta….. Αυτή είναι η όψη του CytaInfo+ 2.
Διαδίκτυο: ο νέος δρόμος Μιχάλης Βαφόπουλος,
Μετά από έρευνα που διενήργησε εταιρεία ερευνών, διαπιστώθηκε πως στην εταιρεία μας οι εργαζόμενοι χρησιμοποιούν μεταξύ τους ένα λεξιλόγιο κάπως ανάρμοστο.
Πέτσας Δημήτριος Παρουσίαση στο μάθημα: Ψηφιακές Βιβλιοθήκες
Επιμορφωτής: Ονομ/νυμο Επιμορφωτή
Απαντήσεις Προόδου II.
Slide 1 Δίκτυα Τηλεπικοινωνιών ENOTHTA 7 η ΔΙΑΚΙΝΗΣΗ ΤΗΛΕΦΩΝΙΚΩΝ ΚΛΗΣΕΩΝ (ΜΕΡΟΣ Α’) 1. ΘΕΩΡΙΑ ΤΗΣ ΤΗΛΕΠΙΚΟΙΝΩΝΙΑΚΗΣ ΚΙΝΗΣΗΣ  Εκτός από τις τερματικές.
Διαχείριση Έργου Οργάνωση, σχεδιασμός και προγραμματισμός έργων ανάπτυξης λογισμικού.
Ασκήσεις Συνδυαστικής
Τα στοιχειώδη περί γεωδαιτικών υπολογισμών
Χρήση και αξιοποίηση των ΤΠΕ κατά τη διδασκαλία των μαθηματικών στη δευτεροβάθμια ελληνική εκπαίδευση Δρ. Σάλτας Βασίλειος, Ιωαννίδου Ευφροσύνη Τμήμα.
ΚΕΝΤΡΟ ΠΟΛΙΤΙΣΜΙΚΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΙΝΣΤΙΤΟΥΤΟ ΠΛΗΡΟΦΟΡΙΚΗΣ ΙΤΕ 21,23/2/2005Πληροφοριακή σχεδίαση για πολιτισμική τεκμηρίωση και διαλειτουργικότητα1 Τεκμηρίωση.
Μετρήσεις Κεντρικής Τάσης
Προγραμματισμός Ι Πίνακες •Ο πίνακας είναι μία συλλογή μεταβλητών ίδιου τύπου, οι οποίες είναι αποθηκευμένες σε διαδοχικές θέσεις μνήμης. Χρησιμοποιείται.
Κεφάλαιο 6 Υλοποίηση Γλωσσών Προγραμματισμού
Διαδίκτυο: ο νέος δρόμος Μιχάλης Βαφόπουλος,
Στατιστική Ι Παράδοση 5 Οι Δείκτες Διασποράς Διασπορά ή σκεδασμός.
Αναγνώριση Προτύπων.
Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1 Μετατροπή Σχήματος Ο/Σ σε Σχεσιακό.
Κεφάλαιο 2ο Πεπερασμένα αυτόματα.
Γραφήματα & Επίπεδα Γραφήματα
ΙΣΟΛΟΓΙΣΜΟΣ ΒΑΣΕΙ Δ.Λ.Π. (ΕΝΑΡΞΗΣ)
ΑΠΕΙΚΟΝΙΣΗ ΕΝΝΟΙΩΝ 1. 2 Χρήστης Στόχος Ταμίας διενέργεια πώλησης διενέργεια ενοικίασης εισαγωγή ταμείου εξαγωγή ταμείου * 1 Μοντέλο Πεδίου Προβλήματος.
Αποκεντρωμένη Διοίκηση Μακεδονίας Θράκης ∆ιαχείριση έργων επίβλεψης µε σύγχρονα µέσα και επικοινωνία C2G, B2G, G2G Γενική Δ/νση Εσωτερικής Λειτουργίας.
1 Συλλογή Στοιχείων 24 Νοεμβρίου έως 5 Δεκεμβρίου 2005 Κοινωνικό, πολιτικό & οικονομικό περιβάλλον 1 1 ΚΟΙΝΩΝΙΚΟ, ΠΟΛΙΤΙΚΟ & ΟΙΚΟΝΟΜΙΚΟ ΠΕΡΙΒΑΛΛΟΝ ( Δείκτες.
Βάσεις Δεδομένων II Διαχείριση Δοσοληψιών Πάνος Βασιλειάδης Σεπτέμβρης 2002
13ο Πανελλήνιο Συνέδριο Ακαδημαϊκών Βιβλιοθηκών – Κέρκυρα Οκτωβρίου 2004 Το σύστημα COINE για την προβολή της πολιτιστικής κληρονομιάς και την υποστήριξη.
Ιόνιο Πανεπιστήμιο Τμήμα Αρχειονομίας & Βιβλιοθηκονομίας Μεταπτυχιακό Πρόγραμμα Σπουδών στην Επιστήμη της Πληροφορίας: Διοίκηση & Οργάνωση Βιβλιοθηκών.
ΙΟΝΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΤΜΗΜΑ ΑΡΧΕΙΟΝΟΜΙΑΣ ΚΑΙ ΒΙΒΛΙΟΘΗΚΟΝΟΜΙΑΣ ΕΡΓΑΣΙΑ ΣΤΟ ΜΑΘΗΜΑ «ΨΗΦΙΑΚΕΣ ΒΙΒΛΙΟΘΗΚΕΣ» ΘΕΜΑ «ΤΟ ΕΘΝΙΚΟ ΚΕΝΤΡΟ ΤΕΚΜΗΡΙΩΣΗΣ» ΚΑΝΤΑΡΕΛΗ ΑΙΚΑΤΕΡΙΝΗ.
Διαδικτυακή εφαρμογή ανάλυσης και επεξεργασίας δεδομένων κυβερνητικών διαβουλεύσεωνgov.insight Η. Ζαβιτσάνος, Γ. Γιαννακόπουλος, Γ. Παλιούρας Ινστιτούτο.
1 Α. Βαφειάδης Αναβάθμισης Προγράμματος Σπουδών Τμήματος Πληροφορικής Τ.Ε.Ι Θεσσαλονίκης Μάθημα Προηγμένες Αρχιτεκτονικές Υπολογιστών Κεφαλαίο Τρίτο Συστήματα.
ΕΚΕΦΕ «Δημόκριτος» Ινστιτούτο Πληροφορικής & Τηλεπικοινωνιών Κοινωνία της Πληροφορίας & Τεχνητή Νοημοσύνη Δρ. Κωνσταντίνος Δ. Σπυρόπουλος Δντής Έρευνας.
Β΄ ΓΕΛ ΕισΑρχΕπ Η/Υ παρ – 2.2.5
17ο Πανελλήνιο Συνέδριο Ακαδημαϊκών Βιβλιοθηκών Η ΑΠΟΨΗ ΤΩΝ ΣΠΟΥΔΑΣΤΩΝ ΤΟΥ ΤΜΗΜΑΤΟΣ ΒΙΒΛΙΟΘΗΚΟΝΟΜΙΑΣ ΚΑΙ ΣΥΣΤΗΜΑΤΩΝ ΠΛΗΡΟΦΟΡΗΣΗΣ ΓΙΑ ΤΙΣ ΠΡΟΠΤΥΧΙΑΚΕΣ ΣΠΟΥΔΕΣ.
ΕΙΣΑΓΩΓΗ ΣΤΑ ΓΕΩΓΡΑΦΙΚΑ ΣΥΣΤΗΜΑΤΑ ΠΛΗΡΟΦΟΡΙΩΝ
Ο ΗΛΕΚΤΡΟΝΙΚΟΣ ΥΠΟΛΟΓΙΣΤΗΣ
Τεχνολογία ΛογισμικούSlide 1 Αλγεβρική Εξειδίκευση u Καθορισμός τύπων αφαίρεσης σε όρους σχέσεων μεταξύ τύπων λειτουργιών.
1 Ιόνιο πανεπιστήμιο Τμήμα Αρχειονομίας-Βιβλιοθηκονομίας.  Δημιουργία Ψηφιακής βιβλιοθήκης των αρχείων του Κέντρου Επιστημονικών Ερευνών (ΚΕΕ) από τη.
Συνδυαστικά Κυκλώματα
1 Ενότητα 5.3.1: Ερωτηματολόγια με τη χρήση του Διαδικτύου Διδάσκων: Χρήστος Κατσάνος - Πανεπιστημιακό κέντρο εκπαίδευσης επιμορφωτών.
1 Υπηρεσίες Πληροφόρησης σε Ψηφιακό Περιβάλλον Ιόνιο Πανεπιστήμιο Τμήμα Αρχειονομίας & Βιβλιοθηκονομίας, Κέρκυρα Ηλεκτρονική Δημοσίευση Θέμα: Τεχνολογίες.
ΙΟΝΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΤΜΗΜΑ ΑΡΧΕΙΟΝΟΜΙΑΣ – ΒΙΒΛΙΟΘΗΚΟΝΟΜΙΑΣ Πρόγραμμα Μεταπτυχιακών Σπουδών στην Επιστήμη της Πληροφορίας Υπηρεσίες Πληροφόρησης σε Ψηφιακό.
Μοντέλα Συστημάτων Παρουσιάσεις των συστημάτων των οποίων οι απαιτήσεις αναλύονται.
ANAKOINWSH H 2η Ενδιάμεση Εξέταση μεταφέρεται στις αντί για , την 24 Νοεμβρίου στις αίθουσες ΧΩΔ και 110 λόγω μη-διαθεσιμότητας.
Ανάπτυξη Πρωτοτύπου Λογισμικού
Ημερίδα 4 Πορεία των διαδικασιών Διασφάλισης της ποιότητας 15 Νοεμβρίου 2012.
ΙΟΝΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ ΣΤΗΝ ΕΠΙΣΤΗΜΗ ΤΗΣ ΠΛΗΡΟΦΟΡΗΣΗΣ Διοίκηση και Οργάνωση Βιβλιοθηκών με έμφαση στις Νέες Τεχνολογίες της.
Αποτελέσματα Αξιολόγησης Προγράμματος Σπουδών Σπύρος Κοκολάκης Τμ. Μηχ/κών Πληροφοριακών και Επικοινωνιακών Συστημάτων.
ΙΟΝΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΤΜΗΜΑ ΑΡΧΕΙΟΝΟΜΙΑΣ & ΒΙΒΛΙΟΘΗΚΟΝΟΜΙΑΣ ΠΜΣ: «ΕΠΙΣΤΗΜΗ ΤΗΣ ΠΛΗΡΟΦΟΡΙΑΣ» ΜΑΘΗΜΑ: ΗΛΕΚΤΡΟΝΙΚΗ ΔΗΜΟΣΙΕΥΣΗ ΕΡΓΑΣΙΑ: MULTI-DOCUMENT SUMMARIZATIONS.
ΜΑΘΗΜΑ ΝΟΣΗΛΕΥΤΙΚΗ ΜΕΤΑΓΓΙΣΗ ΑΙΜΑΤΟΣ - ΑΙΜΟΔΟΣΙΑ
Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1 Σχεσιακό Μοντέλο.
Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1 Σχεσιακό Μοντέλο.
Εθνικό και Καποδιστριακό Πανεπιστήμιο Αθηνών – Τμήμα Πληροφορικής και Τηλεπικοινωνιών 1 Κεφάλαιο 3 Η Σημασιολογία των Γλωσσών Προγραμματισμού Προπτυχιακό.
Διαχείριση Ψηφιακών Πνευματικών Δικαιωμάτων Ηλεκτρονική Δημοσίευση Στέλλα Λάμπουρα Ιούνιος 2004.
ΓΕΝΙΚΟ ΛΥΚΕΙΟ ΜΥΡΙΝΑΣ ΕΝΗΜΕΡΩΣΗ ΓΙΑ ΤΟ ΓΕΝΙΚΟ ΛΥΚΕΙΟ Νόμος 4186/ Εισήγηση: Τζαννή Βασιλική Κυριλλίδου Φωτεινή.
ΤΜΗΜΑ ΘΕΑΤΡΟΥ Πρόγραμμα Μεταπτυχιακών Σπουδών. 2012Π.Μ.Σ. - Τμήμα Θεάτρου - Α.Π.Θ.2 Η θεατρική παράσταση: ιστορία, θεωρία και πρακτική Λειτουργεί από.
Computers: Information Technology in Perspective By Long and Long Copyright 2002 Prentice Hall, Inc. Προγραμματισμός Η / Υ 6 η Διάλεξη.
ΙΟΝΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΤΜΗΜΑ ΑΡΧΕΙΟΝΟΜΙΑΣ ΚΑΙ ΒΙΒΛΙΟΘΗΚΟΝΟΜΙΑΣ ΜΠΣ: «Επιστήμη Της Πληροφορίας: Διοίκηση Και Οργάνωση Βιβλιοθηκών Με Έμφαση Στις Νέες Τεχνολογίες.
1 Βάσεις Δεδομένων ΙI Επιμέλεια: ΘΟΔΩΡΗΣ ΜΑΝΑΒΗΣ SQL (3 από 3) T Manavis.
+19 Δεκέμβριος 2014 Δείκτης > +20 Δείκτης 0 έως +20 Δείκτης 0 έως -20 Δείκτης < -20 Συνολικά της ΕΕ: +5 Δείκτης > +20 Δείκτης 0 έως +20 Δείκτης 0 έως -20.
Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1 Μετατροπή Σχήματος Ο/Σ σε Σχεσιακό.
Αγγελική Γεωργιάδου- Αναστασία Πεκτέσογλου Δράμα 2006
ΙΟΝΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΤΜΗΜΑ ΑΡΧΕΙΟΝΟΜΙΑΣ ΒΙΒΛΙΟΘΗΚΟΝΟΜΙΑΣ ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ ΣΤΗΝ ΕΠΙΣΤΗΜΗ ΤΗΣ ΠΛΗΡΟΦΟΡΙΑΣ Βρίσκοντας κατάλληλα αντικείμενα μάθησης:
Ιόνιο Πανεπιστήμιο Τμήμα Αρχειονομίας και Βιβλιοθηκονομίας Πρόγραμμα Μεταπτυχιακών Σπουδών στην Επιστήμη της Πληροφορίας «Διοίκηση & Οργάνωση Βιβλιοθηκών.
Τεχνολογίες προστασίας πνευματικών δικαιωμάτων στον ψηφιακό κόσμο
Μεταγράφημα παρουσίασης:

Αξιοποιώντας τη Χρονική Πληροφορία στον Εντοπισμό Θέματος και την Παρακολούθηση Δημοσιεύματος (Utilizing Temporal Information in Topic Detection and Tracking) Juha Makkonen and Helena Ahonen – Myka Department of Computer Science, University of Helsinki, P.O. Box 26, University of Helsinki, Finland {jamakkon, Ιόνιο Πανεπιστήμιο Τμήμα Αρχειονομίας Βιβλιοθηκονομίας Πρόγραμμα μεταπτυχιακών σπουδών «Επιστήμη της Πληροφορίας» Επιστήμη της Πληροφόρησης στο Σύγχρονο Περιβάλλον Εργασία στο μάθημα: Ηλεκτρονική Δημοσίευση του Μεταπτυχιακού Φοιτητή: Στέφανου Ασωνίτη Υπεύθυνος Καθηγητής:Σαράντος Καπιδάκης

2 Τεχνολογία «Εντοπισμού Θέματος και Παρακολούθησης Δημοσιεύματος» Αυτοματοποιημένη χρήση της χρονικής πληροφορίας Μεθοδολογία των Makkonen Juha και Ahonen – Myka Helena, για την εξαγωγή χρονικών εκφράσεων και την σύγκριση χρονικών ενδείξεων σε έγγραφα ειδήσεων Αποτίμηση της μεθοδολογίας των Makkonen Juha και Ahonen – Myka Helena Θέματα που διαπραγματεύεται η Εργασία

3 Η Τεχνολογία TDT εφαρμόζεται επί ενός κειμένου ειδήσεων Αποδομεί το πρωτογενές κείμενο σε επιμέρους ειδησεογραφικά θέματα Παρακολουθεί τα θέματα αυτά, για γεγονότα που δεν είχαν αναδειχθεί στο πρωτογενές κείμενο Ομαδοποιεί τα γεγονότα σε ομάδες Η χρονική φύση των γεγονότων χαρακτηρίζει την τεχνολογία TDT Τεχνολογία «Εντοπισμού Θέματος και Παρακολούθησης Δημοσιεύματος» (TDT – Topic Detection and Tracking)

4 Η χρονική πληροφορία φέρεται στα κείμενα μέσω των χρονικών εκφράσεων. Οι χρονικές εκφράσεις όμως: Είναι δύσκολο να εντοπιστούν Έχουν μορφή μη κατάλληλη για άμεση χρήση Μπορεί να έχουν αμφίβολη έννοια, όσον αφορά στην ερμηνεία Δεν μπορούν να αποτελέσουν υποκείμενο μιας σύγκρισης Χρονική Πληροφορία

5 Η αυτοματοποιημένη χρήση της χρονικής πληροφορίας είναι μια διαδικασία που αποτελείται από τρία στάδια: Αναγνώριση χρονικών εκφράσεων στο σώμα κειμένου και εξαγωγή τους Τυποποίηση των χρονικών εκφράσεων Σύγκριση των χρονικών εκφράσεων Αυτοματοποιημένη χρήση της Χρονικής Πληροφορίας

6 Για την αναγνώριση των χρονικών εκφράσεων χρησιμοποιείται ένας αναλυτής συνδέσεων συναρτησιακών εξαρτήσεων γραμματικής (Connexor’s Functional Dependency Grammar parser), της εταιρείας Connexor ( Αναγνώριση Χρονικών Εκφράσεων (1) Είναι ένα λογισμικό που διαβάζει μία προς μία τις λέξεις (parser) και περιγράφει τη σύνταξη της πρότασης.

7 Το αποτέλεσμα μηχανικής σύνταξης με το λογισμικό Machinese Syntax της Connexor, για την πρόταση:«The second lecture in Digital Publishing, will take place on Monday next week» Αναγνώριση Χρονικών Εκφράσεων (2)

8 Οι όροι που περιέχονται στις χρονικές εκφράσεις διαιρούνται σε κατηγορίες. Αναγνώριση Χρονικών Εκφράσεων (3) ΚατηγορίαΌροι Βασικός όροςμέρα, εβδομάδα, όνομα ημέρας εβδομάδας, όνομα μήνα, τρίμηνο, εποχή, έτος, δεκαετία ΤαξινομικήΧθες, σήμερα, αύριο ΔιάστημαΣτην αρχή, στο τέλος, νωρίς, αργά, ανάμεσα ΠροσδιοριστικόςΑυτό, το προηγούμενο, το επόμενο, το Χρονικόςμέσα, κατά, από, κατά τη διάρκεια, μετά, έως ότου, έως, πριν, μετά Μεταδιαμορφωτήςαπό, σε Αριθμητικόςμία, δύο,… Διαδοχικόςπρώτη, δεύτερη,…. ΕπιρρηματικόςΕδώ και (ago) Μετα-από την αρχή μέχρι το τέλος Ασαφήςμερικές, λίγες, αρκετές Επαναληπτικόςκάθε, ανά Πηγήαπό

9 Υλοποιείται μια αυτοματοποιημένη μέθοδος, πεπερασμένου αριθμού βημάτων, για την αναγνώριση των χρονικών εκφράσεων Αναγνώριση Χρονικών Εκφράσεων (4)

10 Μόλις αναγνωρισθεί μια χρονική έκφραση, οι όροι που περιέχει μετατρέπονται σε λειτουργίες: Χρονικών μετατοπίσεων Προσδιορισμού χρονικών διαστημάτων που μεταφέρουν το χρονικό δεδομένο, όπως εκφράζεται από το κείμενο στο παρελθόν ή στο μέλλον, πάνω σε ένα ημερολόγιο(*) Τυποποίηση Χρονικών Εκφράσεων (1) (*) Ένα ημερολόγιο αποτελείται από ένα καθολικό άξονα του χρόνου, στον οποίο, έχει υλοποιηθεί μια άλγεβρα για τις χρονικές εκφράσεις.

11 Τυποποίηση Χρονικών Εκφράσεων (2)

12 Τυποποίηση Χρονικών Εκφράσεων (3) Ημερολόγιο Ένα ημερολόγιο, παρέχει ένα χώρο όπου τα στοιχεία μπορούν να συγκριθούν, να μπουν σε μια σειρά και να μετακινηθούν. Χωρίς ένα ημερολόγιο, εκφράσεις όπως «τον προηγούμενο Απρίλη» και «δύο εβδομάδες μετά» δεν μπορούν να αποτιμηθούν.

13 Τυποποίηση Χρονικών Εκφράσεων (4) Παράδειγμα συνάρτησης μετατροπής σε ένα Ημερολόγιο

14 Τυποποίηση Χρονικών Εκφράσεων (6) Η μετατροπή των γλωσσικών εκφράσεων σε μαθηματικούς τελεστές που να μετατρέπουν την χρονική αναφορά στο πριν ή στο μετά, σε μια κίνηση προς τα αριστερά ή προς τα δεξιά, αντίστοιχα στον άξονα του χρόνου, ονομάζεται κανονικοποίηση Κανονικοποίηση

15 Τυποποίηση Χρονικών Εκφράσεων (6) Παράδειγμα μετατροπής χρονικής στιγμής στο πριν (τρεις μήνες νωρίτερα), με μια κίνηση προς τα αριστερά (Left) στον άξονα του χρόνου (χρόνος αναφοράς είναι η χρονική στιγμή tr= , που είναι Τρίτη, Ιούνιος 26η 2002).

16 Τυποποίηση Χρονικών Εκφράσεων (7) Βήμα 1ο Αποτιμάμε το χρονικό σημείο εκκίνησης, όπως προσδιορίζεται από το βασικό όρο, εξετάζοντας το χρόνο του ρήματος και το χρόνο αναφοράς Βήμα 2ο Μετακινούμε το σημείο εκκίνησης προς τα αριστερά ή στα δεξιά (αν είναι απαραίτητο) Βήμα 3ο Συναρτήσεις εύρους τροποποιούν τα σημεία εκκίνησης και τερματισμού Περιγραφή διαδικασία κανονικοποίησης λίστα κανονικοποιημένων βασικών χρονικών όρων (το σημείο εκκίνησης αναφέρεται στο παρελθόν):

17 Σύγκριση Χρονικών Εκφράσεων (1) Η σύγκριση χρονικών εκφράσεων σημαίνει τον προσδιορισμό του πόσο επικαλύπτονται οι χρονικές αναφορές ανάμεσα σε δύο έγγραφα κειμένου. Οι κανονικοποιημένες χρονικές εκφράσεις συγκρίνονται ανά ζεύγη. Οι πιθανές συσχετίσεις εμπίπτουν σε μία από τις παρακάτω επτά κατηγορίες:

18 Σύγκριση Χρονικών Εκφράσεων (2) Σε κάθε κείμενο αναμένουμε ένα σύνολο χρονικών διαστημάτων. Για τη σύγκριση ανάμεσα σε δύο κείμενα τοποθετούμε τα σύνολα σε ένα πίνακα διπλής εισόδου:

19 Σύγκριση Χρονικών Εκφράσεων (3) Ορίζουμε μία συνάρτηση βαρύτητας, που θα ερμηνεύει ότι: [είναι προτιμότερο για τη σύγκριση δύο κειμένων να γνωρίζουμε πως μια ημέρα «πέφτει μέσα» σε μια εβδομάδα, παρά του να γνωρίζουμε ότι μια εβδομάδα «πέφτει μέσα» σε ένα διάστημα του έτους]. Η συνάρτηση βαρύτητας: Η συνάρτηση βαρύτητας επιστρέφει 1, αν οι χρονικές εκφράσεις βρίσκονται σε απόλυτη συμφωνία και 0, αν οι εκφράσεις είναι ξένες μεταξύ τους. Σε κάθε άλλη περίπτωση επιστρέφει ένα αριθμό του διαστήματος (0,1)

20 Σύγκριση Χρονικών Εκφράσεων (4)

21 Σύγκριση Χρονικών Εκφράσεων (5) Οι τιμές της παραμέτρου μ, για όλα τα δυνατά ζεύγη διαστημάτων, απεικονίζονται σε έναν πίνακα, ο οποίος ονομάζεται πίνακας κάλυψης:

22 Σύγκριση Χρονικών Εκφράσεων (5) Η συνολική κάλυψη δύο συνόλων διαστημάτων δίδεται από τον τύπο: Η συνολική κάλυψη, όπως υπολογίζεται με τον παραπάνω τύπο, είναι υψηλότερη στην περίπτωση που δύο έγγραφα αναφέρονται στο ίδιο γεγονός, παρά στην αντίθετη περίπτωση. Αυτός ο δείκτης «χρονικής ομοιότητας», παρέχει επιπρόσθετα αξιόπιστα στοιχεία στη μέθοδο TDT, για τον Εντοπισμό και την Παρακολούθηση Θέματος.

23 Αποτίμηση της μεθοδολογίας Makkonen και Ahonen-Myka συνολικά Το πείραμα Η μεθοδολογία Makkonen και Ahonen-Myka, εφαρμόστηκε επί 8595 εγγράφων. Τα έγγραφα αυτά Ήταν έγγραφα ειδήσεων στα αγγλικά Είχαν δημοσιευθεί από την 1/1/1998 έως τις 31/01/1998 Πηγή των εγγράφων ήταν: α) διαδικτυακές εφημερίδες β) μαγνητοφωνήσεις ραδιοφωνικών και τηλεοπτικών μεταδόσεων Αποτελέσματα Διαπιστώθηκαν 35 γεγονότα 2382 (από τα 8595 έγγραφα) αποδόθηκαν σε ένα (01) από τα 35 γεγονότα

24 Αποτίμηση της μεθοδολογίας Makkonen και Ahonen-Myka ειδικά για τα στάδια της Αναγνώρισης - Κανονικοποίησης Χρησιμοποιήθηκαν 1417 προτάσεις, προερχόμενες από 65 έγγραφα ειδήσεων Σε αυτές τις προτάσεις περιλαμβάνονταν 535 χρονικές, από αυτές: 326 ήταν απλές χρονικές προτάσεις 209 ήταν σύνθετες χρονικές προτάσεις Το πείραμα Αποτελέσματα το ποσοστό των ορθών συσχετίσεων σε σχέση με το σύνολο των χρονικών εκφράσεων στο κείμενο

25 Αποτίμηση της μεθοδολογίας Makkonen και Ahonen-Myka ειδικά για το στάδιο της Σύγκρισης Αποτιμήθηκαν όλα τα ζεύγη εγγράφων, από τα 8595 έγγραφα, αρκεί ένα τουλάχιστον από τα έγγραφα του ζεύγους να έφερε τίτλο. Το πείραμα Αποτελέσματα Μέση κατανομή των χρονικών συσχετίσεων ανάμεσα σε έγγραφα που διαπραγματεύονται το ίδιο και διαφορετικά θέματα

26 Αποτίμηση της μεθοδολογίας Makkonen και Ahonen-Myka ειδικά για τη συνάρτηση βαρύτητας και τη συνάρτηση κάλυψης Αποτελέσματα Τα αποτελέσματα δείχνουν υψηλότερες μ-τιμές για τη συνάρτηση βαρύτητας, και υψηλότερες τιμές για τη συνάρτηση κάλυψης, όταν δύο έγγραφα διαπραγματεύονται το ίδιο θέμα, παρά σε αντίθετη περίπτωση

27 Όρια και περιορισμοί του σήμερα Η μέθοδος εφαρμόζεται μόνο σε κείμενα που είναι γραμμένα στα αγγλικά ασαφείς χρονικές εκφράσεις, όπως «μερικές εβδομάδες μετά», ενώ αναγνωρίζονται και εξάγονται από το σώμα κειμένου ως χρονικές εκφράσεις, εντούτοις λόγο της χρονικής ασάφειας που ενσωματώνουν, δεν αποτιμούνται

28 Συμπεράσματα για τη μέθοδο (1) Η κύρια συνεισφορά της μεθοδολογίας Makkonen και Ahonen-Myka, είναι η προσέγγιση του προβλήματος της σύγκρισης δύο συνόλων διαστημάτων, στα πλαίσια της χρονικής κάλυψης, και ειδικότερα: στην περίπτωση που τα δύο έγγραφα αναφέρονται στο ίδιο γεγονός, η επικάλυψη είναι υψηλότερη και άρα παρέχει επιπρόσθετα αξιόπιστα στοιχεία, για τον εντοπισμό και την παρακολούθηση θέματος (TDT)

29 Συμπεράσματα για τη μέθοδο (2)

30 Συμπεράσματα για τη μέθοδο (3) Προφανής βελτίωση της μεθόδου είναι η δημιουργία μιας αποτελεσματικότερης τεχνικής κανονικοποίησης που να επεκτείνει το χώρο εφαρμογής των κανονικοποιημένων εκφράσεων, περιλαμβάνοντας και ασαφείς χρονικές εκφράσεις. Θα μπορούσε, για το σκοπό αυτό, να οριστεί μια συνάρτηση ασάφειας που θα μετρούσε την ασάφεια της χρονικής έκφρασης.

31 Συμπεράσματα για τη μέθοδο (4) Το πλήθος (8595) των κειμένων ειδήσεων που χρησιμοποιήθηκε, υποδηλώνει τη χρήση λογισμικού για την εφαρμογή της μεθόδου επί του πλήθους αυτού. Αν εξαιρέσουμε το λογισμικό εξαγωγής των χρονικών εκφράσεων από το σώμα του κειμένου (Connexor’s Functional Dependency Grammar parser) Δεν γίνεται καμία αναφορά στο λογισμικό που χρησιμοποιήθηκε στα υπόλοιπα στάδια της μεθοδολογίας

32 Πιθανή χρήση της μεθόδου στην Ελλάδα Από έναν ειδησεογραφικό οργανισμό, για τον εντοπισμό θέματος (είναι μια συνήθης διαδικασία που επιτελούν οι δημοσιογράφοι, στο αρχείο του οργανισμού που εργάζονται, για τη δημιουργία ενός αφιερώματος σε ένα γεγονός ) Από τη διπλωματική υπηρεσία του Υπουργείου εξωτερικών, για τον Εντοπισμό Θέματος από ένα εκτεταμένο αρχείο ειδήσεων που έχει αποθηκεύσει ψηφιακά συλλέγοντας, για παράδειγμα, κείμενα ειδήσεων από το διαδίκτυο. Για τον εντοπισμό πολιτιστικών θεμάτων σε ένα μουσείο. Η χρονική πληροφορία μπορεί να αναγνωρισθεί, να κανονικοποιηθεί και συγκριτικά να οδηγήσει στον εντοπισμό ενός πολιτιστικού θέματος σε ένα λαογραφικό μουσείο (π.χ. κερκυραϊκή φορεσιά στις αρχές του 19ου αι.). Στην προσαρμογή αυτή, η οντότητα της είδησης έχει αντικατασταθεί από την οντότητα του αντικειμένου της συλλογής.

33 Βιβλιογραφία 1.Allan James, Topic Detection and Tracking – Event – Based Information Organization, Kluwer Academic Publishers (2002) 2.Makkonen J., Myka H.,: Utilizing Temporal Information in Topic Detection and Tracking, Department of Computer Science, University of Helsinki, Finland (2006) 3.Tapanainen, P., Jarvien, T.: A non-projective dependency parser. In: Proc. 5th Conference on Applied Natural Language Processing (1997). 4.Γεωργατσούλης, Μ., Λιλής, Π., Λουρδή, Ε.: Αναπαράσταση και διαχείριση χρονικά εξαρτώμενης πληροφορίας στις πολιτιστικές συλλογές, Ιόνιο Πανεπιστήμιο, Τμήμα Αρχειονομίας και Βιβλιοθηκονομίας, Κέρκυρα (2005) 5.Connexor: Machinese Syntax, [ημερομηνία πρόσβασης; ]

34 Σας ευχαριστώ για την προσοχή σας…