Παπακώστας Μιχάλης ΑΜ:2007030001 ΑΥΤΟΝΟΜΟΙ ΠΡΑΚΤΟΡΕΣ 2012-2013 ΑΚΡΙΒΗΣ ΣΥΜΠΕΡΑΣΜΟΣ ΔΙΚΤΥΟΥ BAYES ΣΕ ΑΡΘΡΑ ΕΦΗΜΕΡΙΔΑΣ Παπακώστας Μιχάλης ΑΜ:2007030001
πΕΡΙΛΗΨΗ Τι υλοποιήσαμε: Στόχοι: Περιορισμοί: Δίκτυο Bayes που μοντελοποίει την αρθρογραφία της εφημερίδας Ελευθεροτυπίας για το διάστημα 1/5/2000-31/12/2000 Άλγορίθμο που πραγματοποιεί Ακριβή Συμπερασμό με τη μέθοδο της Απαρίθμησης στο συγκεκριμένο δίκτυο Στόχοι: Τι απασχολούσε την επικαιρότητα το διάστημα που εξετάζουμε Που επικεντρώθηκε η αρθογραφία της συγκεκριμένης εφημερίδας Εξαγωγή πληροφοριών για τη δομή των άρθρων Περιορισμοί: Περιορισμένο dataset Δυσκολία εξαγωγής μεταβλητών από το συγκεκριμένο dataset επίτευξη στόχων στα πλαίσια του δικού μας μικρόκοσμου
Τι είναι ένα δίκτυο Bayes: εΙΣΑΓΩΓΙΚΑ Τι είναι ένα δίκτυο Bayes: Μέθοδος αντιπροσώευσης ενός συνόλου τυχαίων μεταβλητών και των μεταξύ τους εξαρτήσεων, μέσω ενός κατευθυνόμενου ακυκλικού γράφου Συνδυασμένη κατανομή πιθανότητας για το X Για δίκτυο Bayes “S”:
Ακριβής Συμπερασμός σε δίκτυα Bayes εΙΣΑΓΩΓΙΚΑ Ακριβής Συμπερασμός σε δίκτυα Bayes Υπολογισμός της εκ των υστέρων κατανομής ενός ερωτήματος, έχοντας ως δεδομένο κάποιο συμβάν Πιθανότητα του ερωτήματος X δοθέντος του συμβάντος e X οι μεταβλητή ερωτήματος E οι μεταβλητές μαρτυρίας Y οι κρυφές μεταβλητές ,όπου α=P(e) (παράγοντας κανονικοποίησης)
Mέθοδος της Απαρίθμησης εΙΣΑΓΩΓΙΚΑ Mέθοδος της Απαρίθμησης Άθροιση των πιθανοτήτων όλων των ατομικών συμβάντων για ένα ερώτημα δοθέντος ενός συμβάντος Ατομικά συμβάντα Όλοι οι πιθανοί συνδυασμοί των κρυφών μεταβλητών Βάση γνώσης Yπολογισμός συνδυασμένων καταχωρήσεων με πολλαπλασιασμό Μαθηματική έκφραση: Δίκτυο Bayes CPTs
εΙΣΑΓΩΓΙΚΑ Το δίκτυό Bayes που υλοποιήθηκε στο συγκεκριμένο project
ΥΛΟΠΟΙΗΣΗ Dataset Δείγματά Άρθρα της εφημερίδας Ελευθεροτυπίας από το χρονικό διάστημα 1/5/2000-31/12/2000 214 ημερομηνίες Κάθε ημ/νία περιέχει τουλάχιστον ένα άρθρο από κάθε θεματική Η θεματική υποδηλώνεται από τον τίτλο του εκάστοτε άρθρου
ΥΛΟΠΟΙΗΣΗ Μεταβλητές MONTH Πεδίο τιμών : 05 06 07 08 09 10 11 12 Mάιος πλήθος των ήμερών ενός μήνα όλες οι ημερομηνίες του dataset (214) πλήθος των άρθρων που αφορούν μία θεματική για ένα μήνα σύνολο των άρθρων που γράφτηκαν τον μήνα MONTH Πεδίο τιμών : 05 06 07 08 09 10 11 12 Mάιος Ιούν. Ιούλ. Αύγ. Σεπ. Οκτ. Νοεμ. Δεκ. TOPIC Πεδίο τιμών : politics art economy sport world Greece
ΥΛΟΠΟΙΗΣΗ Μεταβλητές RANGE Πεδίο τιμών : c1 c2 c3 c4 c5 c6 0-200 words πλήθος άρθρων που ανήκουν σε ένα TOPIC και ικανοποιούν τα κριτήρια μίας κατηγορίας σύνολο των άρθρων που ανήκουν στο συγκεκριμένο TOPIC RANGE Πεδίο τιμών : c1 c2 c3 c4 c5 c6 0-200 words 201-400 401-600 words 601-800 words 801-1000 words 1000 <
ΥΛΟΠΟΙΗΣΗ Μεταβλητές WORDS DOMAIN Πεδίο τιμών πλήθος εμφάνισης λέξης δεδομένης μίας θεματικής σύνολο εμφανίσεων αυτής της λέξης σε όλα τα άρθρα της συγκεκριμένης θεματικής χρήματα ζωγραφιά πρόοδος ύφεση ανάπτυξη επιτυχία γήπεδο αρχή παρακμή τέρμα παγκοσμιοποίηση θέατρο αποτυχία υπουργός κόσμος ταινία μπάλα οικονομία εστία αρένα ελλάδα πτώση χρέος δικαιοσύνη καλλιτέχνης έκθεση κέρδος δάνειο άνοδος σινεμά
ΥΛΟΠΟΙΗΣΗ Κώδικας Yλοποίηση σε PERL Ένα PERL-scrιpt για για τον υπολογισμό του CPT κάθε μεταβλητής Υπολογισμός των CPTs γίνεται με βάση: Υλοποιήσαμε κώδικα που υπολογίζει τον ακριβή συμπερασμό με τη μέθοδο της απαρίθμησης στα ερωτήματα που θέτει ο χρήστης με βάση το δίκτυο που περιγράψαμε ενδείκνυται για την επεξεργασία μεγάλου όγκου πληροφορίας σε μορφή κειμένου δομή του δικτύου Bayes με τον τύπο της εκάστοτε μεταβλητής