ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΕΙΡΑΙΩΣ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΜΠΣ ΠΡΟΗΓΜΕΝΑ ΣΥΣΤΗΜΑΤΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΜΕΤΑΠΤΥΧΙΑΚΗ ΔΙΑΤΡΙΒΗ ΑΚΑΔΗΜΑΪΚΟ ΕΤΟΣ: NewsMiner ΣΥΛΛΟΓΗ ΚΑΙ ΤΑΞΙΝΟΜΗΣΗ ΕΙΔΗΣΕΟΓΡΑΦΙΚΩΝ ΠΗΓΩΝ ΕπιβλέπωνΓιάννης Θεοδωρίδης, Αναπληρωτής Καθηγητής Νίκος Πελέκης, Διδάσκων ΠΔ 407/80 ΦοιτητήςΔιονύσης Νινιός
ΣΚΟΠΟΣ ΣΧΕΤΙΚΕΣ ΕΡΓΑΣΙΕΣ ΤΟ ΣΥΣΤΗΜΑ NEWSMINER CASE STUDY ΣΥΜΠΕΡΑΣΜΑΤΑ - ΕΠΕΚΤΑΣΕΙΣ ΚΥΡΙΑ ΣΗΜΕΙΑ
ΣΚΟΠΟΣ ΣΧΕΤΙΚΕΣ ΕΡΓΑΣΙΕΣ ΤΟ ΣΥΣΤΗΜΑ NEWSMINER CASE STUDY ΣΥΜΠΕΡΑΣΜΑΤΑ - ΕΠΕΚΤΑΣΕΙΣ
Διαδίκτυο ΣΚΟΠΟΣ Πολλές χρήσεις Τεράστιος όγκος αδόμητης πληροφορίας Δυσκολία εύρεσης χρήσιμης πληροφορίας Ενημέρωση Δημοφιλής χρήση Διαδικτύου Πολλοί Διαδικτυακοί φορείς ενημέρωσης Διαφορετικές ειδήσεις και όψεις ειδήσεων
Η ανάπτυξη ενός συστήματος Ολοκληρωμένου Αυτοματοποιημένου Εύρεση άρθρων από Διαδίκτυο Ομαδοποίηση άρθρων σε θέματα Παρουσίαση θεμάτων - άρθρων ΣΚΟΠΟΣ
ΚΥΡΙΑ ΣΗΜΕΙΑ ΣΚΟΠΟΣ ΣΧΕΤΙΚΕΣ ΕΡΓΑΣΙΕΣ ΤΟ ΣΥΣΤΗΜΑ NEWSMINER CASE STUDY ΣΥΜΠΕΡΑΣΜΑΤΑ - ΕΠΕΚΤΑΣΕΙΣ
ΣΧΕΤΙΚΕΣ ΕΡΓΑΣΙΕΣ Εύρεση δομημένης πληροφορίας [1], [2] Κατηγοριοποίηση σελίδων [3], [4], [5] Συγκέντρωση πολλών πηγών [6], [7] Στοιχεία χρήστη [8], [9] Κοινωνιολογικά δεδομένα [10], [11]
ΣΧΕΤΙΚΕΣ ΕΡΓΑΣΙΕΣ Διάχυση πληροφορίας σε κοινωνικά δίκτυα [12], [13], [14] Εύρεση κοινοτήτων σε κοινωνικά δίκτυα [15], [16] Παρουσίαση δεδομένων [17]
ΣΧΕΤΙΚΕΣ ΕΡΓΑΣΙΕΣ CEBIL
ΣΧΕΤΙΚΕΣ ΕΡΓΑΣΙΕΣ PALO
ΣΧΕΤΙΚΕΣ ΕΡΓΑΣΙΕΣ NEEMO
ΣΧΕΤΙΚΕΣ ΕΡΓΑΣΙΕΣ GOOGLE NEWS
ΣΧΕΤΙΚΕΣ ΕΡΓΑΣΙΕΣ - ΣΥΝΟΨΗ Εξαγωγή πληροφορίας από WEB σελίδες Ερευνητικές Εργασίες Εφαρμογή σε μεγάλο όγκο δεδομένων Λήψη ικανοποιητικών αποτελεσμάτων NewsMiner Εφαρμογή σε περιορισμένο όγκο δεδομένων Λήψη αποτελεσμάτων με μεγάλη ακρίβεια
ΣΧΕΤΙΚΕΣ ΕΡΓΑΣΙΕΣ - ΣΥΝΟΨΗ Κατηγοριοποίηση σελίδων Ερευνητικές Εργασίες Χρήση περιεχομένου σελίδας Ταξινόμηση σε γενικές κατηγορίες NewsMiner Χρήση επεξεργασμένου περιεχομένου σελίδας Ταξινόμηση σε βάθος
ΣΧΕΤΙΚΕΣ ΕΡΓΑΣΙΕΣ - ΣΥΝΟΨΗ Cebil - Palo Ίδιο στόχο με NewsMiner Άγνωστες τεχνικές λειτουργίας Neemo Παρόμοιο στόχο - τεχνικές με NewsMiner Google News Ταξινόμηση σε γενικές κατηγορίες
ΚΥΡΙΑ ΣΗΜΕΙΑ ΣΚΟΠΟΣ ΣΧΕΤΙΚΕΣ ΕΡΓΑΣΙΕΣ ΤΟ ΣΥΣΤΗΜΑ NEWSMINER CASE STUDY ΣΥΜΠΕΡΑΣΜΑΤΑ - ΕΠΕΚΤΑΣΕΙΣ
ΔΟΜΗ NEWSMINER
ΕΝΗΜΕΡΩΣΗ ΣΥΣΤΗΜΑΤΟΣ Γενικά χαρακτηριστικά Εννοιολογικός – Λογικός – Φυσικός Σχεδιασμός Υλοποίηση ρουτινών στη βάση δεδομένων
ΓΕΝΙΚΑ ΧΑΡΑΚΤΗΡΙΣΤΙΚΑ Εκμετάλλευση RSS FEEDS Εξαγωγή στοιχείων άρθρου Αυτοματοποίηση Ταχύτητα εκτέλεσης
ΕΝΗΜΕΡΩΣΗ ΣΥΣΤΗΜΑΤΟΣ Χρήση RSS Feeds Really Simple Syndication XML τυποποίηση Αναπαράσταση πληροφοριών συνεχώς μεταβαλλόμενων Βασικές πληροφορίες είδησης (URL, τίτλος, δημοσίευση κ.α.)
ΕΝΗΜΕΡΩΣΗ ΣΥΣΤΗΜΑΤΟΣ Δύο κορίτσια εννέα ετών πνίγηκαν σε πισίνα κατασκήνωσης στη Λάρισα Σε ένα τραγικό όσο και πρωτοφανές περιστατικό, δύο 9χρονα κοριτσάκια πνίγηκαν το απόγευμα της Παρασκευής σε πισίνα ιδιωτικής κατασκήνωσης στο νομό Λάρισας, κάτω από αδιευκρίνιστες συνθήκες. Συνελήφθησαν οι ιδιοκτήτες της κατασκήνωσης και διενεργείται προανάκριση από τις Αρχές. Fri, 19 Jun :21:00 UTC ΑΠΕ-ΜΠΕ Δομή RSS Feeds
Επιλογή γενικών κατηγοριών άρθρων ΕΛΛΑΔΑΟΙΚΟΝΟΜΙΑ ΑΘΛΗΤΙΚΑΚΟΣΜΟΣ ΕΠΙΣΤΗΜΗΠΟΛΙΤΙΣΜΟΣ ΕΝΗΜΕΡΩΣΗ ΣΥΣΤΗΜΑΤΟΣ
ΤΑΞΙΝΟΜΗΣΗ ΝΕΩΝ ΑΡΘΡΩΝ NEWS_TOPICS AA_TOPICΚωδικός θέματος (συστάδας) AA_FIRSTΚωδικός ενός σχετικού άρθρου RELATIVEΠλήθος σχετικών άρθρων NEWS_TOPICS_DTL AA_TOPICΚωδικός θέματος AA_ITEMΚωδικός άρθρου OLD_ITEMS AA_OLDΠαλαιό άρθρο AA_NEWΣχετικό ενεργό άρθρο
ΤΑΞΙΝΟΜΗΣΗ ΝΕΩΝ ΑΡΘΡΩΝ
Δημιουργία διαδικασίας συνολικής ενημέρωσης Χρήση jobs ORACLE Ωριαία ενημέρωση συστήματος Ημερήσια διαγραφή παλαιών άρθρων (3:00 π.μ.) ΑΥΤΟΜΑΤΟΠΟΙΗΣΗ
ΣΚΟΠΟΣ ΣΧΕΤΙΚΕΣ ΕΡΓΑΣΙΕΣ ΤΟ ΣΥΣΤΗΜΑ NEWSMINER CASE STUDY ΣΥΜΠΕΡΑΣΜΑΤΑ - ΕΠΕΚΤΑΣΕΙΣ ΚΥΡΙΑ ΣΗΜΕΙΑ
CASE STUDY Επισκόπηση περιβάλλοντος εργασίας Προετοιμασία διαδικασίας Κατηγοριοποίηση Συσταδοποίηση Ένταξη σε παραγωγική λειτουργία Ανάπτυξη Διεπαφής
ΠΕΡΙΒΑΛΛΟΝ ΕΡΓΑΣΙΑΣ ORACLE 11G ORACLE TEXT ORACLE APPLICATION EXPRESS
ΠΕΡΙΒΑΛΛΟΝ ΕΡΓΑΣΙΑΣ ORACLE 11G Δημοφιλές εμπορικό ΣΔΒΔ Ενσωματωμένες διαδικασίες Data Mining Πακέτο UTL_HTTP για HTTP requests Τύπος δεδομένων CLOB Δυνατότητες αυτοματοποίησης διαδικασιών
ΠΕΡΙΒΑΛΛΟΝ ΕΡΓΑΣΙΑΣ ORACLE TEXT Αναζήτηση σε μεγάλες στατικές συλλογές εγγράφων: CONTEXT ευρετήριο Αναζήτηση μικρότερων μεταβαλλόμενων συλλογών εγγραφών: CTX_CAT ευρετήριο Ομαδοποίηση εγγράφων
ΠΕΡΙΒΑΛΛΟΝ ΕΡΓΑΣΙΑΣ Ομαδοποίηση εγγράφων Βάσει κανόνων Με επίβλεψη (κατηγοριοποίηση) Χωρίς επίβλεψη (συσταδοποίηση)
ΠΕΡΙΒΑΛΛΟΝ ΕΡΓΑΣΙΑΣ Βάσει κανόνων Δημιουργία κλάσεων και κανόνων από χρήστη Ευρετήριο CTX_RULE σε κανόνες Κατηγοριοποίηση νέου εγγράφου με τελεστή MATCHES
ΠΕΡΙΒΑΛΛΟΝ ΕΡΓΑΣΙΑΣ Με επίβλεψη Δημιουργία κλάσεων από χρήστη και κανόνων από σύστημα Ευρετήριο CTX_RULE σε κανόνες και CONTEXT σε εκπαιδευτικό σύνολο Κατηγοριοποίηση νέου εγγράφου με τελεστή MATCHES Δέντρα Απόφασης και SVM
ΠΕΡΙΒΑΛΛΟΝ ΕΡΓΑΣΙΑΣ Χωρίς επίβλεψη Δημιουργία κλάσεων και κανόνων από σύστημα K-MEANS
ORACLE APPLICATION EXPRESS Εργαλείο ανάπτυξης WEB database centric εφαρμογών Αποθηκευμένο σε βάση δεδομένων (215 πίνακες και 200 PLS/SQL αντικείμενα) ΠΕΡΙΒΑΛΛΟΝ ΕΡΓΑΣΙΑΣ
ΠΡΟΕΤΟΙΜΑΣΙΑ In.gr, Καθημερινή, Ελεύθερος Τύπος Παραμετροποίηση συστήματος Χρήση διαδικασίας ενημέρωσης Δημιουργία δεδομένων εκπαίδευσης και ελέγχου (12 μέρες, 766 άρθρα ΕΛΛΑΔΑ, 315 θέματα)
ΠΡΟΕΤΟΙΜΑΣΙΑ Δημιουργία λίστας κοινών λέξεων
ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗ
ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗ – Δ.Α. ΔΕΝΤΡΑ ΑΠΟΦΑΣΗΣ Επιλογή ανάμεσα σε δυο εναλλακτικές αποφάσεις Ορατοί κανόνες Μετασχηματίζονται σε ειδικές αναζητήσεις Αντιστοίχηση εγγράφων με κατηγορίες Συγκεκριμένες παράμετροι
ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗ – Δ.Α. THRESHOLD Ελάχιστο όριο εμπιστοσύνης κανόνων MAX_TERMS Μέγιστος αριθμός όρων κανόνων ανά κλάση MEMORY_SIZE Χρησιμοποιούμενη μνήμη NT_THRESHOLD Ελάχιστο όριο αρχικής επιλογής όρων TERM_THRESHOLD Ελάχιστο όριο τελικής επιλογής όρων PRUNE_LEVEL Επίπεδο κλαδέματος δέντρου απόφασης
ΚΡΙΤΗΡΙΑ ΑΞΙΟΛΟΓΗΣΗΣ ΔΟΚΙΜΩΝ Συνολικό ποσοστό επιτυχίας Ποσοστό επιτυχίας ενεργών θεμάτων Ποσοστό επιτυχίας νέων θεμάτων Πολλαπλές κατηγοριοποιήσεις ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗ – Δ.Α.
MAX_TERMS (20-200, βήμα 10) <= MAX_TERMS (30-50, βήμα 1) =>=> ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗ – Δ.Α.
NT_THRESHOLD ( , βήμα 0.05) <= TERM_THRESHOLD (10-100, βήμα 5) =>=> ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗ – Δ.Α.
TERM_THRESHOLD (25-35, βήμα 1) <= THRESHOLD (5-95, βήμα 5) =>=> ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗ – Δ.Α.
THRESHOLD (5-20, βήμα 1) <= PRUNE_LEVEL (5-100, βήμα 5) =>=> ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗ – Δ.Α.
PRUNE_LEVEL (5-80, βήμα 1) <= ΣΥΝΟΛΟΕΝΕΡΓΑΝΕΑΠΟΛΛΑΠΛΕΣ 70%55%80%3% ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗ – Δ.Α.
SUPPORT VECTOR MACHINE Μηχανική μάθηση (στατιστική εκπαίδευση) Αόρατοι κανόνες Μετασχηματίζονται σε ειδικές αναζητήσεις Αντιστοίχηση εγγράφων με κατηγορίες (πιθανότητα) Συγκεκριμένες παράμετροι ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗ – SVM
MAX_DOCTERMS Μέγιστος αριθμός όρων ανά κείμενο MAX_FEATURES Μέγιστος συνολικός αριθμός διακριτών χαρακτηριστικών THEME_ON – TOKEN_ON – STEM_ON Γλωσσολογικές παράμετροι MEMORY_SIZE Χρησιμοποιούμενη μνήμη SECTION_WEIGHT Βάρη σε τμήματα του εγγράφου (HTML, XML) ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗ – SVM
MAX_FEATURES ( , βήμα 1.000) <= Όριο πιθανότητας 30% =>=> ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗ – SVM
Όριο πιθανότητας 25% <= Όριο πιθανότητας 35% =>=> ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗ – SVM
MAX_DOCTERMS 100 <= MAX_DOCTERMS 120 =>=> ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗ – SVM
ΑΛΟΓΡΙΘΜΟΣΣΥΝΟΛΟΕΝΕΡΓΑΝΕΑΠΟΛΛΑΠΛΕΣ DECISION TREE 70%55%80%3% SVM75%65%81.5%9% ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗ – SVM
ΣΥΣΤΑΔΟΠΟΙΗΣΗ K – MEANS Μέτρηση απόστασης μεταξύ σημείων Ιεραρχική συσταδοποίηση Εύρεση κλάσεων και εγγράφων (ποσοστό) Συγκεκριμένες παράμετροι
MAX_DOCTERMS Μέγιστος αριθμός όρων ανά κείμενο MAX_FEATURES Μέγιστος συνολικός αριθμός διακριτών χαρακτηριστικών THEME_ON – TOKEN_ON – STEM_ON Γλωσσολογικές παράμετροι MEMORY_SIZE Χρησιμοποιούμενη μνήμη SECTION_WEIGHT Βάρη σε τμήματα του εγγράφου (HTML, XML) CLUSTER_NUM Πλήθος τελικών συστάδων ΣΥΣΤΑΔΟΠΟΙΗΣΗ
MAX_FEATURES (1.000 – , βήμα 1.000) <= MAX_FEATURES (100 – 2.000, βήμα 100) =>=> ΣΥΣΤΑΔΟΠΟΙΗΣΗ
MAX_DOCTERMS 40 <= MAX_DOCTERMS 60=>=> ΣΥΣΤΑΔΟΠΟΙΗΣΗ
MAX_DOCTERMS 70 <= MAX_FEATURES (1 – 100, βήμα 5) =>=> ΣΥΣΤΑΔΟΠΟΙΗΣΗ
ΕΝΤΑΞΗ ΣΕ ΠΑΡΑΓΩΓΗ Επιλογή μοντέλων SVM (MAX_FEATURES = 1000, MAX_DOCTERMS = 100) K – MEANS (CLUSTER_NUM = 20, MAX_DOCTERMS = 70 MAX_FEATURES = 80) Ενημέρωση διαδικασιών συστήματος
ΔΙΕΠΑΦΗ
ΣΥΜΠΕΡΑΣΜΑΤΑ Εξόρυξη γνώσης από WEB Δύσκολη και χρονοβόρα διαδικασία Προετοιμασία δεδομένων Ταξινόμηση δεδομένων Αξιολόγηση συστήματος Διαδικασία ενημέρωσης: Εξαιρετικά Ταξινόμηση άρθρων: Ικανοποιητικά
ΣΥΜΠΕΡΑΣΜΑΤΑ Δυσκολίες σε ταξινόμηση άρθρων Αδόμητη πληροφορία Γλωσσολογικές δυσκολίες Ταξινόμηση σε βάθος Μικρός αριθμός άρθρων ανά κατηγορία Μεταβαλλόμενα δεδομένα και κατηγορίες
Χρήση λεξικού συνωνύμων Δημιουργία stemmer βάσει κανόνων Εμπλουτισμός λίστας κοινών λέξεων Περιεκτικότερη αναπαράσταση άρθρων Χρήση του τίτλου της είδησης Περαιτέρω δοκιμές σε αλγόριθμους ΕΠΕΚΤΑΣΕΙΣ
ΑΝΑΦΟΡΕΣ [1]Davi de Castro Reis, Paulo B. Golgher, Altigran S. da Silva, Alberto H. F. Laender: Automatic Web News Extraction Using Tree Edit Distance. International Conference on World Wide Web, (2004) [2]Cai-Nicolas Ziegler, Michal Skubacz: Content Extraction from News Pages Using Particle Swarm Optimization on Linguistic and Structural Features. IEEE / WIC / ACM International Conference on Web Intelligence, (2007) [3]Smriti Bhagat, Irina Rozenbaum, Graham Cormode: Applying Link- based Classification to Label Blogs. WEBKDD International Conference, (2007) [4] Eric Glover, Kostas Tsioutsiouliklis, Steve Lawrence, David Pennock, Gary Flake: Using Web Structure for Classifying and Describing Web Pages. International Conference on World Wide Web, (2002) [5]Beibei Li, Beibei Li, Jun Zhang: Enhancing Clustering Blog Documents by Utilizing Author / Reader Comments. ACMSE International Conference (2007)
ΑΝΑΦΟΡΕΣ [6]Ismail Sengor Altingovde, Rifat Ozcan, Suleyman Cetintas, Hakan Yilmaz, Özgür Ulusoy: An Automatic Approach to Construct Domain- Specific Web Portals. CIKM International Conference, (2007) [7]Benjamin E. Teitler, Michael D. Lieberman, Daniele Panozzo, Jagan Sankaranarayanan, Hanan Samet, Jon Sperling: NewsStand: A New View on News. ACM GIS International Conference, (2008) [8]Riddhiman Ghosh, Mohamed Dekhil: Discovering User Profiles. International Conference on World Wide Web, (2009) [9]Evgeniy Gabrilovich, Susan Dumais, Eric Horvitz: Newsjunkie: Providing Personalized Newsfeeds via Analysis of Information Novelty. International Conference on World Wide Web, (2004) [10]Matthew S. Smith: Social Capital in Online Communities. PIKM International Workshop, (2008) [11]Xin Li, Lei Guo, Yihong (Eric) Zhao: Tag-based Social Interest Discovery. International Conference on World Wide Web, (2008)
ΑΝΑΦΟΡΕΣ [12]Lei Zhang, Wanqing Tu: Six Degrees of Separation in Online Society. WebSci International Conference, (2009) [13]S. Navlakha, R. Rastogi, and N. Shrivastava: Graph summarization with bounded error. ACM SIGMOD International Conference, (2008) [14]Masahiro Kimura, Hiroshi Motoda: Blocking Links to Minimize Contamination Spread in a Social Network. ACM Transactions on Knowledge Discovery from Data: Vol. 3, (2009) [15]J.M. Kleinberg: Authoritative sources in a hyperlinked environment. ACM: Vol. 46. [16]M. Toyoda, M. Kitsuregawa: Extracting evolution of web communities from a series of web archives. ACM Conference on Hypertext and Hypermedia, (2003) [17]Marc Smith, Vladimir Barash: Social SQL: Tools for exploring social databases. Bulletin of the IEEE Computer Society Technical Committee on Data Engineering, (2008)
NEWS MINER ΕΡΩΤΗΣΕΙΣ ;