ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΕΙΡΑΙΩΣ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΜΠΣ ΠΡΟΗΓΜΕΝΑ ΣΥΣΤΗΜΑΤΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΜΕΤΑΠΤΥΧΙΑΚΗ ΔΙΑΤΡΙΒΗ ΑΚΑΔΗΜΑΪΚΟ ΕΤΟΣ: 2007 - 2008 NewsMiner ΣΥΛΛΟΓΗ ΚΑΙ.

Slides:



Advertisements
Παρόμοιες παρουσιάσεις
Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1 Ευρετήρια.
Advertisements

«Πρόγραμμα Αναμόρφωσης Προπτυχιακών Προγραμμάτων Σπουδών Γ.Π.Α.» Σεμινάριο Επιμόρφωσης Διδακτικού Προσωπικού Οι τεχνολογίες της Πληροφορικής και των Επικοινωνιών.
Τεχνολογίες Web Απαραίτητες γνώσεις για την υλοποίηση της άσκησης.
Ένα εργαλείο σε Java για την ανάκτηση πληροφοριών και τον εντοπισμό ομοιοτήτων σε ακαδημαϊκές εκδόσεις με τη χρήση τεχνικών εξόρυξης δεδομένων Δημήτρης.
Δομές Δεδομένων και Αλγόριθμοι
ΕΞΟΡΥΞΗ ΓΝΩΣΗΣ ΑΠΟ ΕΙΚΟΝΕΣ
Κατασκευή & Προώθηση Ιστοσελίδων
Πέτσας Δημήτριος Παρουσίαση στο μάθημα: Ψηφιακές Βιβλιοθήκες
Διαδίκτυο Κίκα Χρυσοστόμου.
Οι Ακαδημαϊκές Βιβλιοθήκες της Περιφέρειας: Φορείς γνώσης και πολιτιστικής ανάπτυξης Βιβλιοθήκη Τ.Ε.Ι. Καλαμάτας 18 Δεκεμβρίου 2008 ΑΒΕΚΤ 5.6 Νέα έκδοση.
ΔΙ.ΟΡΓΑΝΩ.ΣΗ Σύστημα ΔΙαχείρισης ΟΡΓΑΝΩσιακής ΓνώΣΗς για τις ελληνικές επιχειρήσεις. Μπίμπη Σταματία1 Σαμολαδάς Ιωάννης1 Σταμέλος Ιωάννης1 Κατσιαδάκης.
Ανάπτυξη Μοντέλου Ρομποτικού Οχήματος Σταθερής Τροχιάς, για Αποθήκη Κέντρου Διανομής Λιανεμπορίου ή Υπηρεσιών Logistics Γκρέμος Αναστάσιος ΠΛΣ Διπλωματική.
Πανελλήνιο Ψηφιακό Αποθετήριο Μαθησιακών Αντικειμένων
Internet ‘Εκεί που η πληροφορία είναι το νόμισμα’ Παρουσιάζεται από τον Παναγιώτη Μιντόπουλο.
Case Study: Philly Dentistry Αποστολέρη Η., Ιωαννίδης Α., Ναζίρη Μ., Πεχλιβάνη Ε. S.E.M. & S.E.O.
 Παρουσιάζοντας πολιτισμικό υλικό στα σχολεία
Τ.Ε.Ι. ΣΕΡΡΩΝ ΣΧΟΛΗ ΤΕΧΝΟΛΟΓΙΚΩΝ ΕΦΑΡΜΟΓΩΝ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ & ΕΠΙΚΟΙΝΩΝΙΩΝ Επιβλέπων καθηγητής: Βακαλούδης Αλέξανδρος Σπουδαστής: Τσιαουσίδης Δημήτριος.
Σύστημα ηλεκτρονικής δημοσίευσης DiVA Μάθημα: «Ηλεκτρονική Δημοσίευση» Χαρίκλεια Μπρίντεζη.
Ολυμπία Νίκου Α.Μ. Μ956 Διπλωματική Εργασία
ΗΥ-566 Διαχείρηση Γνώσης στο Διαδίκτυο1 SWRC Ontology Κτιστάκης Γιώργος Μπούτσικα Κατερίνα Παπαδάκης Μύρων.
24/11/2003Message Passing Interface (MPI)1 Αθήνα, Νοέμβριος 2003 Συστήματα Παράλληλης Επεξεργασίας Εργαστήριο Υπολογιστικών Συστημάτων.
22/11/2004Message Passing Interface (MPI)1 Αθήνα, Νοέμβριος 2004 Συστήματα Παράλληλης Επεξεργασίας Εργαστήριο Υπολογιστικών Συστημάτων.
ΗΜΕΡΙΔΑ ΓΙΑ ΘΕΜΑΤΑ ΣΤΑΔΙΟΔΡΟΜΙΑΣ ΛΙΒΑΔΕΙΑ 7/12/2011 Πανεπιστήμιο Στερεάς Ελλάδας Γραφείο Διασύνδεσης Τμήμα Περιφερειακής Οικονομικής Ανάπτυξης.
Μονάδα Διασφάλισης Ποιότητας του ΤΕΙ Σερρών
Εργαστηριακή Εκπαίδευση με χρήση του Διαδικτύου
HMMY Τεχνολογία Λογισμικού Διδάσκων Κώστας Κοντογιάννης Αναπλ
Αναπληρωτής Καθηγητής Ανδρέας Βέγλης Διευθυντής Εργαστηρίου Εφαρμογών Πληροφορικής στα ΜΜΕ Τμήμα Δημοσιογραφίας & ΜΜΕ Αριστοτέλειο Πανεπιστήμιο Θεσσαλονίκης.
1 Γυναίκες και επιστήμη: μια πρώτη διερεύνηση Λάουρα Αλιπράντη Κύρια Ερευνήτρια, Εθνικό Κέντρο Κοινωνικών Ερευνών.
Εποπτεύων καθηγητής: Κος Σαράντος Καπιδάκης
Μηχανική Μάθηση και Εξόρυξη Γνώσης
Η μηχανική μάθηση στην αντιμετώπιση της Υπερπληροφόρησης
ΠΛΗΡΟΦΟΡΙΑΚΟ ΣΥΣΤΗΜΑ ΓΙΑ ΤΗΝ ΔΙΑΣΦΑΛΙΣΗ ΠΟΙΟΤΗΤΑΣ Γραφείο Ποιότητας Αλεξάνδρειο ΤΕΙ Θεσσαλονίκης.
Αναγνώριση Προτύπων.
19 ο Συνέδριο Ελληνικών Ακαδημαϊκών Βιβλιοθηκών Αθήνα, Νοεμβρίου, 2010 HEAL-Link 2010: ο αγώνας για την επιβίωση μόλις έκλεισε τα 12 Κλωντίνη Δέρβου,
Παπαδάτου Φιερούλα Φραντζή Μαρία Βιβλιοθήκη & Υπηρεσία Πληροφόρησης Πανεπιστήμιο Πατρών Ηλεκτρονικά Περιοδικά και Υπηρεσίες Διαδανεισμού: Αντίπαλοι ή.
Βασίλης Κόμης Αναπληρωτής Καθηγητής
ΈΝΑ ΗΛΕΚΤΡΟΝΙΚΟ ΕΚΘΕΤΗΡΙΟ ΓΙΑ ΤΙΣ ΝΕΕΣ ΠΡΟΣΚΤΗΣΕΙΣ ΒΙΒΛΙΩΝ ΤΗΣ ΒΙΒΛΙΟΘΗΚΗΣ ΤΟΥ ΠΑΝΕΠΙΣΤΗΜΙΟΥ ΜΑΚΕΔΟΝΙΑΣ Κολοβός Φίλιππος Τσανακτσίδου ΕλισάβετΠαπαργύρη.
13ο Πανελλήνιο Συνέδριο Ακαδημαϊκών Βιβλιοθηκών – Κέρκυρα Οκτωβρίου 2004 Το σύστημα COINE για την προβολή της πολιτιστικής κληρονομιάς και την υποστήριξη.
Ενίσχυση της έρευνας στο “ΕΠ. Εκπαίδευση και δια βίου μάθηση ” Νίκος Μαρούλης, Logotech AE Καρδίτσα 18 Σεπτεμβρίου 2008.
ΕΥΡΕΣΗ ΚΑΤΗΓΟΡΙΚΩΝ ΕΚΤΟΠΩΝ ΣΕ ΒΙΒΛΙΟΓΡΑΦΙΚΗ ΒΑΣΗ ΔΕΔΟΜΕΝΩΝ
Δομές Αναζήτησης TexPoint fonts used in EMF. Read the TexPoint manual before you delete this box.: AA A A A Χειριζόμαστε ένα σύνολο στοιχείων όπου το κάθε.
Λάζαρος Πολυμενάκος, καθηγητής ΑΙΤ Ηρακλής Καπρίτσας, telia.co.gr
Διαδικτυακή εφαρμογή ανάλυσης και επεξεργασίας δεδομένων κυβερνητικών διαβουλεύσεωνgov.insight Η. Ζαβιτσάνος, Γ. Γιαννακόπουλος, Γ. Παλιούρας Ινστιτούτο.
Ανάκτηση Πληροφορίας (Information Retrieval – IR) Πανεπιστήμιο Θεσσαλίας Πολυτεχνική Σχολή Τμήμα Μηχ. Η/Υ, Τηλ/νιών & Δικτύων Ακαδημαϊκό Έτος
Τεχνολογία ΛογισμικούSlide 1 Αλγεβρική Εξειδίκευση u Καθορισμός τύπων αφαίρεσης σε όρους σχέσεων μεταξύ τύπων λειτουργιών.
1 Ενότητα 5.3.1: Ερωτηματολόγια με τη χρήση του Διαδικτύου Διδάσκων: Χρήστος Κατσάνος - Πανεπιστημιακό κέντρο εκπαίδευσης επιμορφωτών.
ΠΟΛΥΜΝΙΑ - Ολοκληρωμένο Σύστημα Εργαλείων Μουσικής και Μουσική Πύλη
Μοντέλα Συστημάτων Παρουσιάσεις των συστημάτων των οποίων οι απαιτήσεις αναλύονται.
Ανάπτυξη Πρωτοτύπου Λογισμικού
1 MedioVis- Ένας φυλλομετρητής μεταδεδομένων MedioVis – A user-centred Library Metadata Browser Μάθημα: Ψηφιακές Βιβλιοθήκες Διδάσκων: Καπιδάκης Σαράντος.
Ουρά Προτεραιότητας: Heap
Οριζόντιο Έργο Υποστήριξης Σχολείων, Εκπαιδευτικών και Μαθητών στο Δρόμο για το ΨΗΦΙΑΚΟ ΣΧΟΛΕΙΟ, νέες υπηρεσίες Πανελλήνιου Σχολικού Δικτύου και Στήριξη.
Αυτόματη Ανάλυση & Οργάνωση Μουσικών Αρχείων Διδάσκων Καθηγητής: Καπιδάκης Σαράντος Σπουδαστής: Σιδέρης Νίκος Αθήνα2008.
ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ Information Extraction.
Εθνικό και Καποδιστριακό Πανεπιστήμιο Αθηνών Τμήμα Πληροφορικής και Τηλεπικοινωνιών Learning to Learn: Algorithmic Inspirations from Human Problem Solving.
Διδακτική της Πληροφορικής ΗΥ302 Εργασία :Παρουσίαση σχολικού βιβλίου Γ’ Λυκείου Τεχνολογικής Κατεύθυνσης «Ανάπτυξη εφαρμογών σε προγραμματιστικό περιβάλλον»
WEBLOGS «push-button publishing» Ηλεκτρονική δημοσίευση....με το πάτημα ενός κουμπιού Ζαρβαλά Χαρίκλεια Ιούνιος 2005.
1 Μελέτη κανόνων συμμετοχής σε ομότιμα δίκτυα επικοινωνίας μέσω προσομοίωσης Φοιτητής : Χρήστος Ι. Καρατζάς Επιβλέποντες Καθηγητές : Γ. Πολύζος – Κ. Κουρκουμπέτης.
RSS FEEDS Εισαγωγικά θέματα WWW ΠΑΝΤΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΘΗΝΩΝ ΠΜΣ:ΔΥΝΗΤΙΚΕΣ ΚΟΙΝΟΤΗΤΕΣ, ΚΟΙΝΩΝΙΟΨΥΧΟΛΟΓΙΕΣ ΠΡΟΣΕΓΓΙΣΕΙΣ ΚΑΙ ΤΕΧΝΙΚΕΣ ΕΦΑΡΜΟΓΕΣ ΕΞΑΜΗΝΟ: Α΄
ΙΟΝΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΤΜΗΜΑ ΑΡΧΕΙΟΝΟΜΙΑΣ - ΒΙΒΛΙΟΘΗΚΟΝΟΜΙΑΣ ΜΕΤΑΠΤΥΧΙΑΚΟ ΠΡΟΓΡΑΜΜΑ ΣΠΟΥΔΩΝ ΣΤΗΝ ΕΠΙΣΤΗΜΗ ΤΗΣ ΠΛΗΡΟΦΟΡΙΑΣ «ΕΠΙΣΤΗΜΗ ΤΗΣ ΠΛΗΡΟΦΟΡΙΑΣ – ΔΙΟΙΚΗΣΗ.
DSpace:ένα ψηφιακό αποθετήριο ανοικτής πρόσβασης Φοιτήτρια : Νικολέττα Μπίζου Μάθημα: Ηλεκτρονική δημοσίευση Διδάσκοντες: Σαράντος Καπιδάκης Μανώλης Γεργατσούλης.
University of Crete HY566-Semantic Web CS566 – Semantic Web Computer Science Department - UoC Heraklion 1 April, 2003 Παπαγγελής Μάνος, Κοφφινά Ιωάννα,
Γραφικό Περιβάλλον Συγγραφής Κανόνων στο Σημασιολογικό Διαδίκτυο Διπλωματική Εργασία της Βασιλικής Ζερβάκη Επιβλέπων Καθηγητής: Νικόλαος Βασιλειάδης Θεσσαλονίκη.
1 Διαχείριση Γνώσης Μ. Γεργατσούλης Χ. Παπαθεοδώρου.
Δρ. Αλέξανδρος Βακαλούδης.  Εξόρυξη δεδομένων (Data Mining)  Association Rules  Clustering  Classification  Στάδια για εξόρυξη δεδομένων  Επανάληψη.
Δομές δεδομένων και Αλγόριθμοι Κεφάλαιο 3. Ανάπτυξη Εφαρμογών σε Προγραμματιστικό Περιβάλλον Δεδομένα Δεδομένα (data) Δεδομένα (data) –αφαιρετική αναπαράσταση.
Χάρης Κονδυλάκης Σχεδιασμός Ιστοχώρων 1. Παραδείγματα ιστοχώρων del.icio.us europa.eu lufthansa.aero cnn.tv.
MOODLE- assessment tools
ΤΕΙ ΚΕΝΤΡΙΚΗΣ ΜΑΚΕΔΟΝΙΑΣ Τμήμα Μηχανικών Πληροφορικής ΤΕ
ΣΧΕΔΙΑΣΜΟΣ ΚΑΙ ΑΝΑΠΤΥΞΗ ΔΙΑΔΙΚΤΥΑΚΩΝ ΕΦΑΡΜΟΓΩΝ
Μεταγράφημα παρουσίασης:

ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΕΙΡΑΙΩΣ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΜΠΣ ΠΡΟΗΓΜΕΝΑ ΣΥΣΤΗΜΑΤΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΜΕΤΑΠΤΥΧΙΑΚΗ ΔΙΑΤΡΙΒΗ ΑΚΑΔΗΜΑΪΚΟ ΕΤΟΣ: NewsMiner ΣΥΛΛΟΓΗ ΚΑΙ ΤΑΞΙΝΟΜΗΣΗ ΕΙΔΗΣΕΟΓΡΑΦΙΚΩΝ ΠΗΓΩΝ ΕπιβλέπωνΓιάννης Θεοδωρίδης, Αναπληρωτής Καθηγητής Νίκος Πελέκης, Διδάσκων ΠΔ 407/80 ΦοιτητήςΔιονύσης Νινιός

ΣΚΟΠΟΣ ΣΧΕΤΙΚΕΣ ΕΡΓΑΣΙΕΣ ΤΟ ΣΥΣΤΗΜΑ NEWSMINER CASE STUDY ΣΥΜΠΕΡΑΣΜΑΤΑ - ΕΠΕΚΤΑΣΕΙΣ ΚΥΡΙΑ ΣΗΜΕΙΑ

ΣΚΟΠΟΣ ΣΧΕΤΙΚΕΣ ΕΡΓΑΣΙΕΣ ΤΟ ΣΥΣΤΗΜΑ NEWSMINER CASE STUDY ΣΥΜΠΕΡΑΣΜΑΤΑ - ΕΠΕΚΤΑΣΕΙΣ

Διαδίκτυο ΣΚΟΠΟΣ Πολλές χρήσεις Τεράστιος όγκος αδόμητης πληροφορίας Δυσκολία εύρεσης χρήσιμης πληροφορίας Ενημέρωση Δημοφιλής χρήση Διαδικτύου Πολλοί Διαδικτυακοί φορείς ενημέρωσης Διαφορετικές ειδήσεις και όψεις ειδήσεων

Η ανάπτυξη ενός συστήματος Ολοκληρωμένου Αυτοματοποιημένου Εύρεση άρθρων από Διαδίκτυο Ομαδοποίηση άρθρων σε θέματα Παρουσίαση θεμάτων - άρθρων ΣΚΟΠΟΣ

ΚΥΡΙΑ ΣΗΜΕΙΑ ΣΚΟΠΟΣ ΣΧΕΤΙΚΕΣ ΕΡΓΑΣΙΕΣ ΤΟ ΣΥΣΤΗΜΑ NEWSMINER CASE STUDY ΣΥΜΠΕΡΑΣΜΑΤΑ - ΕΠΕΚΤΑΣΕΙΣ

ΣΧΕΤΙΚΕΣ ΕΡΓΑΣΙΕΣ Εύρεση δομημένης πληροφορίας [1], [2] Κατηγοριοποίηση σελίδων [3], [4], [5] Συγκέντρωση πολλών πηγών [6], [7] Στοιχεία χρήστη [8], [9] Κοινωνιολογικά δεδομένα [10], [11]

ΣΧΕΤΙΚΕΣ ΕΡΓΑΣΙΕΣ Διάχυση πληροφορίας σε κοινωνικά δίκτυα [12], [13], [14] Εύρεση κοινοτήτων σε κοινωνικά δίκτυα [15], [16] Παρουσίαση δεδομένων [17]

ΣΧΕΤΙΚΕΣ ΕΡΓΑΣΙΕΣ CEBIL

ΣΧΕΤΙΚΕΣ ΕΡΓΑΣΙΕΣ PALO

ΣΧΕΤΙΚΕΣ ΕΡΓΑΣΙΕΣ NEEMO

ΣΧΕΤΙΚΕΣ ΕΡΓΑΣΙΕΣ GOOGLE NEWS

ΣΧΕΤΙΚΕΣ ΕΡΓΑΣΙΕΣ - ΣΥΝΟΨΗ Εξαγωγή πληροφορίας από WEB σελίδες Ερευνητικές Εργασίες Εφαρμογή σε μεγάλο όγκο δεδομένων Λήψη ικανοποιητικών αποτελεσμάτων NewsMiner Εφαρμογή σε περιορισμένο όγκο δεδομένων Λήψη αποτελεσμάτων με μεγάλη ακρίβεια

ΣΧΕΤΙΚΕΣ ΕΡΓΑΣΙΕΣ - ΣΥΝΟΨΗ Κατηγοριοποίηση σελίδων Ερευνητικές Εργασίες Χρήση περιεχομένου σελίδας Ταξινόμηση σε γενικές κατηγορίες NewsMiner Χρήση επεξεργασμένου περιεχομένου σελίδας Ταξινόμηση σε βάθος

ΣΧΕΤΙΚΕΣ ΕΡΓΑΣΙΕΣ - ΣΥΝΟΨΗ Cebil - Palo Ίδιο στόχο με NewsMiner Άγνωστες τεχνικές λειτουργίας Neemo Παρόμοιο στόχο - τεχνικές με NewsMiner Google News Ταξινόμηση σε γενικές κατηγορίες

ΚΥΡΙΑ ΣΗΜΕΙΑ ΣΚΟΠΟΣ ΣΧΕΤΙΚΕΣ ΕΡΓΑΣΙΕΣ ΤΟ ΣΥΣΤΗΜΑ NEWSMINER CASE STUDY ΣΥΜΠΕΡΑΣΜΑΤΑ - ΕΠΕΚΤΑΣΕΙΣ

ΔΟΜΗ NEWSMINER

ΕΝΗΜΕΡΩΣΗ ΣΥΣΤΗΜΑΤΟΣ Γενικά χαρακτηριστικά Εννοιολογικός – Λογικός – Φυσικός Σχεδιασμός Υλοποίηση ρουτινών στη βάση δεδομένων

ΓΕΝΙΚΑ ΧΑΡΑΚΤΗΡΙΣΤΙΚΑ Εκμετάλλευση RSS FEEDS Εξαγωγή στοιχείων άρθρου Αυτοματοποίηση Ταχύτητα εκτέλεσης

ΕΝΗΜΕΡΩΣΗ ΣΥΣΤΗΜΑΤΟΣ Χρήση RSS Feeds Really Simple Syndication XML τυποποίηση Αναπαράσταση πληροφοριών συνεχώς μεταβαλλόμενων Βασικές πληροφορίες είδησης (URL, τίτλος, δημοσίευση κ.α.)

ΕΝΗΜΕΡΩΣΗ ΣΥΣΤΗΜΑΤΟΣ Δύο κορίτσια εννέα ετών πνίγηκαν σε πισίνα κατασκήνωσης στη Λάρισα Σε ένα τραγικό όσο και πρωτοφανές περιστατικό, δύο 9χρονα κοριτσάκια πνίγηκαν το απόγευμα της Παρασκευής σε πισίνα ιδιωτικής κατασκήνωσης στο νομό Λάρισας, κάτω από αδιευκρίνιστες συνθήκες. Συνελήφθησαν οι ιδιοκτήτες της κατασκήνωσης και διενεργείται προανάκριση από τις Αρχές. Fri, 19 Jun :21:00 UTC ΑΠΕ-ΜΠΕ Δομή RSS Feeds

Επιλογή γενικών κατηγοριών άρθρων ΕΛΛΑΔΑΟΙΚΟΝΟΜΙΑ ΑΘΛΗΤΙΚΑΚΟΣΜΟΣ ΕΠΙΣΤΗΜΗΠΟΛΙΤΙΣΜΟΣ ΕΝΗΜΕΡΩΣΗ ΣΥΣΤΗΜΑΤΟΣ

ΤΑΞΙΝΟΜΗΣΗ ΝΕΩΝ ΑΡΘΡΩΝ NEWS_TOPICS AA_TOPICΚωδικός θέματος (συστάδας) AA_FIRSTΚωδικός ενός σχετικού άρθρου RELATIVEΠλήθος σχετικών άρθρων NEWS_TOPICS_DTL AA_TOPICΚωδικός θέματος AA_ITEMΚωδικός άρθρου OLD_ITEMS AA_OLDΠαλαιό άρθρο AA_NEWΣχετικό ενεργό άρθρο

ΤΑΞΙΝΟΜΗΣΗ ΝΕΩΝ ΑΡΘΡΩΝ

Δημιουργία διαδικασίας συνολικής ενημέρωσης Χρήση jobs ORACLE Ωριαία ενημέρωση συστήματος Ημερήσια διαγραφή παλαιών άρθρων (3:00 π.μ.) ΑΥΤΟΜΑΤΟΠΟΙΗΣΗ

ΣΚΟΠΟΣ ΣΧΕΤΙΚΕΣ ΕΡΓΑΣΙΕΣ ΤΟ ΣΥΣΤΗΜΑ NEWSMINER CASE STUDY ΣΥΜΠΕΡΑΣΜΑΤΑ - ΕΠΕΚΤΑΣΕΙΣ ΚΥΡΙΑ ΣΗΜΕΙΑ

CASE STUDY Επισκόπηση περιβάλλοντος εργασίας Προετοιμασία διαδικασίας Κατηγοριοποίηση Συσταδοποίηση Ένταξη σε παραγωγική λειτουργία Ανάπτυξη Διεπαφής

ΠΕΡΙΒΑΛΛΟΝ ΕΡΓΑΣΙΑΣ ORACLE 11G ORACLE TEXT ORACLE APPLICATION EXPRESS

ΠΕΡΙΒΑΛΛΟΝ ΕΡΓΑΣΙΑΣ ORACLE 11G Δημοφιλές εμπορικό ΣΔΒΔ Ενσωματωμένες διαδικασίες Data Mining Πακέτο UTL_HTTP για HTTP requests Τύπος δεδομένων CLOB Δυνατότητες αυτοματοποίησης διαδικασιών

ΠΕΡΙΒΑΛΛΟΝ ΕΡΓΑΣΙΑΣ ORACLE TEXT Αναζήτηση σε μεγάλες στατικές συλλογές εγγράφων: CONTEXT ευρετήριο Αναζήτηση μικρότερων μεταβαλλόμενων συλλογών εγγραφών: CTX_CAT ευρετήριο Ομαδοποίηση εγγράφων

ΠΕΡΙΒΑΛΛΟΝ ΕΡΓΑΣΙΑΣ Ομαδοποίηση εγγράφων Βάσει κανόνων Με επίβλεψη (κατηγοριοποίηση) Χωρίς επίβλεψη (συσταδοποίηση)

ΠΕΡΙΒΑΛΛΟΝ ΕΡΓΑΣΙΑΣ Βάσει κανόνων Δημιουργία κλάσεων και κανόνων από χρήστη Ευρετήριο CTX_RULE σε κανόνες Κατηγοριοποίηση νέου εγγράφου με τελεστή MATCHES

ΠΕΡΙΒΑΛΛΟΝ ΕΡΓΑΣΙΑΣ Με επίβλεψη Δημιουργία κλάσεων από χρήστη και κανόνων από σύστημα Ευρετήριο CTX_RULE σε κανόνες και CONTEXT σε εκπαιδευτικό σύνολο Κατηγοριοποίηση νέου εγγράφου με τελεστή MATCHES Δέντρα Απόφασης και SVM

ΠΕΡΙΒΑΛΛΟΝ ΕΡΓΑΣΙΑΣ Χωρίς επίβλεψη Δημιουργία κλάσεων και κανόνων από σύστημα K-MEANS

ORACLE APPLICATION EXPRESS Εργαλείο ανάπτυξης WEB database centric εφαρμογών Αποθηκευμένο σε βάση δεδομένων (215 πίνακες και 200 PLS/SQL αντικείμενα) ΠΕΡΙΒΑΛΛΟΝ ΕΡΓΑΣΙΑΣ

ΠΡΟΕΤΟΙΜΑΣΙΑ In.gr, Καθημερινή, Ελεύθερος Τύπος Παραμετροποίηση συστήματος Χρήση διαδικασίας ενημέρωσης Δημιουργία δεδομένων εκπαίδευσης και ελέγχου (12 μέρες, 766 άρθρα ΕΛΛΑΔΑ, 315 θέματα)

ΠΡΟΕΤΟΙΜΑΣΙΑ Δημιουργία λίστας κοινών λέξεων

ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗ

ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗ – Δ.Α. ΔΕΝΤΡΑ ΑΠΟΦΑΣΗΣ Επιλογή ανάμεσα σε δυο εναλλακτικές αποφάσεις Ορατοί κανόνες Μετασχηματίζονται σε ειδικές αναζητήσεις Αντιστοίχηση εγγράφων με κατηγορίες Συγκεκριμένες παράμετροι

ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗ – Δ.Α. THRESHOLD Ελάχιστο όριο εμπιστοσύνης κανόνων MAX_TERMS Μέγιστος αριθμός όρων κανόνων ανά κλάση MEMORY_SIZE Χρησιμοποιούμενη μνήμη NT_THRESHOLD Ελάχιστο όριο αρχικής επιλογής όρων TERM_THRESHOLD Ελάχιστο όριο τελικής επιλογής όρων PRUNE_LEVEL Επίπεδο κλαδέματος δέντρου απόφασης

ΚΡΙΤΗΡΙΑ ΑΞΙΟΛΟΓΗΣΗΣ ΔΟΚΙΜΩΝ Συνολικό ποσοστό επιτυχίας Ποσοστό επιτυχίας ενεργών θεμάτων Ποσοστό επιτυχίας νέων θεμάτων Πολλαπλές κατηγοριοποιήσεις ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗ – Δ.Α.

MAX_TERMS (20-200, βήμα 10) <= MAX_TERMS (30-50, βήμα 1) =>=> ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗ – Δ.Α.

NT_THRESHOLD ( , βήμα 0.05) <= TERM_THRESHOLD (10-100, βήμα 5) =>=> ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗ – Δ.Α.

TERM_THRESHOLD (25-35, βήμα 1) <= THRESHOLD (5-95, βήμα 5) =>=> ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗ – Δ.Α.

THRESHOLD (5-20, βήμα 1) <= PRUNE_LEVEL (5-100, βήμα 5) =>=> ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗ – Δ.Α.

PRUNE_LEVEL (5-80, βήμα 1) <= ΣΥΝΟΛΟΕΝΕΡΓΑΝΕΑΠΟΛΛΑΠΛΕΣ 70%55%80%3% ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗ – Δ.Α.

SUPPORT VECTOR MACHINE Μηχανική μάθηση (στατιστική εκπαίδευση) Αόρατοι κανόνες Μετασχηματίζονται σε ειδικές αναζητήσεις Αντιστοίχηση εγγράφων με κατηγορίες (πιθανότητα) Συγκεκριμένες παράμετροι ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗ – SVM

MAX_DOCTERMS Μέγιστος αριθμός όρων ανά κείμενο MAX_FEATURES Μέγιστος συνολικός αριθμός διακριτών χαρακτηριστικών THEME_ON – TOKEN_ON – STEM_ON Γλωσσολογικές παράμετροι MEMORY_SIZE Χρησιμοποιούμενη μνήμη SECTION_WEIGHT Βάρη σε τμήματα του εγγράφου (HTML, XML) ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗ – SVM

MAX_FEATURES ( , βήμα 1.000) <= Όριο πιθανότητας 30% =>=> ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗ – SVM

Όριο πιθανότητας 25% <= Όριο πιθανότητας 35% =>=> ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗ – SVM

MAX_DOCTERMS 100 <= MAX_DOCTERMS 120 =>=> ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗ – SVM

ΑΛΟΓΡΙΘΜΟΣΣΥΝΟΛΟΕΝΕΡΓΑΝΕΑΠΟΛΛΑΠΛΕΣ DECISION TREE 70%55%80%3% SVM75%65%81.5%9% ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗ – SVM

ΣΥΣΤΑΔΟΠΟΙΗΣΗ K – MEANS Μέτρηση απόστασης μεταξύ σημείων Ιεραρχική συσταδοποίηση Εύρεση κλάσεων και εγγράφων (ποσοστό) Συγκεκριμένες παράμετροι

MAX_DOCTERMS Μέγιστος αριθμός όρων ανά κείμενο MAX_FEATURES Μέγιστος συνολικός αριθμός διακριτών χαρακτηριστικών THEME_ON – TOKEN_ON – STEM_ON Γλωσσολογικές παράμετροι MEMORY_SIZE Χρησιμοποιούμενη μνήμη SECTION_WEIGHT Βάρη σε τμήματα του εγγράφου (HTML, XML) CLUSTER_NUM Πλήθος τελικών συστάδων ΣΥΣΤΑΔΟΠΟΙΗΣΗ

MAX_FEATURES (1.000 – , βήμα 1.000) <= MAX_FEATURES (100 – 2.000, βήμα 100) =>=> ΣΥΣΤΑΔΟΠΟΙΗΣΗ

MAX_DOCTERMS 40 <= MAX_DOCTERMS 60=>=> ΣΥΣΤΑΔΟΠΟΙΗΣΗ

MAX_DOCTERMS 70 <= MAX_FEATURES (1 – 100, βήμα 5) =>=> ΣΥΣΤΑΔΟΠΟΙΗΣΗ

ΕΝΤΑΞΗ ΣΕ ΠΑΡΑΓΩΓΗ Επιλογή μοντέλων SVM (MAX_FEATURES = 1000, MAX_DOCTERMS = 100) K – MEANS (CLUSTER_NUM = 20, MAX_DOCTERMS = 70 MAX_FEATURES = 80) Ενημέρωση διαδικασιών συστήματος

ΔΙΕΠΑΦΗ

ΣΥΜΠΕΡΑΣΜΑΤΑ Εξόρυξη γνώσης από WEB Δύσκολη και χρονοβόρα διαδικασία Προετοιμασία δεδομένων Ταξινόμηση δεδομένων Αξιολόγηση συστήματος Διαδικασία ενημέρωσης: Εξαιρετικά Ταξινόμηση άρθρων: Ικανοποιητικά

ΣΥΜΠΕΡΑΣΜΑΤΑ Δυσκολίες σε ταξινόμηση άρθρων Αδόμητη πληροφορία Γλωσσολογικές δυσκολίες Ταξινόμηση σε βάθος Μικρός αριθμός άρθρων ανά κατηγορία Μεταβαλλόμενα δεδομένα και κατηγορίες

Χρήση λεξικού συνωνύμων Δημιουργία stemmer βάσει κανόνων Εμπλουτισμός λίστας κοινών λέξεων Περιεκτικότερη αναπαράσταση άρθρων Χρήση του τίτλου της είδησης Περαιτέρω δοκιμές σε αλγόριθμους ΕΠΕΚΤΑΣΕΙΣ

ΑΝΑΦΟΡΕΣ [1]Davi de Castro Reis, Paulo B. Golgher, Altigran S. da Silva, Alberto H. F. Laender: Automatic Web News Extraction Using Tree Edit Distance. International Conference on World Wide Web, (2004) [2]Cai-Nicolas Ziegler, Michal Skubacz: Content Extraction from News Pages Using Particle Swarm Optimization on Linguistic and Structural Features. IEEE / WIC / ACM International Conference on Web Intelligence, (2007) [3]Smriti Bhagat, Irina Rozenbaum, Graham Cormode: Applying Link- based Classification to Label Blogs. WEBKDD International Conference, (2007) [4] Eric Glover, Kostas Tsioutsiouliklis, Steve Lawrence, David Pennock, Gary Flake: Using Web Structure for Classifying and Describing Web Pages. International Conference on World Wide Web, (2002) [5]Beibei Li, Beibei Li, Jun Zhang: Enhancing Clustering Blog Documents by Utilizing Author / Reader Comments. ACMSE International Conference (2007)

ΑΝΑΦΟΡΕΣ [6]Ismail Sengor Altingovde, Rifat Ozcan, Suleyman Cetintas, Hakan Yilmaz, Özgür Ulusoy: An Automatic Approach to Construct Domain- Specific Web Portals. CIKM International Conference, (2007) [7]Benjamin E. Teitler, Michael D. Lieberman, Daniele Panozzo, Jagan Sankaranarayanan, Hanan Samet, Jon Sperling: NewsStand: A New View on News. ACM GIS International Conference, (2008) [8]Riddhiman Ghosh, Mohamed Dekhil: Discovering User Profiles. International Conference on World Wide Web, (2009) [9]Evgeniy Gabrilovich, Susan Dumais, Eric Horvitz: Newsjunkie: Providing Personalized Newsfeeds via Analysis of Information Novelty. International Conference on World Wide Web, (2004) [10]Matthew S. Smith: Social Capital in Online Communities. PIKM International Workshop, (2008) [11]Xin Li, Lei Guo, Yihong (Eric) Zhao: Tag-based Social Interest Discovery. International Conference on World Wide Web, (2008)

ΑΝΑΦΟΡΕΣ [12]Lei Zhang, Wanqing Tu: Six Degrees of Separation in Online Society. WebSci International Conference, (2009) [13]S. Navlakha, R. Rastogi, and N. Shrivastava: Graph summarization with bounded error. ACM SIGMOD International Conference, (2008) [14]Masahiro Kimura, Hiroshi Motoda: Blocking Links to Minimize Contamination Spread in a Social Network. ACM Transactions on Knowledge Discovery from Data: Vol. 3, (2009) [15]J.M. Kleinberg: Authoritative sources in a hyperlinked environment. ACM: Vol. 46. [16]M. Toyoda, M. Kitsuregawa: Extracting evolution of web communities from a series of web archives. ACM Conference on Hypertext and Hypermedia, (2003) [17]Marc Smith, Vladimir Barash: Social SQL: Tools for exploring social databases. Bulletin of the IEEE Computer Society Technical Committee on Data Engineering, (2008)

NEWS MINER ΕΡΩΤΗΣΕΙΣ ;