Ανάπτυξη και εκπαίδευση ιεραρχίας ταξινομητών για την κατηγοριοποίηση κειμένων Αβραμίδη Γεωργία 719.

Slides:



Advertisements
Παρόμοιες παρουσιάσεις
Τι είναι ο προγραμματισμός
Advertisements

Τ.Ε.Ι ΜΕΣΟΛΛΟΓΓΙΟΥ ΣΧΟΛΗ ΔΙΟΙΚΗΣΗΣ ΚΑΙ ΟΙΚΟΝΟΜΙΑΣ ΤΜΗΜΑ ΕΦΑΡΜΟΓΩΝ ΣΤΗ ΔΙΟΙΚΗΣΗ ΚΑΙ ΟΙΚΟΝΟΜΙΑ ΘΕΜΑ:«ΣΥΣΤΗΜΑ ΗΜΙ-ΑΥΤΟΜΑΤΗΣ ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗΣ ΠΕΡΙΕΧΟΜΕΝΟΥ.
1. Εισαγωγή Ορισμοί:  VOD  NVOD  Live Streaming.
Επιμέλεια: Τίκβα Χριστίνα
ΕΙΣΑΓΩΓΗ ΣΤΗΝ PHP. Τι θα μάθουμε;  Να καταλάβουμε τι είναι η PHP και πώς δουλεύουν τα PHP scripts  Τι χρειάζεται για να ξεκινήσουμε με την PHP  Να.
Τεχνικές Προγραμματισμού με την JavaScript Στυλιάδης Κων/νος Φλώρινα, Οκτώβριος 2004.
Ονοματεπώνυμο: Ζωγράφου Αγγελική ΑΕΜ:1858
Να περιγράψετε τους 2 τρόπους οργάνωσης Ιστοσελίδων
Ανάκτηση και Εξαγωγή Πληροφορίας από Πολυμεσικές και Πολυγλωσσικές
Τεχνολογίες Ηλεκτρονικής Μάθησης
ΟΡΟΛΟΓΙΑ Στην ΚτΠ: Χρησιμότητα στον Δημόσιο Τομέα ή Η σημασία της γνώσης των όρων για αποτελεσματική πρόσβαση στην πληροφορία Γ. Καραγιάννης Καθηγητής.
ΣΤΟΙΧΕΙΑ ΨΕΥΔΟΚΩΔΙΚΑ ΒΑΣΙΚΕΣ ΔΟΜΕΣ ΒΑΣΙΚΟΙ ΑΛΓΟΡΙΘΜΟΙ ΠΙΝΑΚΩΝ
Η Θεματική Ταξινόμηση και η Συμβολή της στην Αναζήτηση Ευρωπαϊκών Κοινωνικών Δεδομένων.
 Αυδίκου Χριστίνα  Γιουμούκης Παναγιώτης  Κιντσάκης Θάνος  Πάπιστας Γιάννης.
Μηχανική Μάθηση και Εξόρυξη Γνώσης
ΠΡΟΓΡΑΜΜΑΤΙΣΜΟΣ ΥΠΟΛΟΓΙΣΤΗ
Ασύγχρονη Τηλεκπαίδευση
Η ποιότητα της πληροφορίας στο εκπαιδευτικό υλικό που χρησιμοποιείται ή διανέμεται μέσω του Internet Χρήστος Σαβρανίδης Πανεπιστήμιο Ιωαννίνων Τμήμα ΦΠΨ.
Αναγνώριση Προτύπων.
Μερικά ακόμη παραδείγματα
ΠΛΗΡΟΦΟΡΙΑΚΑ ΣΥΣΤΗΜΑΤΑ
Λάζαρος Πολυμενάκος, καθηγητής ΑΙΤ Ηρακλής Καπρίτσας, telia.co.gr
Κεφ.1 Εισαγωγη στην εννοια του Αλγοριθμου και στον Προγραμματισμο
ΑΝΑΠΤΥΞΗ ΤΑΞΙΝΟΜΗΤΗ ΗΛΕΚΤΡΟΝΙΚΗΣ ΑΛΛΗΛΟΓΡΑΦΙΑΣ ΜΑΛΕΖΑ ΣΟΦΙΑ ΑΕΜ:765.
Διεύθυνση Α/θμιας Εκπ/σης Ν. Σερρών Κατασκευή Ιστοσελίδας  Απόλυτα πεπεισμένοι πως η κοινωνία της γνώσης προσκαλεί αλλά και προκαλεί τα Στελέχη της Εκπαίδευσης.
Ενεργή επιλογή αλγορίθμου, Active Algorithm Selection, Feilong Chen and Rong Jin Εύα Σιταρίδη.
ΗΛΕΚΤΡΟΝΙΚΗ ΔΗΜΟΣΙΕΥΣΗ ΔΑΜΠΑΣ ΑΘΑΝΑΣΙΟΣ Β ΚΑΛΩΤΑ ΑΝΝΑ Β
E X a M p L e Αξιοποιώντας την τεχνολογία XML στη διαχείριση της πληροφορίας Λίνα Μπουντούρη Εθνικό Κέντρο Τεκμηρίωσης 13ο Πανελλήνιο Συνέδριο Ακαδημαϊκών.
PHP/MYSQL ΠΑΡΟΥΣΙΑΣΗ ΣΤΑ ΠΛΑΙΣΙΑ ΤΟΥ ΜΑΘΗΜΑΤΟΣ ΕΠΟΙΚΟΙΝΩΝΙΑ ΑΝΘΡΩΠΟΥ-ΜΗΧΑΝΗΣ ΤΥΡΟΛΟΓΟΥ ΓΛΥΚΕΡΙΑ ΑΜ 875 ΡΙΖΟΥ ΔΕΣΠΟΙΝΑ ΑΜ 816.
1.5 Γλώσσες Προγραμματισμού
Επικοινωνία Ανθρώπου Μηχανής HTML CGI JAVASCRIPT Κουμπούλης Χρήστος Α.Μ. 921 Χαλαβαζής Βασίλης Α.Μ. 988.
Hot Potatoes. Είναι java scripts που δημιουργούνται με έναν ιδιαίτερα φιλικό τρόπο. Το Hot Potatoes (καυτές πατάτες) είναι πρόγραμμα ανοιχτού λογισμικού.
ΒΑΣΙΚΕΣ ΕΝΝΟΙΕΣ. ΥΠΟΛΟΓΙΣΤΗΣ Μηχανή που μπορεί να φέρει σε πέρας πνευματικές εργασίες ρουτίνας με μεγάλη ταχύτητα.
1 ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΣΧΟΛΗ ΘΕΤΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ Ανακάλυψη Γνώσης από Βιολογικές Αλληλουχίες Αλεξανδρίδου Αναστασία.
ΑΝΑΠΤΥΞΗ ΛΟΓΙΣΜΙΚΟΥ ΓΙΑ ΤΗΝ ΑΝΑΓΝΩΡΙΣΗ ΟΠΤΙΚΩΝ ΣΗΜΑΤΩΝ
Τμήμα Αρχειονομίας και Βιβλιοθηκονομίας Ιόνιο Πανεπιστήμιο Μεταπτυχιακό Πρόγραμμα στην Επιστήμη της Πληροφορίας Ψηφιακές Βιβλιοθήκες Διδάσκων: Σαράντος.
Μηχανική Μάθηση σε Συστήματα Πολλαπλών Πρακτόρων Παπαλιάς Κωνσταντίνος Τμήμα Πληροφορικής.
Εισαγωγή στην Έννοια του Αλγορίθμου και στον Προγραμματισμό
Ο Παγκόσμιος ιστός World Wide Web (WWW) Είναι μια υπηρεσία του Internet ΠΡΟΣΟΧΗ μην την ταυτίζουμε με το ιντερνέτ Αποτελείται από εκατομμύρια ιστοσελίδες.
ΕΝΟΤΗΤΑ 2 – Κεφάλαιο 5: Γνωριμία με το Λογισμικό
Τίτλος πτυχιακής εργασίας Ανάπτυξη διαδικτυακής πλατφόρμας κοινωνικής δικτύωσης και μικροεφαρμογής με δυνατότητες δημιουργίας-επεξεργασίας-χρήσης εκπαιδευτικών.
Μπόλαρη Αγγελικη(1451) Επιβλέπων Βολογιαννίδης Σταύρος ΑΤΕΙ ΣΕΡΡΩΝ ΣΧΟΛΗ ΤΕΧΝΟΛΟΓΙΚΩΝ ΕΦΑΡΜΟΓΩΝ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ & ΕΠΙΚΟΙΝΩΝΙΩΝ Σέρρες 2013.
Σπύρος Αβδημιώτης MBA PhD Τμήμα Διοίκησης Επιχειρήσεων Κατεύθυνση Διοίκησης Τουριστικών Επιχειρήσεων & Επιχειρήσεων Φιλοξενίας Εαρινό Εξάμηνο 2016.
ΑΝΑΠΤΥΞΗ ΔΙΑΔΙΚΤΥΑΚΗΣ ΠΛΑΤΦΟΡΜΑΣ ΔΙΑΧΕΙΡΙΣΗΣ ΜΑΘΗΜΑΤΩΝ ΚΑΙ ΜΕΛΩΝ ΙΣΤΟΣΕΛΙΔΑΣ ΤΩΝ ΚΑΘΗΓΗΤΩΝ ΤΟΥ ΤΜΗΜΑΤΟΣ ΑΒΡΑΜΙΔΟΥ ΑΛΕΞΑΝΔΡΑ 3211 ΙΑΚΩΒΟΥ ΚΥΡΙΑΚΗ 3182.
ΖΑΚΑΛΚΑΣ ΑΝΑΣΤΑΣΙΟΣ Α.Ε.Μ.: 2481 ΣΟΥΛΟΥΓΚΑΣ ΔΗΜΗΤΡΙΟΣ Α.Ε.Μ.: 2132 Επιβλέπων Καθηγητής: κ. ΟΥΤΣΙΟΣ ΕΥΑΓΓΕΛΟΣ ΜΑΡΤΙΟΣ 2016 ΣΕΡΡΕΣ.
Ασκήσεις WEKA Δέντρα αποφάσεων.
Ασκήσεις WEKA.
ΤΙΤΛΟΣ ΕΡΓΑΣΙΑΣ ΒΑΣΕΙΣ ΔΕΔΟΜΕΝΩΝ Ανδρέου Βασίλης.
ΒΑΣΕΙΣ ΔΕΔΟΜΕΝΩΝ ΣΤΗ ΔΙΑΧΕΙΡΙΣΗ ΤΕΧΝΙΚΩΝ ΕΡΓΩΝ
Τα καινοτόμα χαρακτηριστικά του Διαδικτύου και η ευρεία του αποδοχή από τις νεαρές ηλικίες καλλιέργησαν την ιδέα της αξιοποίησής του ως ένα εργαλείο στην.
Ασκήσεις WEKA Νευρωνικά δίκτυα.
Κατηγορίες και Προδιαγραφές Λογισμικού Η/Υ (Software)
Πρόγραμμα Προπτυχιακών Σπουδών Ροή Λ: Λογισμικό
Wikis Ο Cunningham εμπνεύστηκε τον όρο wiki από τα "wiki wiki", δηλαδή τα "γρήγορα" λεωφορεία πυκνών δρομολογίων στον αερολιμένα της Χονολουλού.
Εργασία στο μάθημα «Προγραμματισμός ΙΙ»
ΠΛΗΡΟΦΟΡΙΚΗ ΚΑΙ ΕΚΠΑΙΔΕΥΣΗ
ΣΧΕΔΙΑΣΗ ΕΚΠΑΙΔΕΥΤΙΚΟΥ ΛΟΓΙΣΜΙΚΟΥ
Από τα Δεδομένα στην Πληροφορία………………….
Hot Potatoes.
Κατηγορίες και είδη Λογισμικού Αυτοματισμού Γραφείου
Παρουσίαση Διπλωματικής Εργασίας της Φλώρου Παγώνας
Αντικειμενοστραφής Προγραμματισμός ΙΙ
ΤΕΙ ΚΕΝΤΡΙΚΗΣ ΜΑΚΕΔΟΝΙΑΣ Τμήμα Μηχανικών Πληροφορικής ΤΕ
ΠΡΟΓΡΑΜΜΑΤΙΣΤΙΚΑ ΠΕΡΙΒΑΛΛΟΝΤΑ Ανάπτυξη Εφαρμογών για Φορητές Συσκευές
Πληροφοριακό σύστημα Πληροφοριακό Σύστημα μιας επιχείρησης/οργανισμού είναι ένα σύστημα που αποτελείται από ανθρώπους, διαδικασίες και εξοπλισμό (Υλικό,
2ο ΓΥΜΝΑΣΙΟ ΣΗΤΕΙΑΣ - ΤΑΞΗ Γ'
Εισαγωγή στην υλοποίηση δικτυακού τόπου
ΠΛΗΡΟΦΟΡΙΚΗ Γ΄ Γυμνασίου Α΄ Τρίμηνο
Εισαγωγή Για σχεδόν τέσσερις δεκαετίες, οι προσωπικοί υπολογιστές αποτελούνταν από ένα desktop system και ένα folder system metaphors για τη διαχείριση.
Οι Κατευθύνσεις στο τμήμα Μηχανικών Πληροφορικής
Μεταγράφημα παρουσίασης:

Ανάπτυξη και εκπαίδευση ιεραρχίας ταξινομητών για την κατηγοριοποίηση κειμένων Αβραμίδη Γεωργία 719

Περιεχόμενα  Μηχανική Μάθηση και Κατηγοριοποίηση  Προεπεξεργασία δεδομένων  Η πλατφόρμα weka και τα arff αρχεία  Δημιουργία συνόλου δεδομένων  Εκπαίδευση και αξιολόγηση των Κατηγοριοποιητών Κειμένου  Οι διάφορες κατηγορίες και οι υποκατηγορίες τους  Οι ταξινομητές και η ιεραρχία που χρησιμοποιήθηκε  Μελλοντική εργασία

Μηχανική Μάθηση και Κατηγοριοποίηση (1/2)  Ορισμός: Η δημιουργία μοντέλων ή προτύπων από ένα υπολογιστικό σύστημα.  Εφαρμογές  Βιοπληροφορική  Μηχανική όραση  Ρομποτική  Γραφικά  Ομιλία  Οικονομική ανάλυση  Ηλεκτρονικό εμπόριο  Φαρμακευτική  Ηλεκτρονικά παιχνίδια  Πολυμέσα  Είδη  Μάθηση με επίβλεψη  Μάθηση χωρίς επίβλεψη

Μηχανική Μάθηση και Κατηγοριοποίηση (2/2)  Μάθηση με Επίβλεψη  Τεχνικές Μάθηση Εννοιών Μάθηση Εννοιών Δένδρα Ταξινόμησης ή απόφασης Δένδρα Ταξινόμησης ή απόφασης Μάθηση Κανόνων Μάθηση Κανόνων Μάθηση κατά Περίπτωση Μάθηση κατά Περίπτωση Μάθηση κατά Bayes Μάθηση κατά Bayes Γραμμική Παρεμβολή Γραμμική Παρεμβολή Νευρωνικά Δίκτυα Νευρωνικά Δίκτυα Μηχανές Διανυσμάτων Υποστήριξης Μηχανές Διανυσμάτων Υποστήριξης

Κατηγοριοποίηση Κειμένων (1/3)  Ορισμός: Είναι η διαδικασία κατά την οποία αναθέτεται μια Boolean τιμή σε κάθε ζεύγος (d j, c i ) є D x C, όπου D σύνολο από αρχεία κειμένου και C σύνολο από κατηγορίες  Μέθοδοι  Single-Label (Απλή) και Multilabel (Πολλαπλών-ετικετών) Κατηγοριοποίηση Κειμένου  Κατηγοριοποίηση εξαρτώμενη από τη κατηγορία (Category-Pivoted Text Categorization) και Κατηγοριοποίηση εξαρτώμενη από το κείμενο (Document- Pivoted Text Categorization)  Απόλυτη (“Hard”) Κατηγοριοποίηση και Ταξινομημένη (Ranking) Κατηγοριοποίηση

Κατηγοριοποίηση Κειμένων (2/3)  Εφαρμογές  Αυτόματη καταχώρηση κειμένων για συστήματα Ανάκτησης Πληροφορίας  Οργάνωση Κειμένων  Φιλτράρισμα Κειμένων  Αποσαφήνιση λέξης  Ιεραρχική Κατηγοριοποίηση Ιστοσελίδων  Η Κατηγοριοποίηση Κειμένων μέσα από την προσέγγιση της Μηχανικής Μάθησης έγινε γνωστή και κυρίαρχη τουλάχιστον στον ερευνητικό χώρο.  Δύο λειτουργίες οι οποίες γίνονται κατά τη διαδικασία της Κατηγοριοποίησης Κειμένων είναι η προσπάθεια για δεικτοδότηση ενός κειμένου και για μείωση της διάστασής του με επιλογή όρων.

Κατηγοριοποίηση Κειμένων (3/3)  Διάφοροι Κατηγοριοποιητές Κειμένων  Πιθανοτικοί Κατηγοριοποιητές  Κατηγοριοποιητές Δένδρων Απόφασης  Κατηγοριοποιητές Κανόνων Απόφασης  On-line μέθοδοι  Νευρωνικά Δίκτυα  Κατηγοριοποιητές βασισμένοι σε παραδείγματα  Δημιουργία κατηγοριοποιητών μέσω Μηχανισμών Υποστήριξης Διανυσμάτων  Ομάδα Κατηγοριοποιητών

Προεπεξεργασία δεδομένων (1/2)  Βασικός σκοπός είναι να γίνει αξιολόγηση και σύγκριση του ιεραρχικού (hierarchical) κατηγοριοποιητή με τον επίπεδο (flat) κατηγοριοποιητή.  Για να επιτύχουμε το παραπάνω χρειαζόμαστε ένα σύνολο δεδομένων.  Τα δεδομένα θέλουμε να βρίσκονται σε μορφή αρχείων arff, γιατί θα χρησιμοποιήσουμε την πλατφόρμα του weka που μπορεί να επεξεργαστεί μόνο αρχεία arff.  Έτσι ακολουθούμε μια διαδικασία για να μετατρέψουμε το σύνολο δεδομένων σε μορφή αρχείων arff.  Χρειαζόμαστε επίσης ιεραρχικά δεδομένα για τον ιεραρχικό κατηγοριοποιητή, έτσι χρησιμοποιούμαι τον ανοιχτό διαδικτυακό κατάλογο dmoz.

Προεπεξεργασία δεδομένων (2/2)  Ανοιχτός διαδικτυακός κατάλογος Dmoz  Το περιεχόμενό του αποτελείται από ιστοσελίδες διάφορων κατηγοριών.  Χαρακτηριστικά: Έχει δημιουργηθεί και συντηρείται από μια μεγάλη ομάδα εθελοντών. Έχει δημιουργηθεί και συντηρείται από μια μεγάλη ομάδα εθελοντών. Επιτρέπει την ελεύθερη προσθήκη ιστοσελίδων. Επιτρέπει την ελεύθερη προσθήκη ιστοσελίδων. Οι ιστοσελίδες βρίσκονται τόσο σε απλή μορφή κειμένου όσο και σε rdf μορφή. Οι ιστοσελίδες βρίσκονται τόσο σε απλή μορφή κειμένου όσο και σε rdf μορφή.  Μετατροπή αρχείων από rdf σε βάση δεδομένων με χρήση ενός script  Το script: Είναι γραμμένο σε γλώσσα προγραμματισμού Perl. Είναι γραμμένο σε γλώσσα προγραμματισμού Perl. Βοηθάει στη δημιουργία βάσης δεδομένων. Βοηθάει στη δημιουργία βάσης δεδομένων. Χρησιμοποιεί mysql για τη δημιουργία της βάσης δεδομένων Χρησιμοποιεί mysql για τη δημιουργία της βάσης δεδομένων  Η βάση δεδομένων: Είναι ευκολότερη στο χειρισμό της από τα rdf αρχεία Είναι ευκολότερη στο χειρισμό της από τα rdf αρχεία Την χρησιμοποιούμε για να θέσουμε κάποιες ερωτήσεις σε mysql, ώστε να πάρουμε τις επιθυμητές ιστοσελίδες. Την χρησιμοποιούμε για να θέσουμε κάποιες ερωτήσεις σε mysql, ώστε να πάρουμε τις επιθυμητές ιστοσελίδες.  HTML Parser  Λειτουργεί σε περιβάλλον Java.  Βοηθάει στην αφαίρεση των html tags,όπως το title, τα headers κ.α., ώστε να πάρουμε το επιθυμητό μόνο κείμενο.

Η πλατφόρμα weka και τα αρχεία arff  Weka:  Ένα από τα δημοφιλέστερα εργαλεία Μηχανικής Μάθησης.  Υλοποιεί μεγάλο αριθμό αλγορίθμων.  Έχει εύχρηστο γραφικό περιβάλλον.  Διανέμεται δωρεάν στο διαδίκτυο και αποτελεί λογισμικό ανοιχτού κώδικα.  Είναι γραμμένο στη γλώσσα προγραμματισμού Java.  Τροφοδοτείται συνήθως με αρχεία κατάληξης arff.  Arff:  Αποτελούνται από δύο διακριτά μέρη, το Header τμήμα και το Data τμήμα.  Στο Header τμήμα ορίζονται τα χαρακτηριστικά του arff αρχείου, ενώ στο Data τμήμα παρατίθονται συγκεκριμένα παραδείγματα.

Δημιουργία συνόλου δεδομένων (1/2) 1. Δημιουργούμε ένα κατάλληλα μειωμένο λεξιλόγιο, το οποίο αποτελείται από τις σημαντικότερες λέξεις των σελίδων που επιλέξαμε για να κατηγοριοποιήσουμε. 2. Δημιουργούμε με κατάλληλο κώδικα Java τα δύο arff αρχεία, στα οποία θα εφαρμόσουμε τον κατηγοριοποιητή που έχουμε επιλέξει, ώστε να βγούνε τα τελικά αποτελέσματα.

Δημιουργία συνόλου δεδομένων (2/2)  Η μείωση του λεξιλογίου έγινε λόγο του περιορισμένου χώρου σε μνήμη και λόγο του μικρού χρόνου απόκρισης.  Τα δύο arff αρχεία χωρίζονται σε 20% του συνόλου δεδομένων και σε 80%. Ο σημαντικότερος λόγος για αυτό είναι ότι τα δεδομένα για έλεγχο πρέπει να διαφέρουν από τα δεδομένα για εκπαίδευση, έτσι ώστε τα αποτελέσματά μας να είναι πιο ακριβή.

Εκπαίδευση και αξιολόγηση των Κατηγοριοποιητών Κειμένου  Ανάλυση του τρόπου εκπαίδευσης των κατηγοριοποιητών και των αποτελεσμάτων αξιολόγησής τους.  Το σύνολο δεδομένων αποτελείται: 1. Από μια βασική κατηγορία την Science. 2. Από τρεις κατώτερου επιπέδου κατηγορίες τις Agriculture, Biology και Math. 3. Τέλος από 9 υποκατηγορίες των τριών κατηγοριών του παραπάνω επιπέδου τις Animals, Field Crops, Forestry, Bioinformatics, Microbiology, Zoology, Algebra, Chaos and Fractals και Geometry.

Οι διάφορες κατηγορίες και οι υποκατηγορίες τους  Το σύνολο δεδομένων αποτελείται περίπου από σελίδες.  Agriculture  1029 σελίδες  Animals  482 σελίδες  Field Crops  339 σελίδες  Forestry  208 σελίδες  Biology  1452 σελίδες  Bioinformatics  539 σελίδες  Microbiology  416 σελίδες  Zoology  497 σελίδες  Math  989 σελίδες  Algebra  431 σελίδες  Chaos and Fractals  254 σελίδες  Geometry  304 σελίδες

Οι ταξινομητές και η ιεραρχία που χρησιμοποιήθηκε (1/4)  Χρησιμοποιήθηκαν δύο είδη ταξινομητών.  Ο Ιεραρχικός (Hierarchical) Κατηγοριοποιητής. Ο απλός ταξινομητής Bayes (Naïve Bayes) είναι ο ιεραρχικός κατηγοριοποιητής που επιλέξαμε να χρησιμοποιήσουμε. Ο απλός ταξινομητής Bayes (Naïve Bayes) είναι ο ιεραρχικός κατηγοριοποιητής που επιλέξαμε να χρησιμοποιήσουμε. Ένα βασικό πλεονέκτημα του είναι ότι είναι άμεσα υλοποιήσιμος σε οποιοδήποτε σύγχρονο σύστημα διαχείρισης βάσεων δεδομένων. Ένα βασικό πλεονέκτημα του είναι ότι είναι άμεσα υλοποιήσιμος σε οποιοδήποτε σύγχρονο σύστημα διαχείρισης βάσεων δεδομένων. Για να γίνει η κατηγοριοποίηση πρέπει να υλοποιήσουμε τέσσερις διαφορετικούς κατηγοριοποιητές. Για να γίνει η κατηγοριοποίηση πρέπει να υλοποιήσουμε τέσσερις διαφορετικούς κατηγοριοποιητές. Ο ένας θα ταξινομεί τα δεδομένα σε μια από τις τρεις βασικές κατηγορίες. Ο ένας θα ταξινομεί τα δεδομένα σε μια από τις τρεις βασικές κατηγορίες. Οι άλλοι τρεις θα απευθύνονται σε μια από τις παραπάνω τρεις κατηγορίες και θα ταξινομούν τα δεδομένα σε μια από τις εννέα υποκατηγορίες. Οι άλλοι τρεις θα απευθύνονται σε μια από τις παραπάνω τρεις κατηγορίες και θα ταξινομούν τα δεδομένα σε μια από τις εννέα υποκατηγορίες.

Οι ταξινομητές και η ιεραρχία που χρησιμοποιήθηκε (2/4)  Ο Επίπεδος (Flat) Κατηγοριοποιητής. Κατηγοριοποιεί τα δεδομένα με βάση τις εννέα υποκατηγορίες. Κατηγοριοποιεί τα δεδομένα με βάση τις εννέα υποκατηγορίες. Πιο ανακριβή αποτελέσματα Πιο ανακριβή αποτελέσματα Περισσότερες κατηγορίες για ταξινόμηση Περισσότερες κατηγορίες για ταξινόμηση

Οι ταξινομητές και η ιεραρχία που χρησιμοποιήθηκε (3/4)  Ακρίβεια = σωστές κατηγοριοποιήσεις / σύνολο κατηγοριοποιήσεων  Ακρίβεια Ιεραρχικού Κατηγοριοποιητή   Ακρίβεια ρίζας   Ακρίβεια κατηγορίας Agriculture  0.62  Ακρίβεια κατηγορίας Biology   Ακρίβεια κατηγορίας Math   Ακρίβεια Επίπεδου Κατηγοριοποιητή 

Οι ταξινομητές και η ιεραρχία που χρησιμοποιήθηκε (4/4)  Διαφορές ιεραρχικού με επίπεδου κατηγοριοποιητή:  Ο επίπεδος αποτελείται από έναν κατηγοριοποιητή που έχει να μάθει να ξεχωρίζει εννέα κατηγορίες.  Ο ιεραρχικός αποτελείται από τέσσερις κατηγοριοποιητές καθένας από τους οποίους έχει να μάθει να ξεχωρίζει τρεις κατηγορίες.  Οι κατηγοριοποιητές του ιεραρχικού είναι πιο εξειδικευμένοι.  Συμπέρασμα: Ο ιεραρχικός κατηγοριοποιητής είναι πιο ακριβής από τον επίπεδο.

Μελλοντική εργασία  Σκοπός μας στο μέλλον είναι:  Πειραματισμός με άλλους κατηγοριοποιητές, όπως ο J48.  Πειραματισμός με συνδυασμούς κάποιων κατηγοριοποιητών.  Επιλογή χαρακτηριστικών (feature selection), ώστε να μειώσουμε κι άλλο τον αριθμό των λέξεων που χρησιμοποιήσαμε, επιλέγοντας τις καλύτερες λέξεις για πρόβλεψη.