Η παρουσίαση φορτώνεται. Παρακαλείστε να περιμένετε

Η παρουσίαση φορτώνεται. Παρακαλείστε να περιμένετε

Ανάπτυξη και εκπαίδευση ιεραρχίας ταξινομητών για την κατηγοριοποίηση κειμένων Αβραμίδη Γεωργία 719.

Παρόμοιες παρουσιάσεις


Παρουσίαση με θέμα: "Ανάπτυξη και εκπαίδευση ιεραρχίας ταξινομητών για την κατηγοριοποίηση κειμένων Αβραμίδη Γεωργία 719."— Μεταγράφημα παρουσίασης:

1 Ανάπτυξη και εκπαίδευση ιεραρχίας ταξινομητών για την κατηγοριοποίηση κειμένων Αβραμίδη Γεωργία 719

2 Περιεχόμενα  Μηχανική Μάθηση και Κατηγοριοποίηση  Προεπεξεργασία δεδομένων  Η πλατφόρμα weka και τα arff αρχεία  Δημιουργία συνόλου δεδομένων  Εκπαίδευση και αξιολόγηση των Κατηγοριοποιητών Κειμένου  Οι διάφορες κατηγορίες και οι υποκατηγορίες τους  Οι ταξινομητές και η ιεραρχία που χρησιμοποιήθηκε  Μελλοντική εργασία

3 Μηχανική Μάθηση και Κατηγοριοποίηση (1/2)  Ορισμός: Η δημιουργία μοντέλων ή προτύπων από ένα υπολογιστικό σύστημα.  Εφαρμογές  Βιοπληροφορική  Μηχανική όραση  Ρομποτική  Γραφικά  Ομιλία  Οικονομική ανάλυση  Ηλεκτρονικό εμπόριο  Φαρμακευτική  Ηλεκτρονικά παιχνίδια  Πολυμέσα  Είδη  Μάθηση με επίβλεψη  Μάθηση χωρίς επίβλεψη

4 Μηχανική Μάθηση και Κατηγοριοποίηση (2/2)  Μάθηση με Επίβλεψη  Τεχνικές Μάθηση Εννοιών Μάθηση Εννοιών Δένδρα Ταξινόμησης ή απόφασης Δένδρα Ταξινόμησης ή απόφασης Μάθηση Κανόνων Μάθηση Κανόνων Μάθηση κατά Περίπτωση Μάθηση κατά Περίπτωση Μάθηση κατά Bayes Μάθηση κατά Bayes Γραμμική Παρεμβολή Γραμμική Παρεμβολή Νευρωνικά Δίκτυα Νευρωνικά Δίκτυα Μηχανές Διανυσμάτων Υποστήριξης Μηχανές Διανυσμάτων Υποστήριξης

5 Κατηγοριοποίηση Κειμένων (1/3)  Ορισμός: Είναι η διαδικασία κατά την οποία αναθέτεται μια Boolean τιμή σε κάθε ζεύγος (d j, c i ) є D x C, όπου D σύνολο από αρχεία κειμένου και C σύνολο από κατηγορίες  Μέθοδοι  Single-Label (Απλή) και Multilabel (Πολλαπλών-ετικετών) Κατηγοριοποίηση Κειμένου  Κατηγοριοποίηση εξαρτώμενη από τη κατηγορία (Category-Pivoted Text Categorization) και Κατηγοριοποίηση εξαρτώμενη από το κείμενο (Document- Pivoted Text Categorization)  Απόλυτη (“Hard”) Κατηγοριοποίηση και Ταξινομημένη (Ranking) Κατηγοριοποίηση

6 Κατηγοριοποίηση Κειμένων (2/3)  Εφαρμογές  Αυτόματη καταχώρηση κειμένων για συστήματα Ανάκτησης Πληροφορίας  Οργάνωση Κειμένων  Φιλτράρισμα Κειμένων  Αποσαφήνιση λέξης  Ιεραρχική Κατηγοριοποίηση Ιστοσελίδων  Η Κατηγοριοποίηση Κειμένων μέσα από την προσέγγιση της Μηχανικής Μάθησης έγινε γνωστή και κυρίαρχη τουλάχιστον στον ερευνητικό χώρο.  Δύο λειτουργίες οι οποίες γίνονται κατά τη διαδικασία της Κατηγοριοποίησης Κειμένων είναι η προσπάθεια για δεικτοδότηση ενός κειμένου και για μείωση της διάστασής του με επιλογή όρων.

7 Κατηγοριοποίηση Κειμένων (3/3)  Διάφοροι Κατηγοριοποιητές Κειμένων  Πιθανοτικοί Κατηγοριοποιητές  Κατηγοριοποιητές Δένδρων Απόφασης  Κατηγοριοποιητές Κανόνων Απόφασης  On-line μέθοδοι  Νευρωνικά Δίκτυα  Κατηγοριοποιητές βασισμένοι σε παραδείγματα  Δημιουργία κατηγοριοποιητών μέσω Μηχανισμών Υποστήριξης Διανυσμάτων  Ομάδα Κατηγοριοποιητών

8 Προεπεξεργασία δεδομένων (1/2)  Βασικός σκοπός είναι να γίνει αξιολόγηση και σύγκριση του ιεραρχικού (hierarchical) κατηγοριοποιητή με τον επίπεδο (flat) κατηγοριοποιητή.  Για να επιτύχουμε το παραπάνω χρειαζόμαστε ένα σύνολο δεδομένων.  Τα δεδομένα θέλουμε να βρίσκονται σε μορφή αρχείων arff, γιατί θα χρησιμοποιήσουμε την πλατφόρμα του weka που μπορεί να επεξεργαστεί μόνο αρχεία arff.  Έτσι ακολουθούμε μια διαδικασία για να μετατρέψουμε το σύνολο δεδομένων σε μορφή αρχείων arff.  Χρειαζόμαστε επίσης ιεραρχικά δεδομένα για τον ιεραρχικό κατηγοριοποιητή, έτσι χρησιμοποιούμαι τον ανοιχτό διαδικτυακό κατάλογο dmoz.

9 Προεπεξεργασία δεδομένων (2/2)  Ανοιχτός διαδικτυακός κατάλογος Dmoz  Το περιεχόμενό του αποτελείται από ιστοσελίδες διάφορων κατηγοριών.  Χαρακτηριστικά: Έχει δημιουργηθεί και συντηρείται από μια μεγάλη ομάδα εθελοντών. Έχει δημιουργηθεί και συντηρείται από μια μεγάλη ομάδα εθελοντών. Επιτρέπει την ελεύθερη προσθήκη ιστοσελίδων. Επιτρέπει την ελεύθερη προσθήκη ιστοσελίδων. Οι ιστοσελίδες βρίσκονται τόσο σε απλή μορφή κειμένου όσο και σε rdf μορφή. Οι ιστοσελίδες βρίσκονται τόσο σε απλή μορφή κειμένου όσο και σε rdf μορφή.  Μετατροπή αρχείων από rdf σε βάση δεδομένων με χρήση ενός script  Το script: Είναι γραμμένο σε γλώσσα προγραμματισμού Perl. Είναι γραμμένο σε γλώσσα προγραμματισμού Perl. Βοηθάει στη δημιουργία βάσης δεδομένων. Βοηθάει στη δημιουργία βάσης δεδομένων. Χρησιμοποιεί mysql για τη δημιουργία της βάσης δεδομένων Χρησιμοποιεί mysql για τη δημιουργία της βάσης δεδομένων  Η βάση δεδομένων: Είναι ευκολότερη στο χειρισμό της από τα rdf αρχεία Είναι ευκολότερη στο χειρισμό της από τα rdf αρχεία Την χρησιμοποιούμε για να θέσουμε κάποιες ερωτήσεις σε mysql, ώστε να πάρουμε τις επιθυμητές ιστοσελίδες. Την χρησιμοποιούμε για να θέσουμε κάποιες ερωτήσεις σε mysql, ώστε να πάρουμε τις επιθυμητές ιστοσελίδες.  HTML Parser  Λειτουργεί σε περιβάλλον Java.  Βοηθάει στην αφαίρεση των html tags,όπως το title, τα headers κ.α., ώστε να πάρουμε το επιθυμητό μόνο κείμενο.

10 Η πλατφόρμα weka και τα αρχεία arff  Weka:  Ένα από τα δημοφιλέστερα εργαλεία Μηχανικής Μάθησης.  Υλοποιεί μεγάλο αριθμό αλγορίθμων.  Έχει εύχρηστο γραφικό περιβάλλον.  Διανέμεται δωρεάν στο διαδίκτυο και αποτελεί λογισμικό ανοιχτού κώδικα.  Είναι γραμμένο στη γλώσσα προγραμματισμού Java.  Τροφοδοτείται συνήθως με αρχεία κατάληξης arff.  Arff:  Αποτελούνται από δύο διακριτά μέρη, το Header τμήμα και το Data τμήμα.  Στο Header τμήμα ορίζονται τα χαρακτηριστικά του arff αρχείου, ενώ στο Data τμήμα παρατίθονται συγκεκριμένα παραδείγματα.

11 Δημιουργία συνόλου δεδομένων (1/2) 1. Δημιουργούμε ένα κατάλληλα μειωμένο λεξιλόγιο, το οποίο αποτελείται από τις σημαντικότερες λέξεις των σελίδων που επιλέξαμε για να κατηγοριοποιήσουμε. 2. Δημιουργούμε με κατάλληλο κώδικα Java τα δύο arff αρχεία, στα οποία θα εφαρμόσουμε τον κατηγοριοποιητή που έχουμε επιλέξει, ώστε να βγούνε τα τελικά αποτελέσματα.

12 Δημιουργία συνόλου δεδομένων (2/2)  Η μείωση του λεξιλογίου έγινε λόγο του περιορισμένου χώρου σε μνήμη και λόγο του μικρού χρόνου απόκρισης.  Τα δύο arff αρχεία χωρίζονται σε 20% του συνόλου δεδομένων και σε 80%. Ο σημαντικότερος λόγος για αυτό είναι ότι τα δεδομένα για έλεγχο πρέπει να διαφέρουν από τα δεδομένα για εκπαίδευση, έτσι ώστε τα αποτελέσματά μας να είναι πιο ακριβή.

13 Εκπαίδευση και αξιολόγηση των Κατηγοριοποιητών Κειμένου  Ανάλυση του τρόπου εκπαίδευσης των κατηγοριοποιητών και των αποτελεσμάτων αξιολόγησής τους.  Το σύνολο δεδομένων αποτελείται: 1. Από μια βασική κατηγορία την Science. 2. Από τρεις κατώτερου επιπέδου κατηγορίες τις Agriculture, Biology και Math. 3. Τέλος από 9 υποκατηγορίες των τριών κατηγοριών του παραπάνω επιπέδου τις Animals, Field Crops, Forestry, Bioinformatics, Microbiology, Zoology, Algebra, Chaos and Fractals και Geometry.

14 Οι διάφορες κατηγορίες και οι υποκατηγορίες τους  Το σύνολο δεδομένων αποτελείται περίπου από 3.500 σελίδες.  Agriculture  1029 σελίδες  Animals  482 σελίδες  Field Crops  339 σελίδες  Forestry  208 σελίδες  Biology  1452 σελίδες  Bioinformatics  539 σελίδες  Microbiology  416 σελίδες  Zoology  497 σελίδες  Math  989 σελίδες  Algebra  431 σελίδες  Chaos and Fractals  254 σελίδες  Geometry  304 σελίδες

15 Οι ταξινομητές και η ιεραρχία που χρησιμοποιήθηκε (1/4)  Χρησιμοποιήθηκαν δύο είδη ταξινομητών.  Ο Ιεραρχικός (Hierarchical) Κατηγοριοποιητής. Ο απλός ταξινομητής Bayes (Naïve Bayes) είναι ο ιεραρχικός κατηγοριοποιητής που επιλέξαμε να χρησιμοποιήσουμε. Ο απλός ταξινομητής Bayes (Naïve Bayes) είναι ο ιεραρχικός κατηγοριοποιητής που επιλέξαμε να χρησιμοποιήσουμε. Ένα βασικό πλεονέκτημα του είναι ότι είναι άμεσα υλοποιήσιμος σε οποιοδήποτε σύγχρονο σύστημα διαχείρισης βάσεων δεδομένων. Ένα βασικό πλεονέκτημα του είναι ότι είναι άμεσα υλοποιήσιμος σε οποιοδήποτε σύγχρονο σύστημα διαχείρισης βάσεων δεδομένων. Για να γίνει η κατηγοριοποίηση πρέπει να υλοποιήσουμε τέσσερις διαφορετικούς κατηγοριοποιητές. Για να γίνει η κατηγοριοποίηση πρέπει να υλοποιήσουμε τέσσερις διαφορετικούς κατηγοριοποιητές. Ο ένας θα ταξινομεί τα δεδομένα σε μια από τις τρεις βασικές κατηγορίες. Ο ένας θα ταξινομεί τα δεδομένα σε μια από τις τρεις βασικές κατηγορίες. Οι άλλοι τρεις θα απευθύνονται σε μια από τις παραπάνω τρεις κατηγορίες και θα ταξινομούν τα δεδομένα σε μια από τις εννέα υποκατηγορίες. Οι άλλοι τρεις θα απευθύνονται σε μια από τις παραπάνω τρεις κατηγορίες και θα ταξινομούν τα δεδομένα σε μια από τις εννέα υποκατηγορίες.

16 Οι ταξινομητές και η ιεραρχία που χρησιμοποιήθηκε (2/4)  Ο Επίπεδος (Flat) Κατηγοριοποιητής. Κατηγοριοποιεί τα δεδομένα με βάση τις εννέα υποκατηγορίες. Κατηγοριοποιεί τα δεδομένα με βάση τις εννέα υποκατηγορίες. Πιο ανακριβή αποτελέσματα Πιο ανακριβή αποτελέσματα Περισσότερες κατηγορίες για ταξινόμηση Περισσότερες κατηγορίες για ταξινόμηση

17 Οι ταξινομητές και η ιεραρχία που χρησιμοποιήθηκε (3/4)  Ακρίβεια = σωστές κατηγοριοποιήσεις / σύνολο κατηγοριοποιήσεων  Ακρίβεια Ιεραρχικού Κατηγοριοποιητή  0.5044  Ακρίβεια ρίζας  0.5471  Ακρίβεια κατηγορίας Agriculture  0.62  Ακρίβεια κατηγορίας Biology  0.4921  Ακρίβεια κατηγορίας Math  0.4286  Ακρίβεια Επίπεδου Κατηγοριοποιητή  0.2646

18 Οι ταξινομητές και η ιεραρχία που χρησιμοποιήθηκε (4/4)  Διαφορές ιεραρχικού με επίπεδου κατηγοριοποιητή:  Ο επίπεδος αποτελείται από έναν κατηγοριοποιητή που έχει να μάθει να ξεχωρίζει εννέα κατηγορίες.  Ο ιεραρχικός αποτελείται από τέσσερις κατηγοριοποιητές καθένας από τους οποίους έχει να μάθει να ξεχωρίζει τρεις κατηγορίες.  Οι κατηγοριοποιητές του ιεραρχικού είναι πιο εξειδικευμένοι.  Συμπέρασμα: Ο ιεραρχικός κατηγοριοποιητής είναι πιο ακριβής από τον επίπεδο.

19 Μελλοντική εργασία  Σκοπός μας στο μέλλον είναι:  Πειραματισμός με άλλους κατηγοριοποιητές, όπως ο J48.  Πειραματισμός με συνδυασμούς κάποιων κατηγοριοποιητών.  Επιλογή χαρακτηριστικών (feature selection), ώστε να μειώσουμε κι άλλο τον αριθμό των λέξεων που χρησιμοποιήσαμε, επιλέγοντας τις καλύτερες λέξεις για πρόβλεψη.


Κατέβασμα ppt "Ανάπτυξη και εκπαίδευση ιεραρχίας ταξινομητών για την κατηγοριοποίηση κειμένων Αβραμίδη Γεωργία 719."

Παρόμοιες παρουσιάσεις


Διαφημίσεις Google