Η παρουσίαση φορτώνεται. Παρακαλείστε να περιμένετε

Η παρουσίαση φορτώνεται. Παρακαλείστε να περιμένετε

1 eSchoolLib: Τεχνολογική επισκόπηση εργαλείων κατηγοριοποίησης, προχωρημένης αναζήτησης και ηλεκτρονικής εκμάθησης Στέλιος Χ. Α. Θωμόπουλος, Ευάγγελος.

Παρόμοιες παρουσιάσεις


Παρουσίαση με θέμα: "1 eSchoolLib: Τεχνολογική επισκόπηση εργαλείων κατηγοριοποίησης, προχωρημένης αναζήτησης και ηλεκτρονικής εκμάθησης Στέλιος Χ. Α. Θωμόπουλος, Ευάγγελος."— Μεταγράφημα παρουσίασης:

1 1 eSchoolLib: Τεχνολογική επισκόπηση εργαλείων κατηγοριοποίησης, προχωρημένης αναζήτησης και ηλεκτρονικής εκμάθησης Στέλιος Χ. Α. Θωμόπουλος, Ευάγγελος Καρκαλέτσης, Γεώργιος Πετάσης, Δημήτριος Χαρλαύτης, Ιωάννης Πρατικάκης, Βασίλειος Γάτος, Δημήτριος Μπουγουλιάς, Γεώργιος Σούλος ΕΚΕΦΕ «Δημόκριτος» - Ινστιτούτο Πληροφορικής & Τηλεπικοινωνιών

2 2 Αυτόματη Κατηγοριοποίηση εικόνας Ελληνικός Stemmer Αυτόματη Κατηγοριοποίηση Κειμένου ΔΗΜΟΚΡΙΤΟΣ

3 3 Αυτόματη Κατηγοριοποίηση Κειμένων Περιεχόμενα A.Κατηγοριοποίηση Κειμένων: Γενικά B.Κατηγοριοποίηση Κειμένων στο eSchoolLib 1.Καθορισμός θεματικών περιοχών 2.Συλλογή σωμάτων κειμένων για εκπαίδευση και αξιολόγηση 3.Γλωσσική προ-επεξεργασία κειμένων 4.Στατιστική Επεξεργασία Κειμένων 5.Κατηγοριοποίηση Κειμένων με Χρήση Τεχνικών Μηχανικής Μάθησης 6.Αποτελέσματα Αξιολόγησης 7.Ολοκλήρωση στο eDoc

4 4 Α. Κατηγοριοποίηση Κειμένων Γενικά •Ανάλυση κειμένων και ταξινόμησή τους σε μία ή περισσότερες προκαθορισμένες κατηγορίες. •Έστω:  Σύνολο εγγράφων D  Σύνολο προκαθορισμένων κατηγοριών C  Μία συνάρτηση A  : D x C  {T, F} (περιγράφει πώς πρέπει να κατηγοριοποιηθούν τα έγγραφα) •Αυτό που θέλουμε να βρούμε είναι:  Ένα ταξινομητή Ψ: D x C  {T, F} που προσεγγίζει καλύτερα την συνάρτηση . (F. Sebastiani)

5 5 Α. Κατηγοριοποίηση Κειμένων Τύποι κατηγοριοποίησης •Ανάλογα με την εφαρμογή, μπορούμε να έχουμε ταξινομητές διαφόρων τύπων  Μοναδικής κατηγοριοποίησης (Single-class)  κάθε έγγραφο ταξινομείται σε μία και μόνο κατηγορία  Πολλαπλής κατηγοριοποίησης (Multi-class)  κάθε έγγραφο μπορεί να ταξινομηθεί σε περισσότερες από μία κατηγορίες  Hard  ένα έγγραφο ανήκει ή δεν ανήκει σε μία κατηγορία  Soft  ένα έγγραφο ανήκει σε κάθε κατηγορία με ένα βαθμό βεβαιότητας (π.χ. ένα αριθμό μεταξύ [0..1])

6 6 Α. Κατηγοριοποίηση Κειμένων Τύποι συστημάτων •Χειρωνακτική κατηγοριοποίηση:  Συγγραφή κανόνων του τύπου: •Αυτόματη κατηγοριοποίηση:  Χρήση μεθόδων μηχανικής μάθησης για την εκμάθηση κανόνων από προ-ταξινομημένα έγγραφα (παραδείγματα εκπαίδευσης)

7 7 Α. Κατηγοριοποίηση Κειμένων Αυτόματη Κατηγοριοποίηση Κειμένων Παραδείγματα εκπαίδευσης Προ-επεξεργασία Μηχανική Μάθηση Ταξινομητές Αφαίρεση stop-words Θεματοποίηση/λημματοποίηση Συνδυασμός γειτονικών λέξεων Στατιστική ανάλυση, επιλογή όρων Μηχανική μάθηση υπό-επίβλεψη (supervised) Μείωση διαστάσεων

8 8 Β. Κατηγοριοποίηση στο eSchoolLib •Χαρακτηριστικά  Τύπος: Πολλαπλή-κατηγοριοποίηση, Soft  Μέθοδος: Αυτόματη κατηγοριοποίηση •Στάδια Επεξεργασίας 1.Καθορισμός θεματικών περιοχών 2.Συλλογή σωμάτων κειμένων για εκπαίδευση και αξιολόγηση 3.Γλωσσική προ-επεξεργασία κειμένων 4.Στατιστική Επεξεργασία Κειμένων 5.Κατηγοριοποίηση Κειμένων με Χρήση Τεχνικών Μηχανικής Μάθησης

9 9 Β. Κατηγοριοποίηση στο eSchoolLib Στάδια Επεξεργασίας 1.Καθορισμός θεματικών περιοχών (με βάση τη θεματική κατηγοριοποίηση του EUROVOC)  Επικοινωνία και μόρφωση  Περιβάλλον  Κοινωνικά θέματα  Επιστήμες (φυσικές – ανθρωπιστικές)  Διεθνείς οργανισμοί  Πολιτιστικός τομέας και θρησκεία

10 10 Β. Κατηγοριοποίηση στο eSchoolLib Στάδια Επεξεργασίας 2.Συλλογή σωμάτων κειμένων για εκπαίδευση και αξιολόγηση ΕλληνικάΑγγλικά InternetOCRInternetOCR Επικοινωνία και μόρφωση2177023283 Περιβάλλον25925966227110 Κοινωνικά θέματα23323314925352 Επιστήμες (φυσικές – ανθρωπιστικές) 24524512323345 Διεθνείς οργανισμοί232232226 Πολιτιστικός τομέας και θρησκεία2352356323145 Σύνολο 14214711402335

11 11 Β. Κατηγοριοποίηση στο eSchoolLib Στάδια Επεξεργασίας 3.Γλωσσική προ-επεξεργασία κειμένων α) Διαχωρισμός λεκτικών μονάδων β) Λημματοποίηση (Ελληνικά κείμενα) γ) Θεματοποίηση (Αγγλικά κείμενα)

12 12 Β. Κατηγοριοποίηση στο eSchoolLib Στάδια Επεξεργασίας 4.Στατιστική Επεξεργασία Κειμένων  Εξαγωγή όρων  αφαίρεση εκείνων των λεκτικών μονάδων (tokens) που εμφανίζονται σε οποιοδήποτε κείμενο (stop-words),  δημιουργία λίστας με τα θέματα ή τα λήμματα των επιλεγμένων tokens  προσθήκη στη λίστα όλων των συνδυασμών των ανωτέρω λημμάτων  υπολογισμός στατιστικών δεικτών για κάθε όρο, μέλος της λίστας  πλήθος εμφανίσεων του όρου στα κείμενα της θεματικής περιοχής  αριθμό των κειμένων της συγκεκριμένης θεματικής περιοχής στα οποία εμφανίζεται ο όρος.  επιλογή όρων με βάση τις τιμές των δεικτών  υπολογισμός επιπλέον στατιστικών δεικτών  ο αριθμός των κειμένων όλων των άλλων θεματικών περιοχών στα οποία εμφανίζεται ο όρος και  ο αριθμός των άλλων θεματικών περιοχών στων οποίων τα κείμενα εμφανίζεται αυτός ο όρος  καθορισμός τελικού συνόλου όρων με βάση τις τιμές των επιπλέον δεικτών

13 13 Β. Κατηγοριοποίηση στο eSchoolLib Στάδια Επεξεργασίας 5.Εκπαίδευση  Αναπαράσταση του σώματος εκπαίδευσης υπό μορφή διανύσματος χρησιμοποιώντας τα χαρακτηριστικά που προέκυψαν από τη γλωσσική και τη στατιστική επεξεργασία  Εφαρμογή των αλγορίθμων μηχανικής μάθησης  Καθορισμός δύο κατηγοριών για κάθε θεματική περιοχή: hit (τα κείμενα της περιοχής), miss (τα άλλα κείμενα)  Παραγωγή μοντέλων εκπαίδευσης ανά περιοχή  Αξιολόγηση των μοντέλων  Εφαρμογή στο σώμα αξιολόγησης για κάθε περιοχή  Επιλογή των τελικών μοντέλων

14 14 Β. Κατηγοριοποίηση στο eSchoolLib Χρήση Τεχνικών Μηχανικής Μάθησης Αλγόριθμοι που χρησιμοποιήθηκαν  Μάθηση βασισμένη σε Δένδρα Απόφασης: C4.5  Μάθηση κατά Bayes: Naive Bayes  Μάθηση βασισμένη σε Στιγμιότυπα: ΙΒ1, ΙΒk, KStar  Μετα-μάθηση  Boosting: AdaBoost M1, LogitBoost  Stacking

15 15 Κατηγοριοποίηση στο eSchoolLib Αποτελέσματα αξιολόγησης 6.Αποτελέσματα Αξιολόγησης  Επιλογή των καλύτερων μοντέλων για κάθε περιοχή και γλώσσα  Δημιουργία υβριδικού μοντέλου  Αποτελέσματα Κατηγορία Ακρίβεια ΕλληνικάΑγγλικά Επικοινωνία και μόρφωση 0.870.93 Περιβάλλον 0.970.73 Κοινωνικά θέματα 0.530.47 Επιστήμες (φυσικές – ανθρωπιστικές) 0.630.83 Διεθνείς οργανισμοί 0.80.97 Πολιτιστικός τομέας και θρησκεία 0.830.5

16 16 Αυτόματη Κατηγοριοποίηση εικόνας Ελληνικός Stemmer Αυτόματη Κατηγοριοποίηση κειμένου ΔΗΜΟΚΡΙΤΟΣ

17 17 Αυτόματη Κατηγοριοποίηση Εικόνας Περιεχόμενα •Εισαγωγή και Προδιαγραφές Ψηφιοποίησης •Φωτογραφίες / Γραφικά •Εντοπισμός πορτρέτου •Κατηγοριοποίηση εικόνων σκηνών εσωτερικού / εξωτερικού χώρου •Κατηγοριοποίηση εικόνων σκηνών πόλης / υπαίθρου

18 18 Κλάσεις κατηγοριοποίησης photographs graphics Portrait indoor city non-portrait outdoor landscape Τα semantics μίας εικόνας χαρακτηρίζονται σε διαφορετικά επίπεδα : 1.Χαμηλού επιπέδου 1.(π.χ. φωτογραφία εξωτερικού χώρου) 2.Σύνθεση αντικειμένων 1.(π.χ. ένα ποδήλατο στην παραλία) 3.Abstract semantics 1.(π.χ. διαφωνία μεταξύ ατόμων) 4.Λεπτομερή semantics 1.(π.χ. λεπτομερή περιγραφή εικόνας)

19 19 Ψηφιοποίηση 1 bit/pixel 4 bits/pixel 8 bits/pixel

20 20 Ανάλυση ψηφιακής εικόνας χωρική & χρώματος 60 dpi 150 dpi 4 colours (2 bits/pixel) 16.7 M colours (24 bits/pixel)

21 21 Κατηγοριοποίηση Εικόνας Φωτογραφίες vs. Γραφικά photographs graphics Portrait indoor city Comics Logos & icons Commercial heading non-portrait outdoor landscape Γραφικά == εικόνες που έχουν παραχθεί από υπολογιστή Στο τρέχον σύστημα δεν αντιμετωπίζονται τα παρακάτω : •Ανάμικτες εικόνες •Χειρόγραφα σχέδια

22 22 Κατηγοριοποίηση Εικόνας Φωτογραφίες vs. Γραφικά photographs graphics Portrait indoor city Comics Logos & icons Commercial heading non-portrait outdoor landscape Διαφορές στα χαρακτηριστικά φωτογραφίας και γραφικών •Οι μεταπτώσεις χρώματος (Color transitions) απόpixel σε pixel γίνονται με διαφορετικό τρόπο •Οι ακμές στα γραφικά είναι απότομες

23 23 Κατηγοριοποίηση Εικόνας Φωτογραφίες vs. Γραφικά photographs graphics Portrait indoor city Comics Logos & icons Commercial heading non-portrait outdoor landscape Μετρικές εικόνων / γραφικών •Μετρική κορεσμού •Μετρική μετάπτωσης (transition) Στα γραφικά συναντούμε ι) Μεγαλύτερες περιοχές σταθερού χρώματος; ιι) Απότομες μεταπτώσεις.

24 24 Κατηγοριοποίηση Εικόνας Φωτογραφίες vs. Γραφικά photographs graphics Portrait indoor city Comics Logos & icons Commercial heading non-portrait outdoor landscape ΑριθμόςΑκρίβεια Φωτογραφίες83093,4% Γραφικά3884% Πειραματικά Αποτελέσματα

25 25 Κατηγοριοποίηση Εικόνας Εντοπισμός πορτρέτου (προσώπου) photographs graphics Portrait indoor city Comics Logos & icons Commercial heading non-portrait outdoor landscape Διάγραμμα για τον εντοπισμό προσώπου Εντοπισμός pixels επιδερμίδας Κατάτμηση εικόνας Εντοπισμός περιοχών επιδερμίδας Εξαγωγή προσώπου

26 26 Κατηγοριοποίηση Εικόνας Εντοπισμός πορτρέτου (προσώπου) photographs graphics Portrait indoor city Comics Logos & icons Commercial heading non-portrait outdoor landscape Εντοπισμός pixel επιδερμίδας Ένα RGB pixel κατηγοριοποιείται ως επιδερμίδα εάν: { R>95 & G>40 & B>20} & max{R,G,B} - min{R,G,B} > 15 & |R-G| > 15 & R>G & R>B

27 27 Κατηγοριοποίηση Εικόνας Εντοπισμός πορτρέτου (προσώπου) photographs graphics Portrait indoor city Comics Logos & icons Commercial heading non-portrait outdoor landscape Κατάτμηση εικόνας (ι) Βασικά βήματα του αλγορίθμου J-SEG A.Κβαντισμός χρώματος Δημιουργία class-maps B. Χωρική κατάτμηση Εφαρμογή σε class-maps Αρχικά η μεταβλητή J υπολογίζεται για κάθε κατατμημένη περιοχή και εν συνεχεία καθορίζεται ο μέσος όρος. Η κατάτμηση που ελαχιστοποιεί το J λέγετε ορθή κατάτμηση

28 28 Κατηγοριοποίηση Εικόνας Εντοπισμός πορτρέτου (προσώπου) photographs graphics Portrait indoor city Comics Logos & icons Commercial heading non-portrait outdoor landscape Κατάτμηση εικόνας (ιι) •Όταν οι κλάσεις χρώματος είναι καλύτερα διαχωρισμένες τότε η τιμή του J μεγαλώνει. •Εάν όλες οι κλάσεις χρώματος κατανέμονται ομοιόμορφα σε όλη την εικόνα τότε η τιμή του J τείνει να είναι μικρή.

29 29 Κατηγοριοποίηση Εικόνας Εντοπισμός πορτρέτου (προσώπου) photographs graphics Portrait indoor city Comics Logos & icons Commercial heading non-portrait outdoor landscape ΑριθμόςΑκρίβεια Φωτογραφίες με πρόσωπο2596% Φωτογραφίες χωρίς πρόσωπο (Indoor/Outdoor) 200100% Πειραματικά αποτελέσματα

30 30 Κατηγοριοποίηση Εικόνας Ταξινόμηση εικόνων Indoor / Outdoor photographs graphics Portrait indoor city Comics Logos & icons Commercial heading non-portrait outdoor landscape Feature Extractor Classifier •••••• x1x1 x2x2 xdxd Raw DataCategory or Class Supervised Ταξινόμηση Το σύστημα αποτελείται από 2 βασικές ενότητες Α. Την εξαγωγή χαρακτηριστικών ι) Η πληροφορία που αφορά στο χρώμα - μέσω της μοντελοποίησης του χρώματος ιι) Πληροφορία που αφορά στην υφή - μέσω Wavelet Filter Bank Β. Ταξινόμηση K-NN SVM

31 31 Κατηγοριοποίηση Εικόνας Ταξινόμηση εικόνων Indoor / Outdoor photographs graphics Portrait indoor city Comics Logos & icons Commercial heading non-portrait outdoor landscape Πληροφορία Υφής από τον μετασχηματισμό Wavelet Wavelet Filter Bank Wavelet Image Original Image Feature Extraction f 0, v o f 1, v 1 f 2, v 2 f 3, v 3 f 4, v 4 f 5, v 5 f 6, v 6 Take the mean (f i ) and variance (v i ) of each subband Decompose the images into frequency subbands

32 32 Κατηγοριοποίηση Εικόνας Ταξινόμηση εικόνων Πόλης / Υπαίθρου photographs graphics Portrait indoor Comics Logos & icons Commercial heading non-portrait outdoor Feature Extractor Classifier •••••• x1x1 x2x2 xdxd Raw DataCategory or Class Supervised Ταξινόμηση Το σύστημα αποτελείται από 2 βασικές ενότητες Α. Την εξαγωγή χαρακτηριστικών ι) Η πληροφορία που αφορά στο χρώμα ιι) Πληροφορία στον προσανατολισμό ευθύγραμμων τμημάτων Β. Ταξινόμηση K-NN SVM city landscape

33 33 Κατηγοριοποίηση Εικόνας Ταξινόμηση εικόνων Πόλης / Υπαίθρου photographs graphics Portrait indoor Comics Logos & icons Commercial heading non-portrait outdoor Supervised Ταξινόμηση Η εξαγωγή χαρακτηριστικών για αυτή την κατηγοριοποίηση βασίζεται στην : - ανίχνευση ακμών και - τον εντοπισμό γραμμικών τμημάτων Αρχική Εικόνα Ανίχνευση Ακμών Εντοπισμός γραμμικών τμημάτων city landscape

34 34 Κατηγοριοποίηση Εικόνας Ταξινόμηση εικόνων Πόλης / Υπαίθρου photographs graphics Portrait indoor Comics Logos & icons Commercial heading non-portrait outdoor Πειραματικά αποτελέσματα Μέγεθος δεδομένων προς εκπαίδευση συστήματος Μέγεθος δεδομένων προς αξιολόγηση Indoor 170173 Outdoor210 Πόλη209 Ύπαιθρο ς 210208 city landscape

35 35 Κατηγοριοποίηση Εικόνας Ταξινόμηση εικόνων Πόλης / Υπαίθρου photographs graphics Portrait indoor Comics Logos & icons Commercial heading non-portrait outdoor Πειραματικά αποτελέσματα ΤΑΞΙΝΟΜΗΤΕΣ ΚΑΤΗΓΟΡΙΕΣ Indoor / Outdoor City / Landscape K- NN K = 3 88,94%78,5% K = 5 90%78,99% K = 7 88,68%77,08% SVM Kernel : RBF 94,21% (C=170, γ=0.4) 89,97% (C=180, γ=0.005) city landscape

36 36 Προχωρημένη Αναζήτηση Κειμένων Αυτόματη Κατηγοριοποίηση κειμένου ΔΗΜΟΚΡΙΤΟΣ Αυτόματη Κατηγοριοποίηση εικόνας

37 37 Προχωρημένη αναζήτηση κειμένων Περιεχόμενα A.Γενικά B.Ανάπτυξη Αλγορίθμου Κανονικοποίησης – Stemmer 1.Είδη κανονικοποιητών 2.Μορφολογικός Κανονικοποιητής 3.Μορφολογικοί Κανόνες 4.Ανάλυση Αλγορίθμου 5.Υλοποίηση C.Αξιολόγηση

38 38 Ελληνικός Stemmer – Γενικά  Τι είναι κανονικοποίηση (stemming)? Κανονικοποίηση είναι το σύνολο των διαδικασιών που αποσκοπούν στην εύρεση των γραμμάτων που περιγράφουν την ρίζα μιας λέξης.  Που εφαρμόζεται ?  Σε συστήματα ανάκτησης δεδομένων (IR Systems)  Που αποσκοπεί ?  Σκοπός είναι η συγχώνευση των λέξεων μεταξύ τους.  Τι προσφέρει ?  Δραματική μείωση του index ενός συστήματος IR  Βελτιστοποίηση του τρόπου αναζήτησης σε αυτό.

39 39 Ελληνικός Stemmer – Γενικά  Κανονικοποίηση και e-pyxis  Το εργαλείο e-pyxis βοηθάει στο εμπλουτισμό της βιβλιοθήκης  Ανάγκη ύπαρξης μιας αποτελεσματικής μηχανής αναζήτησης  Για το λόγο αυτό αναπτύχθηκε ελληνικός κανονικοποιητής(stemmer)

40 40 Ανάπτυξη Αλγορίθμου Κανονικοποίησης Είδη κανονικοποιητών 1. Είδη Κανονικοποιητών  Μορφολογική προσέγγιση  Γνώση μορφολογικών κανόνων της γλώσσας  Ιδιαίτερα δύσκολο σε γλώσσες με πολύπλοκη μορφολογία  Στατιστική προσέγγιση  Με τη χρήση μεθόδων βασισμένων σε στατιστικές αρχές Οι αρχές αυτές συνάγονται από  την στατιστική επεξεργασία της συλλογής κειμένων (corpus)  τους κανόνες διαμόρφωσης των λέξεων των κειμένων

41 41 Ανάπτυξη Αλγορίθμου Κανονικοποίησης Μορφολογικός κανονικοποιητής 2. Μορφολογικός Κανονικοποιητής Ή Βασική δομή μιας λέξης στη Νέα Ελληνική Γλώσσα αποτελείτε από τα ακόλουθα τμήματα, Πρόθεμα + Ρίζα(Stem) + Κατάληξη + Τονισμό  Σκοπός μας είναι να βρούμε την ρίζα κάθε λέξης  Δηλαδή η ορθή αφαίρεση της κατάληξης κάθε λέξης (suffix stripping)  Με τη Χρήση γλωσσικών μορφολογικών κανόνων

42 42 Ανάπτυξη Αλγορίθμου Κανονικοποίησης Μορφολογικοί Κανόνες 3. Μορφολογικοί Κανόνες  Στη Νέα Ελληνική Γλώσσα συναντάμε δέκα διαφορετικούς τύπους λέξεων  Ρήματα  Επίθετα  Ουσιαστικά  Το μεγαλύτερο πλήθος των λέξεων υπάγεται στα ρήματα – επίθετα – ουσιαστικά  Πραγματοποιήθηκε ανάλυση των καταλήξεων σε δύο επίπεδα  Επιρρήματα  Πρόθεσεις  Σύνδεσμοι  Επιφωνήματα κλπ.

43 43  Μετατροπή εισερχόμενων λέξεων προς αναζήτηση από κεφαλαία σε μικρά  Αφαίρεση τονισμού  Αφαίρεση των λεκτικών μονάδων όπως άρθρα, προθέσεις, σύνδεσμοι, σημεία στίξης και αριθμοί (stop-words)  Για λέξεις μικρότερες ή ίσες με 3 γράμματα, ο αλγόριθμος τις αφήνει ανεπηρέαστες  Για λέξεις με τέσσερα γράμματα και πάνω, ο αλγόριθμος ακολουθεί κλιμακωτά τις μορφολογικές μεθόδους που έχουν ορισθεί. 4. Γενικοί κανόνες Ανάπτυξη Αλγορίθμου Κανονικοποίησης Ανάλυση Αλγορίθμου

44 44 Ανάπτυξη Αλγορίθμου Κανονικοποίησης Υλοποίηση 5. Περιβάλλον Εργασίας  Οι κανονικοποιητές 1 ου και 2 ου βαθμού υλοποιήθηκαν στη γλώσσα Snowball  Γλώσσα διαχείρισης strings  Αποκλειστικά για κανονικοποιητές (13 γλώσσες)  Αναπτύχθηκε από τον Martin Porter  Στη συνέχεια διαμορφώθηκαν σε βιβλιοθήκες Java για την αξιολόγηση  Η τελική έκδοση σε C++ ενσωματώθηκε στο στο e-pyxis

45 45 Αξιολόγηση  Ο τελικός κανονικοποιητής (2 ου βαθμού) αξιολογήθηκε βάση μίας λίστας 11,147 λέξεων πολλαπλών συλλαβών με τα ακόλουθα αποτελέσματα ΠαράμετροιΠοσότητα Ποσοστό Επιτιχίας 2-syllable words211898% 3-syllable words327095% 4-syllable words304890% 5-syllable words184385%85% 6-syllable words65672% 7-syllable words16563%63% 8-syllable words3838% 9-syllable words920%

46 46 Ολοκλήρωση και Ενσωμάτωση  Τελική έκδοση αυτόματου κατηγοριοποιητή κειμένου  Ενσωμάτωση στο eDOC  Οδηγίες εγκατάστασης και χρήσης  Τελική έκδοση αυτόματου κατηγοριοποιητή εικόνας  Ενσωμάτωση στο eDOC  Οδηγίες εγκατάστασης και χρήσης  Η τελική έκδοση του ελληνικού κανονικοποιητή ενσωματώθηκε  Στο eDOC  Για τους βιβλιοθηκονόμους  Στην ψηφιακή πύλη (Portal)  Ως προαιρετική επιλογή στο portlet ”Αναζήτηση” για τους μαθητές

47 47 Συμπεράσματα Στο πλαίσιο του Προγράμματος eSchoolLib αναπτυχθήκαν με επιτυχία: • Αυτόματος κατηγοριοποιητής κειμένου • Αυτόματος κατηγοριοποιητής εικόνων σε 6 κατηγορίες • Stemmer για την διευκόλυνση της αυτόματης αναγνώρισης ελληνικών λέξεων … όλα ενσωματωμένα στο portal e-pyxis

48 48 Β. Κατηγοριοποίηση στο eSchoolLib Στάδια Επεξεργασίας Στατιστική Επεξεργασία Κειμένων – ΙΙ: Παράδειγμα από την περιοχή «Περιβάλλον» Λήμμα Πλήθος όρων στα κείμενα της περιοχής Πλήθος κειμένων περιοχής όπου εμφανίζεται ο όρος φυτό7437 φως2112 ……..…..…. λίμνη7827 λίπασμα2411 λαμβάνω8146 ……..…..…. λόγιος153 λόγος13074 λύση7644 ……..…..…. νερό31176 νησί4316 νομάρχης112 νομαρχία2011 ……..…..…. Λήμμα Πλήθος όρων στα κείμενα της περιοχής Πλήθος κειμένων περιοχής όπου εμφανίζεται ο όρος Πλήθος κειμένων άλλων περιοχών όπου εμφανίζεται ο όρος Αριθμός άλλων περιοχών όπου εμφανίζεται ο όρος φυτό7437 156 2 φως2112 89 4 …………. λίμνη7827 56 5 λίπασμα2411 59 2 λαμβάνω8146 87 1 ………….. λόγος13074 69 4 λύση7644 87 4 ………….. νερό31176 206 1 νησί4316 105 1 νομαρχία2011 58 2 …………..


Κατέβασμα ppt "1 eSchoolLib: Τεχνολογική επισκόπηση εργαλείων κατηγοριοποίησης, προχωρημένης αναζήτησης και ηλεκτρονικής εκμάθησης Στέλιος Χ. Α. Θωμόπουλος, Ευάγγελος."

Παρόμοιες παρουσιάσεις


Διαφημίσεις Google