1 eSchoolLib: Τεχνολογική επισκόπηση εργαλείων κατηγοριοποίησης, προχωρημένης αναζήτησης και ηλεκτρονικής εκμάθησης Στέλιος Χ. Α. Θωμόπουλος, Ευάγγελος.

Slides:



Advertisements
Παρόμοιες παρουσιάσεις
Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1 Ευρετήρια.
Advertisements

Κοινωνικός Αποκλεισμός στην Εκπαίδευση! Το φροντιστήριο απαραίτητο εργαλείο προόδου των νέων.
Αλγόριθμοι σχεδίασης βασικών 2D σχημάτων (ευθεία)
Γραφήματα & Επίπεδα Γραφήματα
© 2002 Thomson / South-Western Slide 2-1 Κεφάλαιο 2 Διαγράμματα και Γραφήματα Περιγράφικής Στατιστικής.
Ερωτηματολόγιο Συλλογής Απαιτήσεων Εφαρμογών Υψηλών Επιδόσεων
Μάρτιος 2011 Βαρόμετρο ΕΒΕΘ - Καταναλωτές. “Η καθιέρωση ενός αξιόπιστου εργαλείου καταγραφής του οικονομικού, επιχειρηματικού και κοινωνικού γίγνεσθαι.
Πρωτογενής έρευνα Hi5, μία μόδα για νέους;. Μεθοδολογία - εργαλεία Η έρευνα διενεργήθηκε με την μέθοδο της συλλογής ερωτηματολογίων, τα οποία και συμπληρώνονταν.
Πέτσας Δημήτριος Παρουσίαση στο μάθημα: Ψηφιακές Βιβλιοθήκες
Τεχνολογίες ανάκτησης και εξαγωγής δεδομένων με γλωσσική υποστήριξη - Εφαρμογές στο e-government και e-business - Εφαρμογές στο e-government και e-business.
Επιμέλεια: Διογένης Κοσμόπουλος 2ο ΓΕΛ Αργυρούπολης.
HTML.
-Στοίβα-Ουρά - Πλεονεκτήματα πινάκων -Δομές δεδομένων δευτερεύουσας μνήμης -Πληροφορική και δεδομένα -Παραδείγματα-Προβλήματα ψευδοκώδικα.
Μετρήσεις στη γλώσσα και ανάλυση του λόγου Γ. Μικρός, Γ. Ταμπουρατζής, Σ. Μαρκαντωνάτου ΙΝΣΤΙΤΟΥΤΟ ΕΠΕΞΕΡΓΑΣΙΑΣ ΤΟΥ ΛΟΓΟΥ INSTITUTE FOR LANGUAGE & SPEECH.
Τα στοιχειώδη περί γεωδαιτικών υπολογισμών
1 ΠΡΟΤΑΣΕΙΣ ΓΙΑ ΤΗΝ ΟΡΓΑΝΩΤΙΚΗ ΔΟΜΗ ΤΗΣ ΕΡΓΑΣΤΗΡΙΑΚΗΣ ΔΙΕΡΕΥΝΗΣΗΣ ΤΗΣ ΦΥΜΑΤΙΩΣΗΣ ΣΕ ΕΘΝΙΚΟ ΕΠΙΠΕΔΟ Ευάγγελος Μαρίνης Επίτιμος Διευθυντής Μικροβιολογικού.
Τεχνολογική επισκόπηση τοπικής και διαδικτυακής πρόσβασης στη βάση δεδομένων e-pyxis e-pyxis Αναστάσιος Κεσίδης, Αναστάσιος Κλείσας, Ευάγγελος Νόνας, Γεώργιος.
Κεφάλαιο 6 Υλοποίηση Γλωσσών Προγραμματισμού
Ασκήσεις Caches
Ανάλυση του λευκού φωτός και χρώματα
© GfK 2012 | Title of presentation | DD. Month
-17 Προσδοκίες οικονομικής ανάπτυξης στην Ευρώπη Σεπτέμβριος 2013 Δείκτης > +20 Δείκτης 0 a +20 Δείκτης 0 a -20 Δείκτης < -20 Σύνολο στην Ευρωπαϊκή Ένωση:
+21 Προσδοκίες οικονομικής ανάπτυξης στην Ευρώπη Δεκέμβριος 2013 Δείκτης > +20 Δείκτης 0 να +20 Δείκτης 0 να -20 Δείκτης < -20 Σύνολο στην Ευρωπαϊκή Ένωση:
Μηχανική Μάθηση και Εξόρυξη Γνώσης
Η μηχανική μάθηση στην αντιμετώπιση της Υπερπληροφόρησης
Βαρόμετρο ΕΒΕΘ - Καταναλωτές Σεπτέμβριος “Η καθιέρωση ενός αξιόπιστου εργαλείου καταγραφής του οικονομικού, επιχειρηματικού και κοινωνικού γίγνεσθαι.
Αναγνώριση Προτύπων.
Κεφάλαιο 2ο Πεπερασμένα αυτόματα.
Γραφήματα & Επίπεδα Γραφήματα
ΒΑΡΟΜΕΤΡΟ ΕΒΕΘ – ΣΕΠΤΕΜΒΡΙΟΣ 2014 AD – HOC ΕΡΩΤΗΣΕΙΣ.
ΙΣΟΛΟΓΙΣΜΟΣ ΒΑΣΕΙ Δ.Λ.Π. (ΕΝΑΡΞΗΣ)
Εξάσκηση στην προπαίδεια
Αποτελέσματα μετρήσεων σύστασης σώματος
ΔΤΨΣ 150: Ψηφιακή Επεξεργασία Εικόνας © 2005 Nicolas Tsapatsoulis Κατάτμηση Εικόνων: Κατάτμηση με βάση τις περιοχές Τμήμα Διδακτικής της Τεχνολογίας και.
Συντάχθηκε για λογαριασμό του Τηλεοπτικού Σταθμού ΑΝΤ1 Οκτώβριος 2011 © ΚΥΠΡΙΑΚΟ ΒΑΡΟΜΕΤΡΟ.
Αποκεντρωμένη Διοίκηση Μακεδονίας Θράκης ∆ιαχείριση έργων επίβλεψης µε σύγχρονα µέσα και επικοινωνία C2G, B2G, G2G Γενική Δ/νση Εσωτερικής Λειτουργίας.
Η επιρροή του χώρου εργασίας των σχολικών τάξεων στη μάθηση
Βαρόμετρο ΕΒΕΘ Μάρτιος “Η καθιέρωση ενός αξιόπιστου εργαλείου καταγραφής του οικονομικού, επιχειρηματικού και κοινωνικού γίγνεσθαι του Νομού Θεσσαλονίκης”
1/5/ ΧΡΗΣΕΙΣ ΤΗΣ ΗΛΙΑΚΗΣ ΑΝΤΙΝΟΒΟΛΙΑΣ 1/5/ (πηγή: HELIOAKMI).
2006 GfK Praha CORRUPTION CLIMATE IN EUROPE % % % %0 - 10% % % % % % ΚΛΙΜΑ ΔΙΑΦΘΟΡΑΣ Η.
Βαρόμετρο ΕΒΕΘ Μάρτιος “Η καθιέρωση ενός αξιόπιστου εργαλείου καταγραφής του οικονομικού, επιχειρηματικού και κοινωνικού γίγνεσθαι του Νομού Θεσσαλονίκης”
13ο Πανελλήνιο Συνέδριο Ακαδημαϊκών Βιβλιοθηκών – Κέρκυρα Οκτωβρίου 2004 Το σύστημα COINE για την προβολή της πολιτιστικής κληρονομιάς και την υποστήριξη.
ΚΕΦΑΛΑΙΟ 3 Περιγραφική Στατιστική
Ιόνιο Πανεπιστήμιο Τμήμα Αρχειονομίας & Βιβλιοθηκονομίας Μεταπτυχιακό Πρόγραμμα Σπουδών στην Επιστήμη της Πληροφορίας: Διοίκηση & Οργάνωση Βιβλιοθηκών.
Βαρόμετρο ΕΒΕΘ Σεπτέμβριος “Η καθιέρωση ενός αξιόπιστου εργαλείου καταγραφής του οικονομικού, επιχειρηματικού και κοινωνικού γίγνεσθαι του Νομού.
Βαρόμετρο ΕΒΕΘ Μάρτιος “Η καθιέρωση ενός αξιόπιστου εργαλείου καταγραφής του οικονομικού, επιχειρηματικού και κοινωνικού γίγνεσθαι του Νομού Θεσσαλονίκης”
Διαδικτυακή εφαρμογή ανάλυσης και επεξεργασίας δεδομένων κυβερνητικών διαβουλεύσεωνgov.insight Η. Ζαβιτσάνος, Γ. Γιαννακόπουλος, Γ. Παλιούρας Ινστιτούτο.
1 Α. Βαφειάδης Αναβάθμισης Προγράμματος Σπουδών Τμήματος Πληροφορικής Τ.Ε.Ι Θεσσαλονίκης Μάθημα Προηγμένες Αρχιτεκτονικές Υπολογιστών Κεφαλαίο Τρίτο Συστήματα.
ΕΡΕΥΝΑ ΕΚΘΕΤΩΝ-ΕΠΙΣΚΕΠΤΩΝ KAVALAEXPO 2014
ΕΚΕΦΕ «Δημόκριτος» Ινστιτούτο Πληροφορικής & Τηλεπικοινωνιών Κοινωνία της Πληροφορίας & Τεχνητή Νοημοσύνη Δρ. Κωνσταντίνος Δ. Σπυρόπουλος Δντής Έρευνας.
Δομές Δεδομένων 1 Στοίβα. Δομές Δεδομένων 2 Στοίβα (stack)  Δομή τύπου LIFO: Last In - First Out (τελευταία εισαγωγή – πρώτη εξαγωγή)  Περιορισμένος.
Ο ΗΛΕΚΤΡΟΝΙΚΟΣ ΥΠΟΛΟΓΙΣΤΗΣ
Τεχνολογία ΛογισμικούSlide 1 Αλγεβρική Εξειδίκευση u Καθορισμός τύπων αφαίρεσης σε όρους σχέσεων μεταξύ τύπων λειτουργιών.
ΓΕΝΙΚΕΣ ΟΔΗΓΙΕΣ ΔΙΔΑΣΚΑΛΙΑΣ & ΕΝΔΕΙΚΤΙΚΟΣ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟΣ ΥΛΗΣ
Ανάπτυξη και εκπαίδευση ιεραρχίας ταξινομητών για την κατηγοριοποίηση κειμένων Αβραμίδη Γεωργία 719.
Μοντέλα Συστημάτων Παρουσιάσεις των συστημάτων των οποίων οι απαιτήσεις αναλύονται.
1 Τμήμα Μηχανικών Ηλεκτρονικών Υπολογιστών και Πληροφορικής Πανεπιστήμιο Πατρών ΟΝΤΟΚΕΝΤΡΙΚΟΣ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟΣ ΙΙ (C++) Κληρονομικότητα.
Ανάπτυξη Πρωτοτύπου Λογισμικού
Στατιστική Ι Παράδοση 9 Ο Δείκτης Συσχέτισης.
Παράγοντες καρδιαγγειακού κινδύνου (ΠΚΚ) σε ηλικιωμένους και υπέργηρους με ισχαιμικό αγγειακό εγκεφαλικό επεισόδιο (ι-ΑΕΕ). Η θέση του σακχαρώδη διαβήτη.
Βαρόμετρο ΕΒΕΘ - Καταναλωτές Μάρτιος “Η καθιέρωση ενός αξιόπιστου εργαλείου καταγραφής του οικονομικού, επιχειρηματικού και κοινωνικού γίγνεσθαι.
ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ Μάθημα 1ο Εισαγωγή στη Γλωσσική Τεχνολογία
Διδακτική της Πληροφορικής ΗΥ302 Εργασία :Παρουσίαση σχολικού βιβλίου Γ’ Λυκείου Τεχνολογικής Κατεύθυνσης «Ανάπτυξη εφαρμογών σε προγραμματιστικό περιβάλλον»
Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1 Σχεσιακό Μοντέλο.
Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1 Σχεσιακό Μοντέλο.
+19 Δεκέμβριος 2014 Δείκτης > +20 Δείκτης 0 έως +20 Δείκτης 0 έως -20 Δείκτης < -20 Συνολικά της ΕΕ: +5 Δείκτης > +20 Δείκτης 0 έως +20 Δείκτης 0 έως -20.
ΤΑ ΔΟΝΤΙΑ ΜΑΣ.
Βαρόμετρο ΕΒΕΘ Σεπτέμβριος “Η καθιέρωση ενός αξιόπιστου εργαλείου καταγραφής του οικονομικού, επιχειρηματικού και κοινωνικού γίγνεσθαι του Νομού.
Σκοπός Η συνοπτική παρουσίαση
Μεταγράφημα παρουσίασης:

1 eSchoolLib: Τεχνολογική επισκόπηση εργαλείων κατηγοριοποίησης, προχωρημένης αναζήτησης και ηλεκτρονικής εκμάθησης Στέλιος Χ. Α. Θωμόπουλος, Ευάγγελος Καρκαλέτσης, Γεώργιος Πετάσης, Δημήτριος Χαρλαύτης, Ιωάννης Πρατικάκης, Βασίλειος Γάτος, Δημήτριος Μπουγουλιάς, Γεώργιος Σούλος ΕΚΕΦΕ «Δημόκριτος» - Ινστιτούτο Πληροφορικής & Τηλεπικοινωνιών

2 Αυτόματη Κατηγοριοποίηση εικόνας Ελληνικός Stemmer Αυτόματη Κατηγοριοποίηση Κειμένου ΔΗΜΟΚΡΙΤΟΣ

3 Αυτόματη Κατηγοριοποίηση Κειμένων Περιεχόμενα A.Κατηγοριοποίηση Κειμένων: Γενικά B.Κατηγοριοποίηση Κειμένων στο eSchoolLib 1.Καθορισμός θεματικών περιοχών 2.Συλλογή σωμάτων κειμένων για εκπαίδευση και αξιολόγηση 3.Γλωσσική προ-επεξεργασία κειμένων 4.Στατιστική Επεξεργασία Κειμένων 5.Κατηγοριοποίηση Κειμένων με Χρήση Τεχνικών Μηχανικής Μάθησης 6.Αποτελέσματα Αξιολόγησης 7.Ολοκλήρωση στο eDoc

4 Α. Κατηγοριοποίηση Κειμένων Γενικά •Ανάλυση κειμένων και ταξινόμησή τους σε μία ή περισσότερες προκαθορισμένες κατηγορίες. •Έστω:  Σύνολο εγγράφων D  Σύνολο προκαθορισμένων κατηγοριών C  Μία συνάρτηση A  : D x C  {T, F} (περιγράφει πώς πρέπει να κατηγοριοποιηθούν τα έγγραφα) •Αυτό που θέλουμε να βρούμε είναι:  Ένα ταξινομητή Ψ: D x C  {T, F} που προσεγγίζει καλύτερα την συνάρτηση . (F. Sebastiani)

5 Α. Κατηγοριοποίηση Κειμένων Τύποι κατηγοριοποίησης •Ανάλογα με την εφαρμογή, μπορούμε να έχουμε ταξινομητές διαφόρων τύπων  Μοναδικής κατηγοριοποίησης (Single-class)  κάθε έγγραφο ταξινομείται σε μία και μόνο κατηγορία  Πολλαπλής κατηγοριοποίησης (Multi-class)  κάθε έγγραφο μπορεί να ταξινομηθεί σε περισσότερες από μία κατηγορίες  Hard  ένα έγγραφο ανήκει ή δεν ανήκει σε μία κατηγορία  Soft  ένα έγγραφο ανήκει σε κάθε κατηγορία με ένα βαθμό βεβαιότητας (π.χ. ένα αριθμό μεταξύ [0..1])

6 Α. Κατηγοριοποίηση Κειμένων Τύποι συστημάτων •Χειρωνακτική κατηγοριοποίηση:  Συγγραφή κανόνων του τύπου: •Αυτόματη κατηγοριοποίηση:  Χρήση μεθόδων μηχανικής μάθησης για την εκμάθηση κανόνων από προ-ταξινομημένα έγγραφα (παραδείγματα εκπαίδευσης)

7 Α. Κατηγοριοποίηση Κειμένων Αυτόματη Κατηγοριοποίηση Κειμένων Παραδείγματα εκπαίδευσης Προ-επεξεργασία Μηχανική Μάθηση Ταξινομητές Αφαίρεση stop-words Θεματοποίηση/λημματοποίηση Συνδυασμός γειτονικών λέξεων Στατιστική ανάλυση, επιλογή όρων Μηχανική μάθηση υπό-επίβλεψη (supervised) Μείωση διαστάσεων

8 Β. Κατηγοριοποίηση στο eSchoolLib •Χαρακτηριστικά  Τύπος: Πολλαπλή-κατηγοριοποίηση, Soft  Μέθοδος: Αυτόματη κατηγοριοποίηση •Στάδια Επεξεργασίας 1.Καθορισμός θεματικών περιοχών 2.Συλλογή σωμάτων κειμένων για εκπαίδευση και αξιολόγηση 3.Γλωσσική προ-επεξεργασία κειμένων 4.Στατιστική Επεξεργασία Κειμένων 5.Κατηγοριοποίηση Κειμένων με Χρήση Τεχνικών Μηχανικής Μάθησης

9 Β. Κατηγοριοποίηση στο eSchoolLib Στάδια Επεξεργασίας 1.Καθορισμός θεματικών περιοχών (με βάση τη θεματική κατηγοριοποίηση του EUROVOC)  Επικοινωνία και μόρφωση  Περιβάλλον  Κοινωνικά θέματα  Επιστήμες (φυσικές – ανθρωπιστικές)  Διεθνείς οργανισμοί  Πολιτιστικός τομέας και θρησκεία

10 Β. Κατηγοριοποίηση στο eSchoolLib Στάδια Επεξεργασίας 2.Συλλογή σωμάτων κειμένων για εκπαίδευση και αξιολόγηση ΕλληνικάΑγγλικά InternetOCRInternetOCR Επικοινωνία και μόρφωση Περιβάλλον Κοινωνικά θέματα Επιστήμες (φυσικές – ανθρωπιστικές) Διεθνείς οργανισμοί Πολιτιστικός τομέας και θρησκεία Σύνολο

11 Β. Κατηγοριοποίηση στο eSchoolLib Στάδια Επεξεργασίας 3.Γλωσσική προ-επεξεργασία κειμένων α) Διαχωρισμός λεκτικών μονάδων β) Λημματοποίηση (Ελληνικά κείμενα) γ) Θεματοποίηση (Αγγλικά κείμενα)

12 Β. Κατηγοριοποίηση στο eSchoolLib Στάδια Επεξεργασίας 4.Στατιστική Επεξεργασία Κειμένων  Εξαγωγή όρων  αφαίρεση εκείνων των λεκτικών μονάδων (tokens) που εμφανίζονται σε οποιοδήποτε κείμενο (stop-words),  δημιουργία λίστας με τα θέματα ή τα λήμματα των επιλεγμένων tokens  προσθήκη στη λίστα όλων των συνδυασμών των ανωτέρω λημμάτων  υπολογισμός στατιστικών δεικτών για κάθε όρο, μέλος της λίστας  πλήθος εμφανίσεων του όρου στα κείμενα της θεματικής περιοχής  αριθμό των κειμένων της συγκεκριμένης θεματικής περιοχής στα οποία εμφανίζεται ο όρος.  επιλογή όρων με βάση τις τιμές των δεικτών  υπολογισμός επιπλέον στατιστικών δεικτών  ο αριθμός των κειμένων όλων των άλλων θεματικών περιοχών στα οποία εμφανίζεται ο όρος και  ο αριθμός των άλλων θεματικών περιοχών στων οποίων τα κείμενα εμφανίζεται αυτός ο όρος  καθορισμός τελικού συνόλου όρων με βάση τις τιμές των επιπλέον δεικτών

13 Β. Κατηγοριοποίηση στο eSchoolLib Στάδια Επεξεργασίας 5.Εκπαίδευση  Αναπαράσταση του σώματος εκπαίδευσης υπό μορφή διανύσματος χρησιμοποιώντας τα χαρακτηριστικά που προέκυψαν από τη γλωσσική και τη στατιστική επεξεργασία  Εφαρμογή των αλγορίθμων μηχανικής μάθησης  Καθορισμός δύο κατηγοριών για κάθε θεματική περιοχή: hit (τα κείμενα της περιοχής), miss (τα άλλα κείμενα)  Παραγωγή μοντέλων εκπαίδευσης ανά περιοχή  Αξιολόγηση των μοντέλων  Εφαρμογή στο σώμα αξιολόγησης για κάθε περιοχή  Επιλογή των τελικών μοντέλων

14 Β. Κατηγοριοποίηση στο eSchoolLib Χρήση Τεχνικών Μηχανικής Μάθησης Αλγόριθμοι που χρησιμοποιήθηκαν  Μάθηση βασισμένη σε Δένδρα Απόφασης: C4.5  Μάθηση κατά Bayes: Naive Bayes  Μάθηση βασισμένη σε Στιγμιότυπα: ΙΒ1, ΙΒk, KStar  Μετα-μάθηση  Boosting: AdaBoost M1, LogitBoost  Stacking

15 Κατηγοριοποίηση στο eSchoolLib Αποτελέσματα αξιολόγησης 6.Αποτελέσματα Αξιολόγησης  Επιλογή των καλύτερων μοντέλων για κάθε περιοχή και γλώσσα  Δημιουργία υβριδικού μοντέλου  Αποτελέσματα Κατηγορία Ακρίβεια ΕλληνικάΑγγλικά Επικοινωνία και μόρφωση Περιβάλλον Κοινωνικά θέματα Επιστήμες (φυσικές – ανθρωπιστικές) Διεθνείς οργανισμοί Πολιτιστικός τομέας και θρησκεία

16 Αυτόματη Κατηγοριοποίηση εικόνας Ελληνικός Stemmer Αυτόματη Κατηγοριοποίηση κειμένου ΔΗΜΟΚΡΙΤΟΣ

17 Αυτόματη Κατηγοριοποίηση Εικόνας Περιεχόμενα •Εισαγωγή και Προδιαγραφές Ψηφιοποίησης •Φωτογραφίες / Γραφικά •Εντοπισμός πορτρέτου •Κατηγοριοποίηση εικόνων σκηνών εσωτερικού / εξωτερικού χώρου •Κατηγοριοποίηση εικόνων σκηνών πόλης / υπαίθρου

18 Κλάσεις κατηγοριοποίησης photographs graphics Portrait indoor city non-portrait outdoor landscape Τα semantics μίας εικόνας χαρακτηρίζονται σε διαφορετικά επίπεδα : 1.Χαμηλού επιπέδου 1.(π.χ. φωτογραφία εξωτερικού χώρου) 2.Σύνθεση αντικειμένων 1.(π.χ. ένα ποδήλατο στην παραλία) 3.Abstract semantics 1.(π.χ. διαφωνία μεταξύ ατόμων) 4.Λεπτομερή semantics 1.(π.χ. λεπτομερή περιγραφή εικόνας)

19 Ψηφιοποίηση 1 bit/pixel 4 bits/pixel 8 bits/pixel

20 Ανάλυση ψηφιακής εικόνας χωρική & χρώματος 60 dpi 150 dpi 4 colours (2 bits/pixel) 16.7 M colours (24 bits/pixel)

21 Κατηγοριοποίηση Εικόνας Φωτογραφίες vs. Γραφικά photographs graphics Portrait indoor city Comics Logos & icons Commercial heading non-portrait outdoor landscape Γραφικά == εικόνες που έχουν παραχθεί από υπολογιστή Στο τρέχον σύστημα δεν αντιμετωπίζονται τα παρακάτω : •Ανάμικτες εικόνες •Χειρόγραφα σχέδια

22 Κατηγοριοποίηση Εικόνας Φωτογραφίες vs. Γραφικά photographs graphics Portrait indoor city Comics Logos & icons Commercial heading non-portrait outdoor landscape Διαφορές στα χαρακτηριστικά φωτογραφίας και γραφικών •Οι μεταπτώσεις χρώματος (Color transitions) απόpixel σε pixel γίνονται με διαφορετικό τρόπο •Οι ακμές στα γραφικά είναι απότομες

23 Κατηγοριοποίηση Εικόνας Φωτογραφίες vs. Γραφικά photographs graphics Portrait indoor city Comics Logos & icons Commercial heading non-portrait outdoor landscape Μετρικές εικόνων / γραφικών •Μετρική κορεσμού •Μετρική μετάπτωσης (transition) Στα γραφικά συναντούμε ι) Μεγαλύτερες περιοχές σταθερού χρώματος; ιι) Απότομες μεταπτώσεις.

24 Κατηγοριοποίηση Εικόνας Φωτογραφίες vs. Γραφικά photographs graphics Portrait indoor city Comics Logos & icons Commercial heading non-portrait outdoor landscape ΑριθμόςΑκρίβεια Φωτογραφίες83093,4% Γραφικά3884% Πειραματικά Αποτελέσματα

25 Κατηγοριοποίηση Εικόνας Εντοπισμός πορτρέτου (προσώπου) photographs graphics Portrait indoor city Comics Logos & icons Commercial heading non-portrait outdoor landscape Διάγραμμα για τον εντοπισμό προσώπου Εντοπισμός pixels επιδερμίδας Κατάτμηση εικόνας Εντοπισμός περιοχών επιδερμίδας Εξαγωγή προσώπου

26 Κατηγοριοποίηση Εικόνας Εντοπισμός πορτρέτου (προσώπου) photographs graphics Portrait indoor city Comics Logos & icons Commercial heading non-portrait outdoor landscape Εντοπισμός pixel επιδερμίδας Ένα RGB pixel κατηγοριοποιείται ως επιδερμίδα εάν: { R>95 & G>40 & B>20} & max{R,G,B} - min{R,G,B} > 15 & |R-G| > 15 & R>G & R>B

27 Κατηγοριοποίηση Εικόνας Εντοπισμός πορτρέτου (προσώπου) photographs graphics Portrait indoor city Comics Logos & icons Commercial heading non-portrait outdoor landscape Κατάτμηση εικόνας (ι) Βασικά βήματα του αλγορίθμου J-SEG A.Κβαντισμός χρώματος Δημιουργία class-maps B. Χωρική κατάτμηση Εφαρμογή σε class-maps Αρχικά η μεταβλητή J υπολογίζεται για κάθε κατατμημένη περιοχή και εν συνεχεία καθορίζεται ο μέσος όρος. Η κατάτμηση που ελαχιστοποιεί το J λέγετε ορθή κατάτμηση

28 Κατηγοριοποίηση Εικόνας Εντοπισμός πορτρέτου (προσώπου) photographs graphics Portrait indoor city Comics Logos & icons Commercial heading non-portrait outdoor landscape Κατάτμηση εικόνας (ιι) •Όταν οι κλάσεις χρώματος είναι καλύτερα διαχωρισμένες τότε η τιμή του J μεγαλώνει. •Εάν όλες οι κλάσεις χρώματος κατανέμονται ομοιόμορφα σε όλη την εικόνα τότε η τιμή του J τείνει να είναι μικρή.

29 Κατηγοριοποίηση Εικόνας Εντοπισμός πορτρέτου (προσώπου) photographs graphics Portrait indoor city Comics Logos & icons Commercial heading non-portrait outdoor landscape ΑριθμόςΑκρίβεια Φωτογραφίες με πρόσωπο2596% Φωτογραφίες χωρίς πρόσωπο (Indoor/Outdoor) % Πειραματικά αποτελέσματα

30 Κατηγοριοποίηση Εικόνας Ταξινόμηση εικόνων Indoor / Outdoor photographs graphics Portrait indoor city Comics Logos & icons Commercial heading non-portrait outdoor landscape Feature Extractor Classifier •••••• x1x1 x2x2 xdxd Raw DataCategory or Class Supervised Ταξινόμηση Το σύστημα αποτελείται από 2 βασικές ενότητες Α. Την εξαγωγή χαρακτηριστικών ι) Η πληροφορία που αφορά στο χρώμα - μέσω της μοντελοποίησης του χρώματος ιι) Πληροφορία που αφορά στην υφή - μέσω Wavelet Filter Bank Β. Ταξινόμηση K-NN SVM

31 Κατηγοριοποίηση Εικόνας Ταξινόμηση εικόνων Indoor / Outdoor photographs graphics Portrait indoor city Comics Logos & icons Commercial heading non-portrait outdoor landscape Πληροφορία Υφής από τον μετασχηματισμό Wavelet Wavelet Filter Bank Wavelet Image Original Image Feature Extraction f 0, v o f 1, v 1 f 2, v 2 f 3, v 3 f 4, v 4 f 5, v 5 f 6, v 6 Take the mean (f i ) and variance (v i ) of each subband Decompose the images into frequency subbands

32 Κατηγοριοποίηση Εικόνας Ταξινόμηση εικόνων Πόλης / Υπαίθρου photographs graphics Portrait indoor Comics Logos & icons Commercial heading non-portrait outdoor Feature Extractor Classifier •••••• x1x1 x2x2 xdxd Raw DataCategory or Class Supervised Ταξινόμηση Το σύστημα αποτελείται από 2 βασικές ενότητες Α. Την εξαγωγή χαρακτηριστικών ι) Η πληροφορία που αφορά στο χρώμα ιι) Πληροφορία στον προσανατολισμό ευθύγραμμων τμημάτων Β. Ταξινόμηση K-NN SVM city landscape

33 Κατηγοριοποίηση Εικόνας Ταξινόμηση εικόνων Πόλης / Υπαίθρου photographs graphics Portrait indoor Comics Logos & icons Commercial heading non-portrait outdoor Supervised Ταξινόμηση Η εξαγωγή χαρακτηριστικών για αυτή την κατηγοριοποίηση βασίζεται στην : - ανίχνευση ακμών και - τον εντοπισμό γραμμικών τμημάτων Αρχική Εικόνα Ανίχνευση Ακμών Εντοπισμός γραμμικών τμημάτων city landscape

34 Κατηγοριοποίηση Εικόνας Ταξινόμηση εικόνων Πόλης / Υπαίθρου photographs graphics Portrait indoor Comics Logos & icons Commercial heading non-portrait outdoor Πειραματικά αποτελέσματα Μέγεθος δεδομένων προς εκπαίδευση συστήματος Μέγεθος δεδομένων προς αξιολόγηση Indoor Outdoor210 Πόλη209 Ύπαιθρο ς city landscape

35 Κατηγοριοποίηση Εικόνας Ταξινόμηση εικόνων Πόλης / Υπαίθρου photographs graphics Portrait indoor Comics Logos & icons Commercial heading non-portrait outdoor Πειραματικά αποτελέσματα ΤΑΞΙΝΟΜΗΤΕΣ ΚΑΤΗΓΟΡΙΕΣ Indoor / Outdoor City / Landscape K- NN K = 3 88,94%78,5% K = 5 90%78,99% K = 7 88,68%77,08% SVM Kernel : RBF 94,21% (C=170, γ=0.4) 89,97% (C=180, γ=0.005) city landscape

36 Προχωρημένη Αναζήτηση Κειμένων Αυτόματη Κατηγοριοποίηση κειμένου ΔΗΜΟΚΡΙΤΟΣ Αυτόματη Κατηγοριοποίηση εικόνας

37 Προχωρημένη αναζήτηση κειμένων Περιεχόμενα A.Γενικά B.Ανάπτυξη Αλγορίθμου Κανονικοποίησης – Stemmer 1.Είδη κανονικοποιητών 2.Μορφολογικός Κανονικοποιητής 3.Μορφολογικοί Κανόνες 4.Ανάλυση Αλγορίθμου 5.Υλοποίηση C.Αξιολόγηση

38 Ελληνικός Stemmer – Γενικά  Τι είναι κανονικοποίηση (stemming)? Κανονικοποίηση είναι το σύνολο των διαδικασιών που αποσκοπούν στην εύρεση των γραμμάτων που περιγράφουν την ρίζα μιας λέξης.  Που εφαρμόζεται ?  Σε συστήματα ανάκτησης δεδομένων (IR Systems)  Που αποσκοπεί ?  Σκοπός είναι η συγχώνευση των λέξεων μεταξύ τους.  Τι προσφέρει ?  Δραματική μείωση του index ενός συστήματος IR  Βελτιστοποίηση του τρόπου αναζήτησης σε αυτό.

39 Ελληνικός Stemmer – Γενικά  Κανονικοποίηση και e-pyxis  Το εργαλείο e-pyxis βοηθάει στο εμπλουτισμό της βιβλιοθήκης  Ανάγκη ύπαρξης μιας αποτελεσματικής μηχανής αναζήτησης  Για το λόγο αυτό αναπτύχθηκε ελληνικός κανονικοποιητής(stemmer)

40 Ανάπτυξη Αλγορίθμου Κανονικοποίησης Είδη κανονικοποιητών 1. Είδη Κανονικοποιητών  Μορφολογική προσέγγιση  Γνώση μορφολογικών κανόνων της γλώσσας  Ιδιαίτερα δύσκολο σε γλώσσες με πολύπλοκη μορφολογία  Στατιστική προσέγγιση  Με τη χρήση μεθόδων βασισμένων σε στατιστικές αρχές Οι αρχές αυτές συνάγονται από  την στατιστική επεξεργασία της συλλογής κειμένων (corpus)  τους κανόνες διαμόρφωσης των λέξεων των κειμένων

41 Ανάπτυξη Αλγορίθμου Κανονικοποίησης Μορφολογικός κανονικοποιητής 2. Μορφολογικός Κανονικοποιητής Ή Βασική δομή μιας λέξης στη Νέα Ελληνική Γλώσσα αποτελείτε από τα ακόλουθα τμήματα, Πρόθεμα + Ρίζα(Stem) + Κατάληξη + Τονισμό  Σκοπός μας είναι να βρούμε την ρίζα κάθε λέξης  Δηλαδή η ορθή αφαίρεση της κατάληξης κάθε λέξης (suffix stripping)  Με τη Χρήση γλωσσικών μορφολογικών κανόνων

42 Ανάπτυξη Αλγορίθμου Κανονικοποίησης Μορφολογικοί Κανόνες 3. Μορφολογικοί Κανόνες  Στη Νέα Ελληνική Γλώσσα συναντάμε δέκα διαφορετικούς τύπους λέξεων  Ρήματα  Επίθετα  Ουσιαστικά  Το μεγαλύτερο πλήθος των λέξεων υπάγεται στα ρήματα – επίθετα – ουσιαστικά  Πραγματοποιήθηκε ανάλυση των καταλήξεων σε δύο επίπεδα  Επιρρήματα  Πρόθεσεις  Σύνδεσμοι  Επιφωνήματα κλπ.

43  Μετατροπή εισερχόμενων λέξεων προς αναζήτηση από κεφαλαία σε μικρά  Αφαίρεση τονισμού  Αφαίρεση των λεκτικών μονάδων όπως άρθρα, προθέσεις, σύνδεσμοι, σημεία στίξης και αριθμοί (stop-words)  Για λέξεις μικρότερες ή ίσες με 3 γράμματα, ο αλγόριθμος τις αφήνει ανεπηρέαστες  Για λέξεις με τέσσερα γράμματα και πάνω, ο αλγόριθμος ακολουθεί κλιμακωτά τις μορφολογικές μεθόδους που έχουν ορισθεί. 4. Γενικοί κανόνες Ανάπτυξη Αλγορίθμου Κανονικοποίησης Ανάλυση Αλγορίθμου

44 Ανάπτυξη Αλγορίθμου Κανονικοποίησης Υλοποίηση 5. Περιβάλλον Εργασίας  Οι κανονικοποιητές 1 ου και 2 ου βαθμού υλοποιήθηκαν στη γλώσσα Snowball  Γλώσσα διαχείρισης strings  Αποκλειστικά για κανονικοποιητές (13 γλώσσες)  Αναπτύχθηκε από τον Martin Porter  Στη συνέχεια διαμορφώθηκαν σε βιβλιοθήκες Java για την αξιολόγηση  Η τελική έκδοση σε C++ ενσωματώθηκε στο στο e-pyxis

45 Αξιολόγηση  Ο τελικός κανονικοποιητής (2 ου βαθμού) αξιολογήθηκε βάση μίας λίστας 11,147 λέξεων πολλαπλών συλλαβών με τα ακόλουθα αποτελέσματα ΠαράμετροιΠοσότητα Ποσοστό Επιτιχίας 2-syllable words211898% 3-syllable words327095% 4-syllable words304890% 5-syllable words184385%85% 6-syllable words65672% 7-syllable words16563%63% 8-syllable words3838% 9-syllable words920%

46 Ολοκλήρωση και Ενσωμάτωση  Τελική έκδοση αυτόματου κατηγοριοποιητή κειμένου  Ενσωμάτωση στο eDOC  Οδηγίες εγκατάστασης και χρήσης  Τελική έκδοση αυτόματου κατηγοριοποιητή εικόνας  Ενσωμάτωση στο eDOC  Οδηγίες εγκατάστασης και χρήσης  Η τελική έκδοση του ελληνικού κανονικοποιητή ενσωματώθηκε  Στο eDOC  Για τους βιβλιοθηκονόμους  Στην ψηφιακή πύλη (Portal)  Ως προαιρετική επιλογή στο portlet ”Αναζήτηση” για τους μαθητές

47 Συμπεράσματα Στο πλαίσιο του Προγράμματος eSchoolLib αναπτυχθήκαν με επιτυχία: • Αυτόματος κατηγοριοποιητής κειμένου • Αυτόματος κατηγοριοποιητής εικόνων σε 6 κατηγορίες • Stemmer για την διευκόλυνση της αυτόματης αναγνώρισης ελληνικών λέξεων … όλα ενσωματωμένα στο portal e-pyxis

48 Β. Κατηγοριοποίηση στο eSchoolLib Στάδια Επεξεργασίας Στατιστική Επεξεργασία Κειμένων – ΙΙ: Παράδειγμα από την περιοχή «Περιβάλλον» Λήμμα Πλήθος όρων στα κείμενα της περιοχής Πλήθος κειμένων περιοχής όπου εμφανίζεται ο όρος φυτό7437 φως2112 ……..…..…. λίμνη7827 λίπασμα2411 λαμβάνω8146 ……..…..…. λόγιος153 λόγος13074 λύση7644 ……..…..…. νερό31176 νησί4316 νομάρχης112 νομαρχία2011 ……..…..…. Λήμμα Πλήθος όρων στα κείμενα της περιοχής Πλήθος κειμένων περιοχής όπου εμφανίζεται ο όρος Πλήθος κειμένων άλλων περιοχών όπου εμφανίζεται ο όρος Αριθμός άλλων περιοχών όπου εμφανίζεται ο όρος φυτό φως …………. λίμνη λίπασμα λαμβάνω ………….. λόγος λύση ………….. νερό νησί νομαρχία …………..