Γλωσσική Τεχνολογία Μάθημα 4 ο Επεξεργασία Κειμένου και Δεικτοδότηση Σοφία Στάμου Άκ.Έτος 2009-10.

Slides:



Advertisements
Παρόμοιες παρουσιάσεις
Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1 Ευρετήρια.
Advertisements

Αλγόριθμοι σχεδίασης βασικών 2D σχημάτων (ευθεία)
Γραφήματα & Επίπεδα Γραφήματα
Μάθημα 3ο Επεξεργασία Κειμένου και Δεικτοδότηση
Έρευνα για την οικοδομική δραστηριότητα 2010 Επαμεινώνδας Ε. Πανάς Καθηγητής Οικονομικού Πανεπιστημίου Αθηνών Πρόεδρος του Τμήματος Στατιστικής Απόψεις.
1 Έρευνα 16-19/5/05 Πανελλαδική πολιτική έρευνα κοινής γνώμης ΠΕΙΡΑΙΑΣ Μάιος 2005.
ΑΠΟΤΙΜΗΣΗ ΑΠΟΔΟΣΗΣ ΔΙΚΤΥΩΝ ΠΟΥ ΧΡΗΣΙΜΟΠΟΙΟΥΝ ΑΞΙΟΠΙΣΤΑ ΠΡΩΤΟΚΟΛΛΑ ΜΕΤΑΦΟΡΑΣ ΚΑΙ ΑΞΙΟΠΙΣΤΑ ΠΡΩΤΟΚΟΛΛΑ ΣΥΝΔΕΣΗΣ Ιωάννης Κόμνιος Μεταπτυχιακή Διατριβή Τμήμα.
Ερωτηματολόγιο Συλλογής Απαιτήσεων Εφαρμογών Υψηλών Επιδόσεων
Αποτελέσματα Μελέτης για το Μέγαρο Πολιτισμού Κύπρου Ετοιμάστηκε για την Εταιρεία KPMG Από την Εταιρεία RAI Consultants Public Ltd Μάρτιος 2008.
Μετά από έρευνα που διενήργησε εταιρεία ερευνών, διαπιστώθηκε πως στην εταιρεία μας οι εργαζόμενοι χρησιμοποιούν μεταξύ τους ένα λεξιλόγιο κάπως ανάρμοστο.
Πρωτογενής έρευνα Hi5, μία μόδα για νέους;. Μεθοδολογία - εργαλεία Η έρευνα διενεργήθηκε με την μέθοδο της συλλογής ερωτηματολογίων, τα οποία και συμπληρώνονταν.
Πέτσας Δημήτριος Παρουσίαση στο μάθημα: Ψηφιακές Βιβλιοθήκες
Απαντήσεις Προόδου II.
ΜοντελοποίησηΈργα ΜαθήματαΑξιολόγηση Αναστοχασμος Μαθήματα.
1 Στοιχεία Θεωρίας Συνόλων Πολυσύνολα. 2 Εισαγωγή •Σύνολο είναι μία συλλογή διακεκριμένων αντικειμένων •Ωστόσο, υπάρχουν περιπτώσεις στις οποίες συναντάμε.
1 Α. Βαφειάδης Αναβάθμισης Προγράμματος Σπουδών Τμήματος Πληροφορικής Τ.Ε.Ι Θεσσαλονίκης Μάθημα Προηγμένες Αρχιτεκτονικές Υπολογιστών Κεφαλαίο Πρώτο Αρχιτεκτονική.
Πιθανοκρατικοί Αλγόριθμοι
της Μαρίας-Ζωής Φουντοπούλου
Χρήση και αξιοποίηση των ΤΠΕ κατά τη διδασκαλία των μαθηματικών στη δευτεροβάθμια ελληνική εκπαίδευση Δρ. Σάλτας Βασίλειος, Ιωαννίδου Ευφροσύνη Τμήμα.
Κεφάλαιο 6 Υλοποίηση Γλωσσών Προγραμματισμού
Εκτέλεση Αλγορίθμων σε ψευδογλώσσα
Page  1 Ο.Παλιάτσου Γαλλική Επανάσταση 1 ο Γυμνάσιο Φιλιππιάδας.
Ανάλυση του λευκού φωτός και χρώματα
© GfK 2012 | Title of presentation | DD. Month
-17 Προσδοκίες οικονομικής ανάπτυξης στην Ευρώπη Σεπτέμβριος 2013 Δείκτης > +20 Δείκτης 0 a +20 Δείκτης 0 a -20 Δείκτης < -20 Σύνολο στην Ευρωπαϊκή Ένωση:
+21 Προσδοκίες οικονομικής ανάπτυξης στην Ευρώπη Δεκέμβριος 2013 Δείκτης > +20 Δείκτης 0 να +20 Δείκτης 0 να -20 Δείκτης < -20 Σύνολο στην Ευρωπαϊκή Ένωση:
1 4 Square Questions B A D C Κοιτάξτε προσεκτικά το διάγραμμα. Θα σας κάνω 4 ερωτήσεις γι’ αυτό το τετράγωνο. ΕΤΟΙΜΟΙ;
Μηχανική Μάθηση και Εξόρυξη Γνώσης
Εισαγωγικές Έννοιες Διδάσκοντες: Σ. Ζάχος, Δ. Φωτάκης Επιμέλεια διαφανειών: Δ. Φωτάκης Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών Εθνικό Μετσόβιο.
Δυαδικά Δένδρα Αναζήτησης, Δένδρα AVL
Στατιστική Ι Παράδοση 5 Οι Δείκτες Διασποράς Διασπορά ή σκεδασμός.
Αναγνώριση Προτύπων.
Κεφάλαιο 2ο Πεπερασμένα αυτόματα.
Γραφήματα & Επίπεδα Γραφήματα
Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1 Συναρτησιακές Εξαρτήσεις.
ΙΣΟΛΟΓΙΣΜΟΣ ΒΑΣΕΙ Δ.Λ.Π. (ΕΝΑΡΞΗΣ)
Κοντινότεροι Κοινοί Πρόγονοι α βγ θ δεζ η π ν ι κλμ ρσ τ κκπ(λ,ι)=α, κκπ(τ,σ)=ν, κκπ(λ,π)=η κκπ(π,σ)=γ, κκπ(ξ,ο)=κ ξο κκπ(ι,ξ)=β, κκπ(τ,θ)=θ, κκπ(ο,μ)=α.
1 Θεματική Ενότητα Γραφήματα & Επίπεδα Γραφήματα.
Αποκεντρωμένη Διοίκηση Μακεδονίας Θράκης ∆ιαχείριση έργων επίβλεψης µε σύγχρονα µέσα και επικοινωνία C2G, B2G, G2G Γενική Δ/νση Εσωτερικής Λειτουργίας.
Η επιρροή του χώρου εργασίας των σχολικών τάξεων στη μάθηση
Βάσεις Δεδομένων II Διαχείριση Δοσοληψιών Πάνος Βασιλειάδης Σεπτέμβρης 2002
1 Τοπικές βλάβες από δήγματα όφεων Κουτσουμπού Γεωργία Ειδικευόμενη Γενικής Ιατρικής ΓΚΑ Αθήνα, 18 η Ιουλίου 2002.
Μάθημα 2 ο : Βασικές έννοιες 1 Ακαδημαϊκό Έτος
Ισορροπημένα Δένδρα TexPoint fonts used in EMF. Read the TexPoint manual before you delete this box.: AA A A A Μπορούμε να επιτύχουμε χρόνο εκτέλεσης για.
6 MRB, Συλλογή στοιχείων: 24 Νοεμβρίου έως 5 Δεκεμβρίου 2005 Εξωτερική Πολιτική: Τουρκία – Κυπριακό – ΠΓΔΜ - Κοσσυφοπέδιο 1 6 ΕΞΩΤΕΡΙΚΗ ΠΟΛΙΤΙΚΗ ( Τουρκία.
Δομές Αναζήτησης TexPoint fonts used in EMF. Read the TexPoint manual before you delete this box.: AA A A A Χειριζόμαστε ένα σύνολο στοιχείων όπου το κάθε.
Ανάλυση Πολλαπλής Παλινδρόμησης
1 Α. Βαφειάδης Αναβάθμισης Προγράμματος Σπουδών Τμήματος Πληροφορικής Τ.Ε.Ι Θεσσαλονίκης Μάθημα Προηγμένες Αρχιτεκτονικές Υπολογιστών Κεφαλαίο Τρίτο Συστήματα.
Τεχνολογία ΛογισμικούSlide 1 Αλγεβρική Εξειδίκευση u Καθορισμός τύπων αφαίρεσης σε όρους σχέσεων μεταξύ τύπων λειτουργιών.
Συνδυαστικά Κυκλώματα
Μοντέλα Συστημάτων Παρουσιάσεις των συστημάτων των οποίων οι απαιτήσεις αναλύονται.
Προγραμματισμός ΙΙ Διάλεξη #5: Εντολές Ανάθεσης Εντολές Συνθήκης Δρ. Νικ. Λιόλιος.
Σέρρες,Ιούνιος 2009 Τίτλος: Αυτόματος έλεγχος στο Scilab: Ανάπτυξη πακέτου για εύρωστο έλεγχο. Ονοματεπώνυμο Σπουδάστριας: Ευαγγελία Δάπκα Επιβλέπων Καθηγητής.
ANAKOINWSH H 2η Ενδιάμεση Εξέταση μεταφέρεται στις αντί για , την 24 Νοεμβρίου στις αίθουσες ΧΩΔ και 110 λόγω μη-διαθεσιμότητας.
Ενεργή επιλογή αλγορίθμου, Active Algorithm Selection, Feilong Chen and Rong Jin Εύα Σιταρίδη.
Διδάσκοντες: Σ. Ζάχος, Δ. Φωτάκης
Εθνικό και Καποδιστριακό Πανεπιστήμιο Αθηνών Τμήμα Πληροφορικής και Τηλεπικοινωνιών Learning to Learn: Algorithmic Inspirations from Human Problem Solving.
Προχωρημένα Θέματα Τεχνολογίας και Εφαρμογών Βάσεων Δεδομένων Διαχείριση Συναλλαγών Πάνος Βασιλειάδης Μάρτιος 2014
ΜΑΘΗΜΑ ΝΟΣΗΛΕΥΤΙΚΗ ΜΕΤΑΓΓΙΣΗ ΑΙΜΑΤΟΣ - ΑΙΜΟΔΟΣΙΑ
Δέσποινα Μαγγίνα M1175 Κωνσταντίνος Γαργάνης Μ1172 Δήμητρα Μαρία Χαρακλιά Μ1206 Ιωάννης Παπαδάκης Μ1171 Αλέξανδρος Νικολόπουλος Μ1182 Δημήτριος Μπαϊρακτάρης.
Βάσεις Δεδομένων Εργαστήριο ΙΙ Τμήμα Πληροφορικής ΑΠΘ
Εθνικό και Καποδιστριακό Πανεπιστήμιο Αθηνών – Τμήμα Πληροφορικής και Τηλεπικοινωνιών 1 Κεφάλαιο 3 Η Σημασιολογία των Γλωσσών Προγραμματισμού Προπτυχιακό.
Ελάχιστο Συνδετικό Δέντρο
Computers: Information Technology in Perspective By Long and Long Copyright 2002 Prentice Hall, Inc. Προγραμματισμός Η / Υ 6 η Διάλεξη.
Δομές Δεδομένων - Ισοζυγισμένα Δυαδικά Δένδρα (balanced binary trees)
1 Μελέτη κανόνων συμμετοχής σε ομότιμα δίκτυα επικοινωνίας μέσω προσομοίωσης Φοιτητής : Χρήστος Ι. Καρατζάς Επιβλέποντες Καθηγητές : Γ. Πολύζος – Κ. Κουρκουμπέτης.
+19 Δεκέμβριος 2014 Δείκτης > +20 Δείκτης 0 έως +20 Δείκτης 0 έως -20 Δείκτης < -20 Συνολικά της ΕΕ: +5 Δείκτης > +20 Δείκτης 0 έως +20 Δείκτης 0 έως -20.
Αγγελική Γεωργιάδου- Αναστασία Πεκτέσογλου Δράμα 2006
Μεταγράφημα παρουσίασης:

Γλωσσική Τεχνολογία Μάθημα 4 ο Επεξεργασία Κειμένου και Δεικτοδότηση Σοφία Στάμου Άκ.Έτος

27/3/2015 Γλωσσική Τεχνολογία2 Επιλέγοντας τις λέξεις-κλειδιά Βήματα επεξεργασίας κειμένου: 1. Αναγνώριση προτάσεων και λέξεων 2. Μορφοσυντακτική ανάλυση 3. Απαλοιφή τερματικών όρων 4. Μετρική βαθμολόγησης σπουδαιότητας 5. Επιλογή σημαντικών όρων

27/3/2015 Γλωσσική Τεχνολογία3 Μορφοσυντακτική ανάλυση Κρυφά Μοντέλα Markov Νευρωνικά Δίκτυα Μετασχηματιστικοί Κανόνες Δέντρα Απόφασης Μοντέλα Μέγιστης Εντροπίας

27/3/2015 Γλωσσική Τεχνολογία4 Μορφοσυντακτική ανάλυση Κρυφά Μοντέλα Markov Νευρωνικά Δίκτυα Μετασχηματιστικοί Κανόνες Δέντρα Απόφασης Μοντέλα Μέγιστης Εντροπίας

27/3/2015 Γλωσσική Τεχνολογία5 Δέντρα Απόφασης

27/3/2015 Γλωσσική Τεχνολογία6 Δέντρα Απόφασης Ισοδυναμούν με τους μετασχηματιστικούς κανόνες του Brill... όμως Ένα δέντρο απόφασης δεν είναι απλά ένα σύνολο κανόνων, είναι ένα βέλτιστα οργανωμένο σύνολο κανόνων

27/3/2015 Γλωσσική Τεχνολογία7 Γενικευμένα Δέντρα Απόφασης

27/3/2015 Γλωσσική Τεχνολογία8 Δυαδικά Δέντρα Απόφασης

27/3/2015 Γλωσσική Τεχνολογία9 Γενικευμένα vs. Δυαδικά Δέντρα Γενικευμένα: κάθε κόμβος κάνει μια ερώτηση που μπορεί να επιδέχεται παραπάνω από δύο απαντήσεις Δυαδικά: κάθε κόμβος κάνει μια ερώτηση που επιδέχεται ακριβώς δύο απαντήσεις: ΝΑΙ ή ΟΧΙ... όμως Κάθε γενικευμένο δέντρο έχει ένα ή περισσότερα ισοδύναμα δυαδικά δέντρα

27/3/2015 Γλωσσική Τεχνολογία10 Δέντρα Απόφασης – Μοντέλο για την Ελληνική Χαρακτηριστικά μορφοσυντακτικού σχολιασμού

27/3/2015 Γλωσσική Τεχνολογία11 Αποσαφήνιση – Μοντέλο για την Ελληνική Κάθε μορφοσυντακτική ετικέτα ορίζει μια κατηγορία Μορφοσυντακτική αποσαφήνιση:  επιλογή μεταξύ ετικετών επιλογή μεταξύ διαφορετικών τιμών στις ετικέτες

27/3/2015 Γλωσσική Τεχνολογία12 Ασάφεια – Μοντέλο για την Ελληνική 1) Εντοπισμός ομοειδών ετικετών (κοινό ΜτΛ) αν είναι > 1 τότε Ασάφεια ΜτΛ αν είναι = 1 τότε Ασάφεια Γένους, ή Ασάφεια Πτώσης 2) Σύγκριση μορφοσυντακτικών χαρακτηριστικών στις ετικέτες & εντοπισμός αυτών που παρουσιάζουν ασάφεια Το πρόβλημα της μορφοσυντακτικής αποσαφήνισης για τη Νέα Ελληνική ανάγεται σε πρόβλημα μιας ακολουθίας κατηγοριοποιήσεων

27/3/2015 Γλωσσική Τεχνολογία13 Ακολουθία Κατηγοριοποιήσεων

27/3/2015 Γλωσσική Τεχνολογία14 Ασάφεια - Παράδειγμα [κλειδώσεις] Ομάδες ετικετών Α΄ Ομάδα Ουσ(ΘηλΠληΟνο) Ουσ(ΘηλΠληΑιτ) Ομοειδείς ετικέτες Ουσ(ΘηλΠληΚλτ) Β΄ Ομάδα Ρήμ(ΕνεΑόρΥποΕνιΒ')

27/3/2015 Γλωσσική Τεχνολογία15 Πλεονεκτήματα Δέντρων Απόφασης Φυσικός και κατανοητός τρόπος αναπαράστασης της γνώσης για αποσαφήνιση Παράγεται αυτόματα εκτελέσιμος κώδικας εφόσον κάθε δέντρο μεταφράζεται σε μια ακολουθία if-then-else εντολών Παραδοσιακό μοντέλο μηχανικής μάθησης

27/3/2015 Γλωσσική Τεχνολογία16 Επαγωγή Δέντρων Απόφασης Ο βασικός αλγόριθμος ID3 αλγόριθμος Κατασκευάζει ένα δέντρο απόφασης από ένα σύνολο δειγμάτων εκπαίδευσης Δείγμα εκπαίδευσης Τ Περιγράφεται από ένα σύνολο χαρακτηριστικών FS = {F 1, F 2, F 3,… F |FS| } Ανήκει σε μια κατηγορία c C = {c 1, c 2, c 3,… c |C| } Τ =

Επαγωγή Δέντρων Απόφασης – ID3 Γενική Ιδέα του ID3: Για όλες τις αχρησιμοποίητα χαρακτηριστικά υπολόγισε την εντροπία σε σχέση με τα δείγματα. Διάλεξε το χαρακτηριστικό που παρουσιάζει την ελάχιστη εντροπία (ή μέγιστο κέρδος πληροφορίας) Φτιάξε κόμβο γι’ αυτό το χαρακτηριστικό Ο αλγόριθμος βασίζεται στις έννοιες: εντροπία πληροφορίας (information entropy) κέρδος πληροφορίας (information gain) 27/3/2015 Γλωσσική Τεχνολογία17

Εντροπία Πληροφορίας (Information Entropy) Έστω S ένα σύνολο δεδομένων Εντροπία Πληροφορίας Χαρακτηρίζει το βαθμό αβεβαιότητας όπου p 1,p 2,…p i οι πιθανότητες του κάθε ενδεχομένου που περιλαμβάνεται στο σύνολο πχ. έστω δοχείο με N μπάλες: N*p λευκές και N(1-p) μαύρες Αν όλες μαύρες ή όλες άσπρες => Εντροπία=0 Αν p=50% => Εντροπία=1 (μέγιστη) 27/3/2015 Γλωσσική Τεχνολογία18

Πληροφοριακό Κέρδος (Information Gain) Έστω χαρακτηριστικό Α σε ένα S σύνολο δεδομένων Κέρδος Πληροφορίας Χαρακτηρίζει το πόση πληροφορία «φέρει» ένα χαρακτηριστικό όπου  E(...) η συνάρτηση εντροπίας  m το πλήθος των τιμών που παίρνει το A στο S  f(Αi) το ποσοστό των αντικειμένων στο S που παίρνουν την τιμή A i  S Ai το υποσύνολο του S όπου η τιμή του Α είναι Α i 27/3/2015 Γλωσσική Τεχνολογία19

27/3/2015 Γλωσσική Τεχνολογία20 Επαγωγή Δέντρων Απόφασης Ο βασικός αλγόριθμος ID 3 Δείγμα εκπαίδευσης Τ Περιγράφεται από ένα σύνολο χαρακτηριστικών FS = {F 1, F 2, F 3,… F |FS| } Ανήκει σε μια κατηγορία c C = {c 1, c 2, c 3,… c |C| } Τ =

27/3/2015 Γλωσσική Τεχνολογία21 Επαγωγή Δέντρων Απόφασης TS δείγματα εκπαίδευσης Αν όλα τα TS ανήκουν στην ίδια κατηγορία c τότε το δέντρο απόφασης του TS είναι φύλλο που αντιστοιχεί στην κατηγορία c

27/3/2015 Γλωσσική Τεχνολογία22 Επαγωγή Δέντρων Απόφασης Αλλιώς Αν τα TS ανήκουν σε διαφορετικές κατηγορίες από το σύνολο FS των χαρακτηριστικών του TS έστω F i χαρακτηριστικό με το μέγιστο πληροφοριακό κέρδος και τιμές

27/3/2015 Γλωσσική Τεχνολογία23 Επαγωγή Δέντρων Απόφασης οι τιμές v 1, v 2, v 3, … v n διαμερίζουν το σύνολο TS σε υποσύνολα TS 1, TS 2, TS 3,… TS n (π.χ. TS j = τα δείγματα του TS όπου F i = v j ) τότε το δέντρο απόφασης για το TS είναι ο κόμβος που εξετάζει το F i και κάτω από τον κόμβο αυτό θα κατασκευαστούν n υποδέντρα, ένα για κάθε τιμή v 1, v 2, v 3, … v n

27/3/2015 Γλωσσική Τεχνολογία24 Επαγωγή Δέντρων Απόφασης Σε κάθε υποδέντρο κατανέμονται τα υποσύνολα TS 1, TS 2, TS 3,… TS n Για κάθε TS j υποσύνολο Αν όλα τα δείγματα έχουν την ίδια κατηγορία τότε κατασκεύασε ένα φύλλο για το TS j που αντιστοιχεί στην κατηγορία αυτή

27/3/2015 Γλωσσική Τεχνολογία25 Επαγωγή Δέντρων Απόφασης Αλλιώς κατασκευάζεται ένας κόμβος για το TS j που εξετάζει ένα άλλο χαρακτηριστικό από το σύνολο FS΄=FS-{F i } Αν FS΄ είναι κενό τότε κατασκευάζεται φύλλο για το TS j που αντιστοιχεί στην πιο κοινή κατηγορία των δειγμάτων του TS j

27/3/2015 Γλωσσική Τεχνολογία26 Επαγωγή Δέντρων Απόφασης

ID3 - Παράδειγμα Θέλουμε δέντρο απόφασης για διάρκεια άθλησης στην ύπαιθρο ανάλογα με τον καιρό. Χαρακτηριστικά (FS): ουρανός = {καθαρός, συννεφιά, βροχή} θερμοκρασία = {υψηλή,μέτρια,χαμηλή} υγρασία = {υψηλή, κανονική} άνεμος = {δυνατός, αδύναμος} Κατηγορίες (C): διάρκεια άθλησης = {μικρή,κανονική,καμία} 27/3/2015 Γλωσσική Τεχνολογία27

Δείγμα ΟυρανόςΘερμοκρασίαΥγρασίαΆνεμοςΔιάρκεια Τ1Τ1καθαρόςυψηλή αδύναμοςμικρή Τ2Τ2καθαρόςυψηλή δυνατόςμικρή Τ3Τ3συννεφιάυψηλή αδύναμοςκανονική Τ4Τ4βροχήμέτριαυψηλήαδύναμοςκαμία Τ5Τ5βροχήχαμηλήκανονικήαδύναμοςκαμία Τ6Τ6βροχήχαμηλήκανονικήδυνατόςκαμία Τ7Τ7συννεφιάχαμηλήκανονικήδυνατόςκανονική Τ8Τ8καθαρόςμέτριαυψηλήαδύναμοςμικρή Τ9Τ9καθαρόςχαμηλήκανονικήαδύναμοςκανονική Τ10βροχήμέτριακανονικήδυνατόςκαμία Τ11καθαρόςμέτριακανονικήδυνατόςκανονική Τ12συννεφιάμέτριαυψηλήαδύναμοςκανονική Τ13συννεφιάυψηλήκανονικήαδύναμοςκανονική Τ14βροχήμέτριαυψηλήδυνατόςκαμία 27/3/2015 Γλωσσική Τεχνολογία28 ΔΕΙΓΜΑΤΑ (TS)

ID3 - Παράδειγμα Παραδείγματα υπολογισμών τιμών: Εντροπία του συνόλου δεδομένων: όπου 3/14: η πιθανότητα να είναι η διάρκεια μικρή 6/14: η πιθανότητα να είναι κανονική 5/14: η πιθανότητα να είναι μηδενική 27/3/2015 Γλωσσική Τεχνολογία29

ID3 - Παράδειγμα Παραδείγματα υπολογισμών τιμών: Εντροπία του χαρακτηριστικού «Ουρανός» όπου:  5/14: το ποσοστό των τιμών «καθαρό» στο S  4/14: το ποσοστό των τιμών «συννεφιά» στο S  5/14: το ποσοστό των τιμών «βροχή» στο S 27/3/2015 Γλωσσική Τεχνολογία30

ID3 - Παράδειγμα Παραδείγματα υπολογισμών τιμών: Εντροπία της τιμής «καθαρός» του χαρακτηριστικού «Ουρανός» όπου: 3/5: πιθανότητα όταν η τιμή είναι «καθαρός» η διάρκεια να είναι μικρή 2/5: πιθανότητα η διάρκεια να είναι κανονική 0: η πιθανότητα η διάρκεια να είναι μηδενική Κέρδος πληροφορίας χαρακτηριστικού «Ουρανός» 27/3/2015 Γλωσσική Τεχνολογία31

ID3 - Παράδειγμα 1. Με χρήση των παραπάνω τύπων υπολογίζουμε: Gain(Ουρανός)= Gain(Θερμοκρασία)= Gain(Υγρασία)= Gain(Άνεμος)= Το χαρακτηριστικό «Ουρανός» με το μεγαλύτερο κέρδος ανατίθεται σε κόμβο 3. Αφαιρούμε από το σύνολο των χαρακτηριστικών το συγκεκριμένο => FS΄={Θερμοκρασία,Υγρασία,Άνεμος} 4. για κάθε τιμή του: τρέχουμε τον αλγόριθμο για τα υποπροβλήματα που δημιουργούνται λαμβάνοντας υπόψη το υποσύλο του S για το οποίο έχει τη συγκεκριμένη τιμή: για «καθαρός»: ΤS΄={Τ1,Τ2,Τ8,Τ9,Τ11} για «συννεφιά»: ΤS΄={Τ3,Τ7,Τ12,Τ13} για «βροχή»: ΤS΄={Τ4,Τ5,Τ6,Τ10,Τ14} 27/3/2015 Γλωσσική Τεχνολογία32

27/3/2015 Γλωσσική Τεχνολογία33 Στο επόμενο μάθημα.... Αξιολόγηση πληρότητας και ποιότητας ευρετηρίου

27/3/2015 Γλωσσική Τεχνολογία