Η παρουσίαση φορτώνεται. Παρακαλείστε να περιμένετε

Η παρουσίαση φορτώνεται. Παρακαλείστε να περιμένετε

Γλωσσική Τεχνολογία Μάθημα 4 ο Επεξεργασία Κειμένου και Δεικτοδότηση Σοφία Στάμου Άκ.Έτος 2009-10.

Παρόμοιες παρουσιάσεις


Παρουσίαση με θέμα: "Γλωσσική Τεχνολογία Μάθημα 4 ο Επεξεργασία Κειμένου και Δεικτοδότηση Σοφία Στάμου Άκ.Έτος 2009-10."— Μεταγράφημα παρουσίασης:

1 Γλωσσική Τεχνολογία Μάθημα 4 ο Επεξεργασία Κειμένου και Δεικτοδότηση Σοφία Στάμου Άκ.Έτος 2009-10

2 27/3/2015 Γλωσσική Τεχνολογία2 Επιλέγοντας τις λέξεις-κλειδιά Βήματα επεξεργασίας κειμένου: 1. Αναγνώριση προτάσεων και λέξεων 2. Μορφοσυντακτική ανάλυση 3. Απαλοιφή τερματικών όρων 4. Μετρική βαθμολόγησης σπουδαιότητας 5. Επιλογή σημαντικών όρων

3 27/3/2015 Γλωσσική Τεχνολογία3 Μορφοσυντακτική ανάλυση Κρυφά Μοντέλα Markov Νευρωνικά Δίκτυα Μετασχηματιστικοί Κανόνες Δέντρα Απόφασης Μοντέλα Μέγιστης Εντροπίας

4 27/3/2015 Γλωσσική Τεχνολογία4 Μορφοσυντακτική ανάλυση Κρυφά Μοντέλα Markov Νευρωνικά Δίκτυα Μετασχηματιστικοί Κανόνες Δέντρα Απόφασης Μοντέλα Μέγιστης Εντροπίας

5 27/3/2015 Γλωσσική Τεχνολογία5 Δέντρα Απόφασης

6 27/3/2015 Γλωσσική Τεχνολογία6 Δέντρα Απόφασης Ισοδυναμούν με τους μετασχηματιστικούς κανόνες του Brill... όμως Ένα δέντρο απόφασης δεν είναι απλά ένα σύνολο κανόνων, είναι ένα βέλτιστα οργανωμένο σύνολο κανόνων

7 27/3/2015 Γλωσσική Τεχνολογία7 Γενικευμένα Δέντρα Απόφασης

8 27/3/2015 Γλωσσική Τεχνολογία8 Δυαδικά Δέντρα Απόφασης

9 27/3/2015 Γλωσσική Τεχνολογία9 Γενικευμένα vs. Δυαδικά Δέντρα Γενικευμένα: κάθε κόμβος κάνει μια ερώτηση που μπορεί να επιδέχεται παραπάνω από δύο απαντήσεις Δυαδικά: κάθε κόμβος κάνει μια ερώτηση που επιδέχεται ακριβώς δύο απαντήσεις: ΝΑΙ ή ΟΧΙ... όμως Κάθε γενικευμένο δέντρο έχει ένα ή περισσότερα ισοδύναμα δυαδικά δέντρα

10 27/3/2015 Γλωσσική Τεχνολογία10 Δέντρα Απόφασης – Μοντέλο για την Ελληνική Χαρακτηριστικά μορφοσυντακτικού σχολιασμού

11 27/3/2015 Γλωσσική Τεχνολογία11 Αποσαφήνιση – Μοντέλο για την Ελληνική Κάθε μορφοσυντακτική ετικέτα ορίζει μια κατηγορία Μορφοσυντακτική αποσαφήνιση:  επιλογή μεταξύ ετικετών επιλογή μεταξύ διαφορετικών τιμών στις ετικέτες

12 27/3/2015 Γλωσσική Τεχνολογία12 Ασάφεια – Μοντέλο για την Ελληνική 1) Εντοπισμός ομοειδών ετικετών (κοινό ΜτΛ) αν είναι > 1 τότε Ασάφεια ΜτΛ αν είναι = 1 τότε Ασάφεια Γένους, ή Ασάφεια Πτώσης 2) Σύγκριση μορφοσυντακτικών χαρακτηριστικών στις ετικέτες & εντοπισμός αυτών που παρουσιάζουν ασάφεια Το πρόβλημα της μορφοσυντακτικής αποσαφήνισης για τη Νέα Ελληνική ανάγεται σε πρόβλημα μιας ακολουθίας κατηγοριοποιήσεων

13 27/3/2015 Γλωσσική Τεχνολογία13 Ακολουθία Κατηγοριοποιήσεων

14 27/3/2015 Γλωσσική Τεχνολογία14 Ασάφεια - Παράδειγμα [κλειδώσεις] Ομάδες ετικετών Α΄ Ομάδα Ουσ(ΘηλΠληΟνο) Ουσ(ΘηλΠληΑιτ) Ομοειδείς ετικέτες Ουσ(ΘηλΠληΚλτ) Β΄ Ομάδα Ρήμ(ΕνεΑόρΥποΕνιΒ')

15 27/3/2015 Γλωσσική Τεχνολογία15 Πλεονεκτήματα Δέντρων Απόφασης Φυσικός και κατανοητός τρόπος αναπαράστασης της γνώσης για αποσαφήνιση Παράγεται αυτόματα εκτελέσιμος κώδικας εφόσον κάθε δέντρο μεταφράζεται σε μια ακολουθία if-then-else εντολών Παραδοσιακό μοντέλο μηχανικής μάθησης

16 27/3/2015 Γλωσσική Τεχνολογία16 Επαγωγή Δέντρων Απόφασης Ο βασικός αλγόριθμος ID3 αλγόριθμος Κατασκευάζει ένα δέντρο απόφασης από ένα σύνολο δειγμάτων εκπαίδευσης Δείγμα εκπαίδευσης Τ Περιγράφεται από ένα σύνολο χαρακτηριστικών FS = {F 1, F 2, F 3,… F |FS| } Ανήκει σε μια κατηγορία c C = {c 1, c 2, c 3,… c |C| } Τ =

17 Επαγωγή Δέντρων Απόφασης – ID3 Γενική Ιδέα του ID3: Για όλες τις αχρησιμοποίητα χαρακτηριστικά υπολόγισε την εντροπία σε σχέση με τα δείγματα. Διάλεξε το χαρακτηριστικό που παρουσιάζει την ελάχιστη εντροπία (ή μέγιστο κέρδος πληροφορίας) Φτιάξε κόμβο γι’ αυτό το χαρακτηριστικό Ο αλγόριθμος βασίζεται στις έννοιες: εντροπία πληροφορίας (information entropy) κέρδος πληροφορίας (information gain) 27/3/2015 Γλωσσική Τεχνολογία17

18 Εντροπία Πληροφορίας (Information Entropy) Έστω S ένα σύνολο δεδομένων Εντροπία Πληροφορίας Χαρακτηρίζει το βαθμό αβεβαιότητας όπου p 1,p 2,…p i οι πιθανότητες του κάθε ενδεχομένου που περιλαμβάνεται στο σύνολο πχ. έστω δοχείο με N μπάλες: N*p λευκές και N(1-p) μαύρες Αν όλες μαύρες ή όλες άσπρες => Εντροπία=0 Αν p=50% => Εντροπία=1 (μέγιστη) 27/3/2015 Γλωσσική Τεχνολογία18

19 Πληροφοριακό Κέρδος (Information Gain) Έστω χαρακτηριστικό Α σε ένα S σύνολο δεδομένων Κέρδος Πληροφορίας Χαρακτηρίζει το πόση πληροφορία «φέρει» ένα χαρακτηριστικό όπου  E(...) η συνάρτηση εντροπίας  m το πλήθος των τιμών που παίρνει το A στο S  f(Αi) το ποσοστό των αντικειμένων στο S που παίρνουν την τιμή A i  S Ai το υποσύνολο του S όπου η τιμή του Α είναι Α i 27/3/2015 Γλωσσική Τεχνολογία19

20 27/3/2015 Γλωσσική Τεχνολογία20 Επαγωγή Δέντρων Απόφασης Ο βασικός αλγόριθμος ID 3 Δείγμα εκπαίδευσης Τ Περιγράφεται από ένα σύνολο χαρακτηριστικών FS = {F 1, F 2, F 3,… F |FS| } Ανήκει σε μια κατηγορία c C = {c 1, c 2, c 3,… c |C| } Τ =

21 27/3/2015 Γλωσσική Τεχνολογία21 Επαγωγή Δέντρων Απόφασης TS δείγματα εκπαίδευσης Αν όλα τα TS ανήκουν στην ίδια κατηγορία c τότε το δέντρο απόφασης του TS είναι φύλλο που αντιστοιχεί στην κατηγορία c

22 27/3/2015 Γλωσσική Τεχνολογία22 Επαγωγή Δέντρων Απόφασης Αλλιώς Αν τα TS ανήκουν σε διαφορετικές κατηγορίες από το σύνολο FS των χαρακτηριστικών του TS έστω F i χαρακτηριστικό με το μέγιστο πληροφοριακό κέρδος και τιμές

23 27/3/2015 Γλωσσική Τεχνολογία23 Επαγωγή Δέντρων Απόφασης οι τιμές v 1, v 2, v 3, … v n διαμερίζουν το σύνολο TS σε υποσύνολα TS 1, TS 2, TS 3,… TS n (π.χ. TS j = τα δείγματα του TS όπου F i = v j ) τότε το δέντρο απόφασης για το TS είναι ο κόμβος που εξετάζει το F i και κάτω από τον κόμβο αυτό θα κατασκευαστούν n υποδέντρα, ένα για κάθε τιμή v 1, v 2, v 3, … v n

24 27/3/2015 Γλωσσική Τεχνολογία24 Επαγωγή Δέντρων Απόφασης Σε κάθε υποδέντρο κατανέμονται τα υποσύνολα TS 1, TS 2, TS 3,… TS n Για κάθε TS j υποσύνολο Αν όλα τα δείγματα έχουν την ίδια κατηγορία τότε κατασκεύασε ένα φύλλο για το TS j που αντιστοιχεί στην κατηγορία αυτή

25 27/3/2015 Γλωσσική Τεχνολογία25 Επαγωγή Δέντρων Απόφασης Αλλιώς κατασκευάζεται ένας κόμβος για το TS j που εξετάζει ένα άλλο χαρακτηριστικό από το σύνολο FS΄=FS-{F i } Αν FS΄ είναι κενό τότε κατασκευάζεται φύλλο για το TS j που αντιστοιχεί στην πιο κοινή κατηγορία των δειγμάτων του TS j

26 27/3/2015 Γλωσσική Τεχνολογία26 Επαγωγή Δέντρων Απόφασης

27 ID3 - Παράδειγμα Θέλουμε δέντρο απόφασης για διάρκεια άθλησης στην ύπαιθρο ανάλογα με τον καιρό. Χαρακτηριστικά (FS): ουρανός = {καθαρός, συννεφιά, βροχή} θερμοκρασία = {υψηλή,μέτρια,χαμηλή} υγρασία = {υψηλή, κανονική} άνεμος = {δυνατός, αδύναμος} Κατηγορίες (C): διάρκεια άθλησης = {μικρή,κανονική,καμία} 27/3/2015 Γλωσσική Τεχνολογία27

28 Δείγμα ΟυρανόςΘερμοκρασίαΥγρασίαΆνεμοςΔιάρκεια Τ1Τ1καθαρόςυψηλή αδύναμοςμικρή Τ2Τ2καθαρόςυψηλή δυνατόςμικρή Τ3Τ3συννεφιάυψηλή αδύναμοςκανονική Τ4Τ4βροχήμέτριαυψηλήαδύναμοςκαμία Τ5Τ5βροχήχαμηλήκανονικήαδύναμοςκαμία Τ6Τ6βροχήχαμηλήκανονικήδυνατόςκαμία Τ7Τ7συννεφιάχαμηλήκανονικήδυνατόςκανονική Τ8Τ8καθαρόςμέτριαυψηλήαδύναμοςμικρή Τ9Τ9καθαρόςχαμηλήκανονικήαδύναμοςκανονική Τ10βροχήμέτριακανονικήδυνατόςκαμία Τ11καθαρόςμέτριακανονικήδυνατόςκανονική Τ12συννεφιάμέτριαυψηλήαδύναμοςκανονική Τ13συννεφιάυψηλήκανονικήαδύναμοςκανονική Τ14βροχήμέτριαυψηλήδυνατόςκαμία 27/3/2015 Γλωσσική Τεχνολογία28 ΔΕΙΓΜΑΤΑ (TS)

29 ID3 - Παράδειγμα Παραδείγματα υπολογισμών τιμών: Εντροπία του συνόλου δεδομένων: όπου 3/14: η πιθανότητα να είναι η διάρκεια μικρή 6/14: η πιθανότητα να είναι κανονική 5/14: η πιθανότητα να είναι μηδενική 27/3/2015 Γλωσσική Τεχνολογία29

30 ID3 - Παράδειγμα Παραδείγματα υπολογισμών τιμών: Εντροπία του χαρακτηριστικού «Ουρανός» όπου:  5/14: το ποσοστό των τιμών «καθαρό» στο S  4/14: το ποσοστό των τιμών «συννεφιά» στο S  5/14: το ποσοστό των τιμών «βροχή» στο S 27/3/2015 Γλωσσική Τεχνολογία30

31 ID3 - Παράδειγμα Παραδείγματα υπολογισμών τιμών: Εντροπία της τιμής «καθαρός» του χαρακτηριστικού «Ουρανός» όπου: 3/5: πιθανότητα όταν η τιμή είναι «καθαρός» η διάρκεια να είναι μικρή 2/5: πιθανότητα η διάρκεια να είναι κανονική 0: η πιθανότητα η διάρκεια να είναι μηδενική Κέρδος πληροφορίας χαρακτηριστικού «Ουρανός» 27/3/2015 Γλωσσική Τεχνολογία31

32 ID3 - Παράδειγμα 1. Με χρήση των παραπάνω τύπων υπολογίζουμε: Gain(Ουρανός)=1.183851 Gain(Θερμοκρασία)=0.333841 Gain(Υγρασία)=0.259677 Gain(Άνεμος)=0.04812703 2. Το χαρακτηριστικό «Ουρανός» με το μεγαλύτερο κέρδος ανατίθεται σε κόμβο 3. Αφαιρούμε από το σύνολο των χαρακτηριστικών το συγκεκριμένο => FS΄={Θερμοκρασία,Υγρασία,Άνεμος} 4. για κάθε τιμή του: τρέχουμε τον αλγόριθμο για τα υποπροβλήματα που δημιουργούνται λαμβάνοντας υπόψη το υποσύλο του S για το οποίο έχει τη συγκεκριμένη τιμή: για «καθαρός»: ΤS΄={Τ1,Τ2,Τ8,Τ9,Τ11} για «συννεφιά»: ΤS΄={Τ3,Τ7,Τ12,Τ13} για «βροχή»: ΤS΄={Τ4,Τ5,Τ6,Τ10,Τ14} 27/3/2015 Γλωσσική Τεχνολογία32

33 27/3/2015 Γλωσσική Τεχνολογία33 Στο επόμενο μάθημα.... Αξιολόγηση πληρότητας και ποιότητας ευρετηρίου

34 27/3/2015 Γλωσσική Τεχνολογία34..... http://www.dblab.upatras.gr/gr/GlwssikiTexnologia.html


Κατέβασμα ppt "Γλωσσική Τεχνολογία Μάθημα 4 ο Επεξεργασία Κειμένου και Δεικτοδότηση Σοφία Στάμου Άκ.Έτος 2009-10."

Παρόμοιες παρουσιάσεις


Διαφημίσεις Google