Η παρουσίαση φορτώνεται. Παρακαλείστε να περιμένετε

Η παρουσίαση φορτώνεται. Παρακαλείστε να περιμένετε

ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΑΤΡΩΝ ΠΑΙΔΑΓΩΓΙΚΟ ΤΜΗΜΑ ΔΗΜΟΤΙΚΗΣ ΕΚΠΑΙΔΕΥΣΗΣ

Παρόμοιες παρουσιάσεις


Παρουσίαση με θέμα: "ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΑΤΡΩΝ ΠΑΙΔΑΓΩΓΙΚΟ ΤΜΗΜΑ ΔΗΜΟΤΙΚΗΣ ΕΚΠΑΙΔΕΥΣΗΣ"— Μεταγράφημα παρουσίασης:

1 ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΑΤΡΩΝ ΠΑΙΔΑΓΩΓΙΚΟ ΤΜΗΜΑ ΔΗΜΟΤΙΚΗΣ ΕΚΠΑΙΔΕΥΣΗΣ
ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΑΤΡΩΝ ΠΑΙΔΑΓΩΓΙΚΟ ΤΜΗΜΑ ΔΗΜΟΤΙΚΗΣ ΕΚΠΑΙΔΕΥΣΗΣ Σχεδιασμός, κατασκευή και αξιολόγηση του ελληνικού γραμματικού διορθωτή ΣΕΜΙΝΑΡΙΟ ΓΛΩΣΣΟΛΟΓΙΑΣ Πάτρα, Μάρτιος 2015 Π. Γάκης

2 Δομή Παρουσίασης Αντικείμενο έρευνας - Θεωρητικό πλαίσιο
Ιδιαιτερότητες της Ν. Ελληνικής Γλώσσας Σχεδιασμός - υλοποίηση εφαρμογής Αξιολόγηση εφαρμογής Συμπεράσματα

3 ΥΠΟΛΟΓΙΣΤΙΚΗ ΓΛΩΣΣΟΛΟΓΙΑ
Επεξεργασία Φυσικής Γλώσσας Διόρθωση ορθογραφίας, εύρεση πληροφορίας, μηχανική ή αυτόματη μετάφραση, έλεγχος γραμματικής. Αναγνώριση Φωνής Στατιστική επεξεργασία σήματος, κατανόηση φυσικής γλώσσας, νευρωνικά συστήματα, αναγνώριση προτύπων, φωνολογία.

4 ΥΠΑΡΧΟΝΤΑ ΛΟΓΙΣΜΙΚΑ Ορθογράφος Θησαυρός Συλλαβιστής
Υπολογιστικά Λεξικά

5 ΙΔΙΑΙΤΕΡΟΤΗΤΕΣ Ν. ΕΛΛΗΝΙΚΗΣ ΓΛΩΣΣΑΣ
Σημασιολογική Συντακτική Λεξική Ασάφεια κοινοί ορθογραφικοί τύποι > διαφορετικά λήμματα Κοινοί ορθογραφικοί τύποι: (διαφορετικά μορφοσυντακτικά χαρακτηριστικά) Ασάφεια & Η/Υ

6 Ουσιαστικό – ουσιαστικό
1) Λεξική Ασάφεια Προβλέψιμη επίθετο – ουσιαστικό 35.55% (32926 κλ. τύποι) Επίθετο - επίρρημα 25.5% (23659 κλ. τύποι) Ουσιαστικό – ουσιαστικό 10.79% (9992 κλ. τύποι) Επίθετο – ρήμα 9.85% (9127 κλ. τύποι) Ουσιαστικό – ρήμα 8.73% (8084 κλ. τύποι) Αντωνυμία – άρθρο 4.46% Ρήμα – ρήμα 3.35% (3103 τύποι) Επίθετο - επίθετο 1.7% (1576 κλ. τύποι) Συμπτωματική

7 2) «Ελευθερία» Μετακίνησης όρων
Ο Γιώργος αγαπά τη Μαρία Αντικείμενο Υποκείμενο Ρήμα

8 ΣΧΕΔΙΑΣΜΟΣ ΕΦΑΡΜΟΓΗΣ ζητήματα κλίσης θέματα τονισμού και στίξης
ζητήματα συμφωνίας ζητήματα καθιερωμένης γραφής υφολογικά ζητήματα ζητήματα ορθογραφικής σύγχυσης ζητήματα σύνταξης ρημάτων τελικό -ν ζητήματα λεξιλογίου ζητήματα κλίσης περιπτώσεις ορθογραφικών λαθών

9 Ηλεκτρονικό λεξικό Neurolingo
λήμματα κλιτικοί τύποι ορθογραφική πληροφορία μορφηματική πληροφορία υφολογική πληροφορία Μορφοσυντακτική πληροφορία Ορολογική πληροφορία

10 Αρχιτεκτονική λεξικού
Μορφολογικά attributes (domain & style attributes) 1ο επίπεδο Μορφολογία 2ο επίπεδο Attribute sets 3ο επίπεδο Τόνος Καταλήξεις Κλίση Τονισμός 4ο επίπεδο Κανόνες τονισμού 5ο επίπεδο Γραμματικοί κανόνες Grammar

11 LexEdit

12 Τυποποίηση λαθών - Σχεδιότυπα
specialized corpus εντοπισμός προβληματικών τύπων καθιερωμένη νόρμα διατήρηση προσωπικού ύφους – έκφρασης υποδείξεις «ορθής» γραφής επεξήγηση λάθους

13 ΚΑΤΗΓΟΡΙΕΣ ΛΑΘΩΝ ΣΤΙΞΗ - ΤΟΝΙΣΜΟΣ

14 ΤΥΠΟΠΟΙΗΣΗ ΓΡΑΦΗΣ

15 ΜΟΡΦΟΛΟΓΙΑ

16 ΥΦΟΛΟΓΙΑ

17 ΣΗΜΑΣΙΟΛΟΓΙΑ

18 ΣΥΜΦΩΝΙΑ

19 ΣΥΝΤΑΞΗ

20 ΥΛΟΠΟΙΗΣΗ ΕΦΑΡΜΟΓΗΣ Γραμματικές υλοποίησης (Chomsky) Regular
Context-sensitive Context-free Unrestricted Regular

21 Context-free γραμματικές
ΟΝΟΜΑΤΙΚΗ ΦΡΑΣΗ ΑΡΘΡΟ ΕΠΙΘΕΤΟ ΟΥΣΙΑΣΤΙΚΟ Ο καλός μαθητής Γραμματική Ελληνικής Γλώσσας Α Β 1 # Context-free γραμματική

22 Context-sensitive γραμματικές
Οι κανόνες έχουν τη μορφή: αΑβ→ αγβ (α,β,γ): ακολουθίες τερματικών και μη τερματικών συμβόλων.

23 Mnemosyne σύστημα επεξεργασίας φυσικής γλώσσας για ανάκτηση δομημένης πληροφορίας ενσωματώνει δεδομένα γλωσσολογικής πληροφορίας έχει χρησιμοποιηθεί ήδη σε περιβάλλοντα με μεγάλης ποσότητας στοιχεία

24 Γραμματικός έλεγχος (κανόνες)
Λάθους (error) Πληροφορίας (info) Επισήμανσης (warning)

25 «Αρχιτεκτονική» Mnemosyne
κείμενο Χωρισμός παραγρά-φων Χωρισμός προτά-σεων Μορφολ. χαρακτη-ρισμός Tokeni-zer Compedi-um analyzer Κανόνες 1ου επιπέδου Κανόνες 2ου επιπέδου Κανόνες 3ου επιπέδου Κανόνες grammar checker Μορφολο-γικό λεξικό XML Ddumper tagger

26 Χωρισμός προτάσεων - Tokenizer
<analysisname="sentence"> <spanlength="23" offset="0"> <contents>ο κ. Νίκος ήρθε σήμερα.</contents> <annotations> <tagname="FPARSEN" class="class java.lang.String">true</tag> <tagname="SSEQNO" class="class java.lang.String">0</tag> </annotations></span>

27 Μορφολογικός χαρακτηρισμός
<spanlength="3" offset="3"> <contents>του</contents> <annotations> <tagname="LEXY"class="classjava.lang.String">{αυτός,GEN+MASC+PRON+SING,}{αυτός,GE N+NEUT+PRON+SING,}{ο,ART+GEN+MASC+NEUT+SING,}</tag> <tagname="TTEXT" class="class java.lang.String">του</tag> <tagname="ORTHO"class="classjava.lang.String">NrWrd+WthLtrs+FconWrd+Style1</tag> </annotations></span> <spanlength="10" offset="7"> <contents>απαντήσεις</contents> <tagname="LEXY"class="classjava.lang.String">{απάντηση,ACC+FEM+N+NOM+PLUR+VOC,} {απαντάω,ACT+AOR+B_P+SING+SUBJ+V,}</tag> <tagname="TTEXT" class="class java.lang.String">απαντήσεις</tag> <tagname="ORTHO"class="classjava.lang.String">NrWrd+WthLtrs+FvolWrd+Style1</tag> </annotations>

28 Tagger Mnemosyne προσανατολισμένος στην άρση της λεξικής ασάφειας στα νέα ελληνικά βασισμένος στο ανάλογο γλωσσικό περιβάλλον των λέξεων άρση της λεξικής ασάφειας μόνο με γλωσσολογική πληροφορία 70 κανόνες (rules) άρση της ασάφειας ως προς το ΜτΛ αλλά και ως προς το γένος και την πτώση της ασαφούς λέξης

29 Άρση ασάφειας /* GGC_TAGER_PRONOUN_ART_13*/ {1}
[ARULE="No_amb_pronoun_art_13", NULL=CopyTextSpanTagsM(1,[PRON]), NULL1=CopyTextSpanTagsN(1,"TTEXT","ORTHO")] => ( [LEXY->HasMAttrs([ADJ]), ONTO?=$x:GNC_Agreement(1,[ADJ])] | [LEXY->HasMAttrs([PRON]), ONTO?=$x:GNC_Agreement(1,[PRON])] ) \ [LEXY->HasMAmbiguity([ART],[PRON])] / [LEXY->HasMAttrs([N]), ONTO?=$x:GNC_Agreement(1,[N])] ;

30 Κανόνες mnemosyne Section /* GGC_TELIKO_N_remove_n_3*/ {3}
Κεφαλή του κανόνα Section /* GGC_TELIKO_N_remove_n_3*/ {3} [ARULE="GGC_TELIKO_N_remove_n_3", TTEXT=$x_1_3, EVTEXT=TagEvent("gevent.wrong","GEVENT","FINAL_N","%f", "ERMSG", "Το 'τον' δεν πρέπει να έχει τελικό -ν. Αντικαταστήστε το 'τον' με το 'το'.")]=> \ [TTEXT->$x_1_3:Match("τον"), LEXY->CanMatch("ο",[ART,ACC, MASC, SING])] / [LEXY->HasMAttrs([MASC,SING,ACC]), ORTHO->AnyOfOAttrs([Style2])] ; end Αντικείμενο έρευνας

31 functions: HasLemma3 is method of LEXY ( text ); HasNotLemma is method of LEXY ( text ); HasMAttrs is method of LEXY ( MATTRS ); HasNoneMAttrs is method of LEXY ( MATTRS ); IsNotOneOfMAttrs2 is method of LEXY ( MATTRS, MATTRS ); CanMatch is method of LEXY ( text, MATTRS ); IsEqual is method of ORTHO ( OATTRS ); AnyOfOAttrs is method of ORTHO ( OATTRS ); NoneOfOAttrs is method of ORTHO ( OATTRS ); Match is method of TTEXT ( text ); Prefix is method of TTEXT ( text ); Suffix is method of TTEXT ( text ); RLookingAt is method of TTEXT ( text ); SuffixCanMatch is method of LEXY ( text, MATTRS ); SuffixLemma is method of LEXY ( text, text );

32 Κανόνες υφολογίας (λόγιοι τύποι)
Learned lemmas 1ο επIπεδο gevent.wrong 2ο επIπεδο Wrong Corpus Token learned in corpus Token learned ΥφολογIα ΛOγιοι τYποι gevent.info Ancient consonant

33 Κανόνες υφολογίας (λόγιοι τύποι)
Section /* GGC_pattern_ancient_1*/ {1} [ARULE="pattern_ancient_1", VTEXT="__ancient_phrase__"] => ( [LEXY->HasLemma3("επίδομα")] | [LEXY->HasLemma3("φύλλο")] ), \ [TTEXT=="αδείας"] / ; end

34 Κανόνες υφολογίας (λόγιοι τύποι)
Section /* GGC_pattern_2_ancient_2_2 */ {2} [ARULE="GGC_pattern_ancient_2_2", EVTEXT=TagEvent("gevent.info","GEVENT","ANCIENT_T YPE","%f","ERMSG","Ο τονισμός είναι λόγιος. Τονίστε στην προπαραλήγουσα.")] => \ [TTEXT == "αδείας"] | [TTEXT == "ακριβείας"] / ; end

35 Κανόνες υφολογίας (προφορικοί τύποι)
Κανόνες υφολογίας (προφορικοί τύποι) α) λήμματα (ORAL), β) καταλήξεις (προφορικός υφολογικός χαρακτηρισμός) /* GGC_oral_adj_1_1*/ [……] Ο τύπος '-ούχα/ -γόνα' χρησιμοποιείται στον προφορικό λόγο. Αντικαταστήστε με '-ούχος / -γόνος'.")] => [LEXY->HasMAttrs([FEM]), ONTO?=$x:GNC_Agreement(2,[FEM])], []{0,4}, [TTEXT->Match("είναι")], []{0,3} \ [LEXY->SuffixCanMatch("ούχος",[ADJ,FEM]),TTEXT->Suffix("ούχα"), ONTO?=$x:GNC_Agreement(2,[ADJ])] | [LEXY->SuffixCanMatch("γόνος",[ADJ,FEM]),TTEXT->Suffix("γόνα"), ONTO?=$x:GNC_Agreement(2,[ADJ])] / ; end

36 Κανόνες τελικού -ν Επίπεδο 1 TAGGER Επίπεδο 2 Κανόνες τελικού-ν
Style_1 Επίπεδο 3 Style_2 Επίπεδο 4

37 Κανόνες για τόνους, ορθογραφικά σημεία και σημεία στίξης
Απόστροφος Αφαίρεση - Πρόσθεση Έκθλιψη – Ρημ. Τύποι & αντωνυμίες Τόνος Παρουσία Απουσία Ενωτικό Κόμμα Εξαρτημένες προτάσεις Περιβάλλον λέξεων Τελεία Αρκτικόλεξα Τυπογραφική αποτύπωση

38 Rules Tokenizer Τελεία Τόνος Punctuation Απόστροφος Κόμμα Ενωτικό
Επίπεδο 1 Επίπεδο 2 κανόνες

39 Εννοιολογική σύγχυση Ενημέρωση: α) πιθανή άστοχη επιλογή λήμματος
β) λήμμα με το οποίο συγχέεται γ) για τη σημασία και των δύο λημμάτων αποδελτίωση γλωσσικού περιβάλλοντος λειτουργία επιπέδων

40 * GGC_OMOPRON_allpart_7_2 */ {1}
[ARULE="GGC_OMOPRON_allpart_7_2", VTEXT="__δηκτικός__"] => \ [LEXY->CanMatch("δηκτικός",[ADJ,NEUT])] / []{0,3}, ( [LEXY->HasLemma3("ύφος")] | [LEXY->HasLemma3("κείμενο")] | [LEXY->HasLemma3("σχόλιο")] | [LEXY->HasLemma3("πνεύμα")] | [LEXY->HasLemma3("χιούμορ")] )

41 /. GGC_OMOPRON_allpart_7_3
/* GGC_OMOPRON_allpart_7_3 */ {2} [ARULE="GGC_OMOPRON_allpart_7_3", EVTEXT=TagEvent("gevent.warning","GEVENT"," OMOPRON","%f","ERMSG","Το λήμμα 'δεικτικός' συγχέεται με το 'δηκτικός'. Δεικτικός σημαίνει 'αυτός που χρησιμεύει για να δείχνει', δηκτικός σημαίνει 'πικρόχολος'.")] => \ [LEXY->HasLemma3("δεικτικός")] | [LEXY->HasLemma3("δηκτικός")] / ;

42 Rules.flow2 Rules.flow1 same_pron_adj2 same_pron_noun2 same_pron_adv2
same_pron_verb omo_pron_all Τελικό _ν …. 1ο επίπεδο 2ο επίπεδο same_pron_adj2 same_pron_noun2 same_pron_adv2 same_pron_verb2 omo_pron_all2

43 Τυποποίηση γραφής Ισοδυναμία γραφής Ξένες λέξεις Λατινικές φράσεις
Μία λέξη Δύο λέξεις Ισοδυναμία γραφής Ξένες λέξεις Λατινικές φράσεις

44 ΕυρΥτερη ΟνοματικΗ φρΑση
Συμφωνία άρθρο ουσιαστικΟ επΙθετο αντωνυμΙα ΕπΙθετο/ μετοχΗ ΥποκεΙμενο ΡΗμα ΕυρΥτερη ΟνοματικΗ φρΑση ΕπιρρηματικΗ φρΑση ΠροθετικΗ φρΑση ΡηματικΗ

45 Σχεδιότυπο Ονοματικής Φράσης
Μορφολογικό λεξικό tagger Σχεδιότυπο Ονοματικής Φράσης Κανόνες 1ου επιπέδου Κανόνες 2ου επιπέδου Agreement(4) Agreement(3) Agreement(2) Rules.flow1 Rules.flow2

46 Σχεδιότυπα Μορφολογία
Πλεονασμός Ουσιαστικά χωρίς πληθυντικό & χωρίς γενική πληθυντικού Μορφολογία

47 Μη παραμετρική ανάλυση: λόγω της απόκλισης από την κανονικότητα
Στατιστικά κριτήρια Μη παραμετρική ανάλυση: λόγω της απόκλισης από την κανονικότητα Kolmogorov-Smirnov Έλεγχος υποθέσεων για την κατανομή των τιμών μεταβλητής (Dytham, 2011). McNemar τεστ Έλεγχος διαφορών ύστερα από την επίδραση κάποιου παράγοντα (Israel, 2009). Kruskal-Wallis Έλεγχος της υπόθεσης ότι τα δείγματα της μελέτης προέρχονται από πληθυσμούς με την ίδια διάμεσο (Sheskin, 2004· Dytham, 2011).  Mann-Whitney U Έλεγχος διαφορών μεταξύ δύο ανεξάρτητων δειγμάτων (Field, 2009).

48 Ευρήματα ανάλυσης λαθών

49 Αξιολόγηση

50 Αξιολόγηση

51 Αξιολόγηση

52 Λάθη ανά φύλο

53 Συχνότητα λάθους ανά κειμενικό είδος

54 Συχνότητα λάθους ανά κειμενικό είδος

55 Συμπεράσματα προσεγγίζει τη διόρθωση του ανθρώπου
προσεγγίζει τη διόρθωση του ανθρώπου ξεπερνά τον ορθογραφικό διορθωτή προσπάθεια κωδικοποίησης στοιχείων του μηχανισμού της σκέψης υψηλός βαθμός ακρίβειας πληρότητα των δεδομένων

56 Συμπεράσματα καινοτόμα εργαλεία
όμοια σχεδιότυπα με ξενόγλωσσους διορθωτές δυνατότητα ενσωμάτωσης σε Ms- office αδυναμίες: ελλειπτικός λόγος, νοηματικά λάθη, «αισθητική απόλαυση»

57 Ο Γραμματικός διορθωτής Κείμενο Ανάλυση στο web

58 Ευχαριστώ για την προσοχή σας!


Κατέβασμα ppt "ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΑΤΡΩΝ ΠΑΙΔΑΓΩΓΙΚΟ ΤΜΗΜΑ ΔΗΜΟΤΙΚΗΣ ΕΚΠΑΙΔΕΥΣΗΣ"

Παρόμοιες παρουσιάσεις


Διαφημίσεις Google