Natural Language Toolkit

Slides:



Advertisements
Παρόμοιες παρουσιάσεις
Comparative vs. Superlative
Advertisements

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ Εισαγωγικό Φροντιστήριο.
What is the definition of differentiation?. Differentiation is an approach to teaching that attempts to ensure that all students learn well, despite their.
Threading Building Blocks. Σύνοψη  Γενικά για TBBs  Tasks  Parallel for  Εσωτερική λειτουργία βιβλιοθήκης  Task graphs.
Έννοιες: Συλλογή, Συλλέκτης Λόγοι συλλογής  Ένστικτο  Οικονομική επένδυση  Μορφή αθανασίας  Κοινωνική καταξίωση  Τρόπος να ξεχωρίσει ο συλλέκτης.
1 NAVIGON 40 Easy Comfort Edition NAVIGON 40 Easy Comfort Edition.
Με λένε Ελλάδα My name is Hellas 4 ο Δημοτικό Σχολείο Θεσσαλονίκης All-Day School.
Αναλογική- Ψηφιακή Φωτογραφία (Φιλμ-Αισθητήρας)
1 Basic network tools Layers recap Basic Addressing ping traceroute ipconfig.
IT2000 vs IT2012 By Fotis Lavdas & Menelaos Makrigiannis.
NT Greek Grammar (Macnair Ch. 1-4)
ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΙΑΣ ΤΜΗΜΑ ΜΗΧΑΝΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΒΙΟΜΗΧΑΝΙΑΣ Διάλεξη 11: Χρήση δομών, εξωτερικών αρχείων και γραφικών στο Matlab Εαρινό εξάμηνο 2008.
ΣYMBOΛIKOΣ ΥΠΟΛΟΓΙΣΜΟΣ. ΣYMBOΛIKOΣ ΥΠΟΛΟΓΙΣΜΟΣ - Παράδειγμα %polynomial (Expression, Variable) polynomial (X, X). polynomial (Term, X) :- number (Term).
Ancient Greek for Everyone: Unit 3: Greek Nouns supplement: Tips on Translating Greek into English GREK 1001 Fall 2013 M-Th 9:30-10:20 Coates 236 Wilfred.
2013 edition Wilfred E. Major
Queen Elizabeth II with 11 USA Presidents Η Βασίλισσα Ελισάβετ ΙΙ με 11 Πρόεδρους των ΗΠΑ Elizabeth II (Elizabeth Alexandra Mary; born 21 April 1926) is.
RIO DE JANEIRO FOR : ALEXANDRA GIOVANOPOYLOY DORA GARBOYNI ZOI DALIDOY ELINA DIMITRIADOY CHRISTINA DOYMPA.
Προβλήματα Προσχεδιασμού. Ο κόσμος των κύβων Πρόβλημα προσχεδιασμού κατάλληλων πύργων Η Κατάσταση του κόσμου μπορεί να αναπαρασταθεί με μια λίστα από:
TEMPLATES, STL ΠΡΟΓΡΑΜΜΑΤΑ ΜΕ ΠΟΛΛΑ ΑΡΧΕΙΑ. ΑΝΑΚΕΦΑΛΑΙΩΣΗ.
Examples in XSB Prolog Επεξεργασία και Αναπαράσταση Γνώσης Άνοιξη 2010 Τμήμα Επιστήμης Υπολογιστών Πανεπιστημίου Κρήτης.
In Hesiod's Teogony, Nyx is born of Chaos; her offspring are many, and telling. Nyx had prophetic powers, and gave oracles from a cave. She was older and.
THE VERB TO BE IN SIMPLE PAST
Ρυθμίσεις Android phones για MMS και Internet. 20/6/2013 Although every effort has been taken, this DRAFT technical paper has been prepared in good faith.
Ασκηση NextGen POS. Ι. Δεληγιάννης, Τμ. Πληροφορικής ΤΕΙ-Θ UNIFIED PROCESS - ΑΝΑΛΥΣΗ2.
Αντικειμενοστρεφής Προγραμματισμός Κλάσεις και άλλα θέματα Απόστολος Ζάρρας * βασισμένα και σε δουλειά του.
 E-Twinning : ένα πρόγραμμα ηλεκτρονικής αδελφοποίησης σχολείων.
Πανεπιστήμιο Πατρών ΟΝΤΟΚΕΝΤΡΙΚΟΣ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟΣ ΙΙ (C++)
Πληροφοριακά Συστήματα και Βάσεις Δεδομένων
Vocabulary Words Kyle Moore Αρχαία Ελληνικά. Ακρόπολη (Acropolis) A large hill which the Greeks built their city-states around.
Εισαγωγικό Φροντηστήριο Διαχείριση Περιεχομένου Παγκόσμιου Ιστού και Γλωσσικά Eργαλεία.
A model for Context-aware Databases. 19/04/20052 What is Context? Ο καθένας ορίζει το context διαφορετικά... “location, identities of nearby people and.
Εισαγωγή στην Compute Unified Device Architecture (CUDA)
Lesson 14: Around the city JSIS E 111: Elementary Modern Greek Sample of modern Greek alphabet, M. Adiputra,
Lesson 28a: Shopping at Costco JSIS E 111: Elementary Modern Greek Sample of modern Greek alphabet, M. Adiputra,
Lesson 3a: Basic expressions JSIS E 111: Elementary Modern Greek Sample of modern Greek alphabet, M. Adiputra,
Γειά σας. Say: Nick is going to the supermarket.
Lesson 24a: Travel III JSIS E 111: Elementary Modern Greek Sample of modern Greek alphabet, M. Adiputra,
Lesson 18b: At the University JSIS E 111: Elementary Modern Greek Sample of modern Greek alphabet, M. Adiputra,
Comenius E.R.G.O Equal Rights Great Opportunities Presentation by the Greek Delegation to Hungary.
Lesson 21b: Nature II JSIS E 111: Elementary Modern Greek Sample of modern Greek alphabet, M. Adiputra,
1/6/2012 FASTER LOGO FASTER ICT – Financial and Accounting Seminars Targeting European Regions You are expected to prepare a ppt presentation for each.
Lesson 20a: Nature I JSIS E 111: Elementary Modern Greek Sample of modern Greek alphabet, M. Adiputra,
Visual Studio 2010 Load Testing Γιώργος Καρκαλής Testing Specialist 12/5/2011.
Lesson 18c: At the University JSIS E 111: Elementary Modern Greek Sample of modern Greek alphabet, M. Adiputra,
Lesson 25c: Vegetables JSIS E 111: Elementary Modern Greek Sample of modern Greek alphabet, M. Adiputra,
Lesson 32a: Trasportation JSIS E 111: Elementary Modern Greek Sample of modern Greek alphabet, M. Adiputra,
Lesson 47-48a: Furniture JSIS E 111: Elementary Modern Greek Sample of modern Greek alphabet, M. Adiputra,
Lesson 41c: Cooking I JSIS E 111: Elementary Modern Greek Sample of modern Greek alphabet, M. Adiputra,
Πανεπιστήμιο Κύπρου – Τμήμα Πληροφορικής EPL602 Foundations of Web Technologies jQuery Mobile News Site Presented by: Christodoulos Michael Dimitris Stokkos.
JSIS E 111: Elementary Modern Greek
Lesson 52a: Nick’s mom JSIS E 111: Elementary Modern Greek Sample of modern Greek alphabet, M. Adiputra,
OUR CITY ATHENS GODS IN THE MYTH ATHENA ( Latin- Minerva ): The goddess of wisdom and strategy! She helped many heroes in mythology in her own way. Athena.
1 Please include the following information on this slide: Παρακαλώ, συμπεριλάβετε τις παρακάτω πληροφoρίες στη διαφάνεια: Name Giannakodimou Aliki Kourkouta.
Παρουσίαση του εργαλείου Rundeck και use cases Αθήνα 16/01/2014 Κωνσταντίνος Χρηστίδης ~ Εθνικό Κέντρο Τεκμηρίωσης Τμήμα Ηλεκτρονικών Υποδομών.
Verbs The usual three person (1 st, 2 nd and 3 rd ) exist in Greek as in English in singular and plural. verbs change their morphology (mostly their endings)
Developing Human Values Through the Cross-curricular Approach.
 You need textbooks today. If they are in your locker – get them NOW!  Don’t ask once class has started…
1 Τμήμα Μηχανικών Ηλεκτρονικών Υπολογιστών και Πληροφορικής Πανεπιστήμιο Πατρών ΟΝΤΟΚΕΝΤΡΙΚΟΣ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟΣ ΙΙ (C++) Δείκτες και Συμβολοσειρές (Pointers.
Ἡ μερίδα Συνοδικ ῆ ς Ἐ πιτροπ ῆ ς Θείας Λατρείας καί Ποιμαντικο ῦ Ἔ ργου «Τό πνε ῦ μα ὅ που θέλει πνε ῖ » ( Ἰ ωάννου 3,8) Ὀ ρθόδοξη πνευματική ζωή - Σύγχρονοι.
The Quran on the Gospel Surah 5:68: Say: “O People of the Book! ye have no ground to stand upon unless ye stand fast by the Law, the Gospel, and all the.
Ανακαλύπτοντας την Πληροφορική: Βάσεις Δεδομένων Γεώργιος Χατζημηλιούδης Ειδικός Επιστήμονας 8 Οκτωβρίου 2015.
Ἱερὰ Μονὴ Σταυρονικήτα Βρίσκεται στὴν ἀνατολικὴ ἀκτὴ τοῦ Ἁγίου Ὅρους σὲ ὑψόμετρο 50μ. ἀπὸ τὴν ἐπιφάνεια τῆς θάλασσας. Εἶναι ἡ τελευταία ἀπὸ τὶς μονὲς.
Ἱστορία ἀρχαία καὶ μεσαιωνικὴ
John 3:16 οὕτως γὰρ ἠγάπησεν ὁ θεὸς τὸν κόσμον, this is how for loved God the world ὥστε τὸν υἱὸν τὸν μονογενῆ ἔδωκεν, so that the Son the only he.
Adjectives Introduction to Greek By Stephen Curto For Intro to Greek
Find: φ σ3 = 400 [lb/ft2] CD test Δσ = 1,000 [lb/ft2] Sand 34˚ 36˚ 38˚
ΕΝΣΤΑΣΕΙΣ ΠΟΙΟΣ? Όμως ναι.... Ένα σκάφος
Homework Exercise 6 α. ἡ ὥρα ἔρχεται (he/she/it comes)
Variable-wise and Term-wise Recentering
Voice.
Μεταγράφημα παρουσίασης:

Natural Language Toolkit Γλωσσική Τεχνολογία Natural Language Toolkit

Natural Language Toolkit Πακέτο βιβλιοθηκών και εργαλείων για Natural Language Processing σε Python. Δεν εγκαθίσταται με την Python, πρέπει να το εγκαταστήσετε. http://www.nltk.org/ Download των πακέτων που χρειάζονται Οδηγίες για την εγκατάσταση Διαθέσιμο online το βιβλίο “Natural Language Processing with Python” Σε αυτό το φροντιστήριο αναφέρονται κάποια βασικά εργαλεία. Το NLTK περιέχει πολλά περισσότερα!!!

NLTK – Installing Corpora Το NLTK δίνει τη δυνατότητα εγκατάστασης corpora. Χρησιμοποιούνται για πολλές NLP εργασίες, όπως Normalization, Tagging, Classification etc. >>> import nltk >>> nltk.download() NLTK Downloader --------------------------------------------------------------------------- d) Download l) List c) Config h) Help q) Quit Downloader> Το Brown Corpus και το Wordnet αρκούν. Καλύτερα εγκαταστήστε τα όλα!

Using Corpora Προσπέλαση του καθαρού κειμένου στα αρχεία: Μέσω του NLTK είναι δυνατή η προσπέλαση των αρχείων στα corpora: >>> nltk.corpus.brown.fileids() ['ca01', 'ca02', 'ca03', 'ca04', 'ca05', 'ca06', 'ca07', 'ca08', 'ca09', 'ca10', 'ca11', 'ca12', 'ca13', 'ca14', 'ca15', 'ca16', 'ca17', 'ca18', 'ca19', 'ca20', ... Προσπέλαση του καθαρού κειμένου στα αρχεία: >>> nltk.corpus.brown.raw('ca01') "\n\n\tThe/at Fulton/np-tl County/nn-tl Grand/jj-tl Jury/nn-tl said/vbd Friday/nr an/at investigation/nn of/in Atlanta's/np$ recent/jj primary/nn election/nn produced/vbd ``/`` no/at evidence/nn ''/'' that/cs any/dti irregularities/nns took/vbd place/nn ./.\n\n\n\tThe/at jury/nn further/rbr said/vbd in/in term-end/nn presentments/nns that/cs the/at City/nn-tl Executive/jj-tl Committee/nn-tl ,/,. Το κείμενο στο brown corpus είναι tagged!

Corpora Data Διάβασμα των κειμένων ανά λέξη >>> from nltk.corpus import brown >>> brown.words('ca01') ['The', 'Fulton', 'County', 'Grand', 'Jury', 'said', ...] Διάβασμα των κειμένων ανά πρόταση >>> brown.sents('ca01') [['The', 'Fulton', 'County', 'Grand', 'Jury', 'said', 'Friday', 'an', 'investigation', 'of', "Atlanta's", 'recent', 'primary', 'election', 'produced', '``', 'no', 'evidence', "''", 'that', 'any', 'irregularities', 'took', 'place', '.'], ['The', 'jury', 'further', 'said', 'in', 'term-end', 'presentments', 'that', 'the', 'City', 'Executive', 'Committee', ',', 'which', 'had', 'over-all', 'charge', 'of', 'the', 'election', ',', '``', 'deserves', 'the', 'praise', 'and', 'thanks', 'of', 'the', 'City', 'of', 'Atlanta', "''", 'for', 'the', 'manner', 'in', 'which', 'the', 'election', 'was', 'conducted', '.'], ...] Λίστα από λίστες λέξεων!

Brown Corpus Το Brown Corpus περιέχει κείμενα ταξινομημένα σε κατηγορίες >>> from nltk.corpus import brown >>> brown.categories() ['adventure', 'belles_lettres', 'editorial', 'fiction', 'government', 'hobbies', 'humor', 'learned', 'lore', 'mystery', 'news', 'religion', 'reviews', 'romance', 'science_fiction'] Λέξεις ανά κατηγορία >>> brown.words(categories='science_fiction') ['Now', 'that', 'he', 'knew', 'himself', 'to', 'be', ...] Προτάσεις ανά κατηγορία >>> brown.sents(categories='science_fiction') [['Now', 'that', 'he', 'knew', 'himself', 'to', 'be', 'self', 'he', 'was', 'free', 'to', 'grok', 'ever', 'closer', 'to', 'his', 'brothers', ',', 'merge', 'without', 'let', '.'], ["Self's", 'integrity', 'was', 'and', 'is', 'and', 'ever', 'had', 'been', '.'], ...]

Processing Raw Text Στο NLTK περιλαμβάνονται (ανάμεσα στ’ άλλα) εργαλεία για: Εξαγωγή κειμένου από ιστοσελίδες Normalization Tokenization Tagging

Raw Text Extraction From HTML Κατέβασμα του περιεχομένου ενός url >>> from urllib import urlopen >>> url="http://en.wikipedia.org/wiki/Natural_Language_Toolkit" >>> raw=urlopen(url).read() >>> raw '<!DOCTYPE html>\n<html xmlns="http://www.w3.org/1999/xhtml" xml:lang="en" lang="en">\n<head>\n<title>Wikimedia Error</title>\n<meta http-equiv="Content-Type" content="text/html; charset=UTF-8"/>\n<meta name="author" content="Mark Ryan"/>\n<meta name="copyright" content="(c) 2005-2007 Mark Ryan and others. Text licensed under the GNU Free Documentation License. http://www.gnu.org/licenses/fdl.txt“ ... Εξαγωγή κειμένου >>> pure=nltk.clean_html(raw) >>> pure 'Wikimedia Error \n \n \n \n\n\n\n \n\n \n Wikimedia Foundation \n\n\n Error \n\n\n\n \n\n \n Our servers are currently experiencing a technical problem. This is probably temporary and should be fixed soon. Please try again in a few minutes. \n You may be able to get further information in the #wikipedia channel on the Freenode IRC network . \n The Wikimedia Foundation is Δεν επιτρέπεται παντού το crawling 

Tokenization Μετατροπή ενός κειμένου σε λίστα από tokens Simple split >>> text="When it's over, I want to go. It's 15:30!" >>> tokens=text.split(" ") >>> tokens ['When', "it's", 'over,', 'I', 'want', 'to', 'go.', "It's", '15:30!'] Using Regular Expressions >>> import re >>> tokens=re.split(r'\W+',text) ['When', 'it', 's', 'over', 'I', 'want', 'to', 'go', 'It', 's', '15', '30', ''] NLTK >>> tokens=nltk.word_tokenize(text) ['When', 'it', "'s", 'over', ',', 'I', 'want', 'to', 'go.', 'It', "'s", '15', ':', '30', '!']

Text Normalization Κανονικοποίηση λέξεων: μετατροπή σε τύπους που μπορούν να ομαδοποιηθούν. Stemming (αποκατάληξη) >>> porter=nltk.PorterStemmer() >>> tokens=['baby','babies','child','children'] >>> stemms=[porter.stem(t) for t in tokens] >>> stemms ['babi', 'babi', 'child', 'children'] Lemmatization (αναγωγή στον πρώτο κλιτικό τύπο) >>> wnl=nltk.WordNetLemmatizer() >>> lemmas=[wnl.lemmatize(t) for t in tokens] >>> lemmas ['baby', 'baby', 'child', 'child'] Αλλά >>> tokens=['go','goes','went'] ['go', 'go', 'went']

Tagging Αναγνώριση του Part of Speech Using NLTK Χρήση tagged κειμένων >>> text="Natural Language Processing is a growing field." >>> tokens=nltk.word_tokenize(text) >>> nltk.pos_tag(tokens) [('Natural', 'NNP'), ('Language', 'NNP'), ('Processing', 'NNP'), ('is', 'VBZ'), ('a', 'DT'), ('growing', 'VBG'), ('field', 'NN'), ('.', '.')] Χρήση tagged κειμένων >>> from nltk.corpus import brown >>> tagged_text=brown.raw('ca01') >>> tagged_text "\n\n\tThe/at Fulton/np-tl County/nn-tl Grand/jj-tl Jury/nn-tl said/vbd Friday/nr an/at investigation/nn of/in Atlanta's/np$ recent/jj primary/nn election/nn produced/vbd ``/`` no/at evidence/nn ''/'' that/cs any/dti irregularities/nns took/vbd place/nn ./. >>> tagged_tokens=[nltk.tag.str2tuple(t) for t in tagged_text.split()] >>> tagged_tokens [('The', 'AT'), ('Fulton', 'NP-TL'), ('County', 'NN-TL'), ('Grand', 'JJ-TL'), ('Jury', 'NN-TL'), ('said', 'VBD'), ('Friday', 'NR'), ('an', 'AT'), ('investigation', 'NN'), ('of', 'IN'), ("Atlanta's", 'NP$'), ('recent', 'JJ'), ('primary', 'NN'), ('election', 'NN'), ('produced', 'VBD'), ('``', '``'), ('no', 'AT'), ('evidence', 'NN'), ("''", "''"), ('that', 'CS'), ('any', 'DTI'), ('irregularities', 'NNS'), ('took', 'VBD'), ('place', 'NN'), ('.', '.'),

Για το project Η καλύτερη λύση είναι: Tokenization με το NLTK Normalization με lemmatization και όχι με stemming Normalization & tagging με χρήση των εξωτερικών taggers που δίνονται στη σελίδα του εργαστηρίου (κάνουν και τα δύο). Γιατί: το lemmatization του wordnet σε άλλα μέρη του λόγου εκτός των ουσιαστικών δεν είναι καλό!