ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ Εισαγωγικό Φροντιστήριο.

Slides:



Advertisements
Παρόμοιες παρουσιάσεις
Το αλφαριθμητικό (string)
Advertisements

Η πλατφόρμα moodle και η χρήση ψηφ. εκπαιδευτικού υλικού
ΕΙΣΑΓΩΓΗ ΣΤΗΝ PHP. Τι θα μάθουμε;  Να καταλάβουμε τι είναι η PHP και πώς δουλεύουν τα PHP scripts  Τι χρειάζεται για να ξεκινήσουμε με την PHP  Να.
Τεχνικές Προγραμματισμού με την JavaScript Στυλιάδης Κων/νος Φλώρινα, Οκτώβριος 2004.
ΙΩΑΝΝΗΣ ΚΩΝΣΤΑΝΤΙΝΟΥ 2ο ΦΡΟΝΤΙΣΤΗΡΙΟ ΠΑΡΑΣΚΕΥΗ 26 ΟΚΤΩΒΡΙΟΥ 2012 ΑΙΘΟΥΣΑ Β4 11.
Scripting Language Python
ShareIt Social Network Project Simos Hatzikostas: Manolhs Georgiou: Theodoros Demetriou:
Παρουσίαση του Hot Potatoes •Το Hot Potatoes μας επιτρέπει να δημιουργούμε ασκήσεις που μπορούν να δουλευθούν από οποιοδήποτε υπολογιστή που είναι συνδεδεμένος.
• Php • Joomla • Joomla Module • Παρουσίαση του συστήματος μας.
5η Συνάντηση Εκπαιδευτικών Πληροφορικής στη Δυτική Μακεδονία Πτολεμαΐδα, 29 Σεπτ 2005 Δημιουργία Δυναμικών Ιστοσελίδων με PHP και Dreamweaver MX Στυλιάδης.
ΙΩΑΝΝΗΣ ΚΩΝΣΤΑΝΤΙΝΟΥ 1ο ΦΡΟΝΤΙΣΤΗΡΙΟ ΠΑΡΑΣΚΕΥΗ 5 ΟΚΤΩΒΡΙΟΥ 2012 ΑΙΘΟΥΣΑ Β4 11.
Τι είναι ο υπολογιστής; Τι είναι ο προγραμματισμός
ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ Τεχνικές NLP – Σχεδιαστικά Θέματα.
ΟΡΟΛΟΓΙΑ Στην ΚτΠ: Χρησιμότητα στον Δημόσιο Τομέα ή Η σημασία της γνώσης των όρων για αποτελεσματική πρόσβαση στην πληροφορία Γ. Καραγιάννης Καθηγητής.
ΛΟΓ102: Τεχνολογία Λογισμικού Ι Διδάσκων: Νίκος Παπασπύρου 1Νίκος ΠαπασπύρουΛΟΓ102:
ΜΑΘ-3122/106 Προγραμματισμός
Φροντηστήριο Διαχείριση Περιεχομένου Παγκόσμιου Ιστού και Γλωσσικά Eργαλεία.
24/11/2003Message Passing Interface (MPI)1 Αθήνα, Νοέμβριος 2003 Συστήματα Παράλληλης Επεξεργασίας Εργαστήριο Υπολογιστικών Συστημάτων.
Λειτουργικά Συστήματα
ΙΩΑΝΝΗΣ ΚΩΝΣΤΑΝΤΙΝΟΥ 3ο ΦΡΟΝΤΙΣΤΗΡΙΟ ΠΑΡΑΣΚΕΥΗ 19 ΟΚΤΩΒΡΙΟΥ 2012 ΑΙΘΟΥΣΑ Β4 1.
Εισαγωγικό Φροντηστήριο Διαχείριση Περιεχομένου Παγκόσμιου Ιστού και Γλωσσικά Eργαλεία.
Κατεύθυνση «Προηγμένες Τεχνολογίες Ανάπτυξης Λογισμικού»
Μερικά ακόμη παραδείγματα
Quatuor Squilla Θέμα: "Πώς επηρέασε η χρήση της κινητής τηλεφωνίας τις διαπροσωπικές σχέσεις και ποια νέα ήθη και γλώσσα εισήγαγε στη σύγχρονη καθημερινότητα;"
Ειδικές μορφές επικοινωνίας των τουριστικών επιχειρήσεων
ΗΥ 150 – ΠρογραμματισμόςΞενοφών Ζαμ π ούλης ΗΥ-150 Προγραμματισμός Αλγόριθμοι και Προγράμματα.
Η ΧΡΗΣΗ ΤΟΥ ΗΛ. ΥΠΟΛΟΓΙΣΤΗ ΚΑΙ Η ΧΡΗΣΗ ΤΟΥ ΔΙΑΔΙΚΤΥΟΥ
Η ΓΛΩΣΣΑ C ΜΑΘΗΜΑ 2.
Ολυμπιάδα Πληροφορικής
Οργάνωση πληροφοριών Ευρετηρίαση Μέρος Β Σχεδιασμός ευρετηρίων.
ΕΝΟΤΗΤΑ 2: ΤΟ ΛΟΓΙΣΜΙΚΟ ΤΟΥ ΥΠΟΛΟΓΙΣΤΗ
ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ Προεπεξεργασία Κειμένου.
Τμήμα Πληροφορικής Πανεπιστημίου Κύπρου ΕΠΛ 371 – Προγραμματισμός Συστημάτων Ονόματα: Αντώνης Μαυρής, Γιώργος Ματθαίου, Χρίστος Κυριάκου Ταυτότητες: ,
Κεφάλαιο 6 -Περιβάλλοντα Ανάπτυξης Εφαρμογών
PHP/MYSQL ΠΑΡΟΥΣΙΑΣΗ ΣΤΑ ΠΛΑΙΣΙΑ ΤΟΥ ΜΑΘΗΜΑΤΟΣ ΕΠΟΙΚΟΙΝΩΝΙΑ ΑΝΘΡΩΠΟΥ-ΜΗΧΑΝΗΣ ΤΥΡΟΛΟΓΟΥ ΓΛΥΚΕΡΙΑ ΑΜ 875 ΡΙΖΟΥ ΔΕΣΠΟΙΝΑ ΑΜ 816.
Γλωσσική Τεχνολογία Εισαγωγικό Φροντιστήριο. Project του μαθήματος  Εργασία 2 ατόμων  Προφορική εξέταση για :  Project (80%)  Θεωρία (20%)  Στο φροντιστήριο.
ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ Information Extraction.
Η επιστήμη του Web.
1 Εισαγωγή στη Java Χρήσιμες Διευθύνσεις Χαρακτηριστικά της Java Εργαλεία της Java Εργαλεία της Java Μεταγλώττιση στοιχειωδών εφαρμογών.
ΠΜΣ ΕΡΓΑΣΙΑ ΣΤΟ ΜΑΘΗΜΑ ΨΗΦΙΑΚΕΣ ΒΙΒΛΙΟΘΗΚΕΣ The Digital Library and Computational Philology: The BAMBI Project Γόντικα Ειρήνη.
ΕΝΟΤΗΤΑ 2 – Κεφάλαιο 5: To λογισμικό του υπολογιστή
Τμήμα Γεωλογίας Εισαγωγή στην Επιστήμη των Η/Υ ΙΙ Ευθύμιος Σώκος Λέκτορας Τηλ:
ΛΟΓ102: Τεχνολογία Λογισμικού Ι Διδάσκων: Νίκος Παπασπύρου 1Νίκος ΠαπασπύρουΛΟΓ102:
ΕΙΣΑΓΩΓΙΚΟ ΦΡΟΝΤΙΣΤΗΡΙΟ Διαχείριση Περιεχομένου Παγκόσμιου Ιστού και Γλωσσικά Εργαλεία.
Τίτλος πτυχιακής εργασίας Ανάπτυξη διαδικτυακής πλατφόρμας κοινωνικής δικτύωσης και μικροεφαρμογής με δυνατότητες δημιουργίας-επεξεργασίας-χρήσης εκπαιδευτικών.
Μπόλαρη Αγγελικη(1451) Επιβλέπων Βολογιαννίδης Σταύρος ΑΤΕΙ ΣΕΡΡΩΝ ΣΧΟΛΗ ΤΕΧΝΟΛΟΓΙΚΩΝ ΕΦΑΡΜΟΓΩΝ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ & ΕΠΙΚΟΙΝΩΝΙΩΝ Σέρρες 2013.
Γνωριμία με το Λογισμικό του υπολογιστή Μια παρουσίαση για τους μαθητές της Α΄ Τάξης του 49ου Γυμνασίου Αθήνας Διδάσκων: Χ. Μοτσενίγος 49ο Γυμνάσιο Αθήνας.
2 Μικρές Επιχειρήσεις Μεσαίες Επιχειρήσεις Μεγάλες Επιχειρήσεις Καταναλωτές Κατηγορία Πελατών Ολοκληρωμένες Λύσεις Servers Γενικής Χρήσης Αριθμός Χρηστών.
Ελευθερία στα σχολεία Οδηγός εγκατάστασης Ubuntu Ltsp + Εκπαιδευτικό υλικό.
ΑΡΧΑΙΑ ΕΛΛΗΝΙΚΑ ΙΣΤΟΡΙΑ ΝΕΑ ΕΛΛΗΝΙΚΑ
Διαδίκτυο και Διδακτική της Γλώσσας Δυνατότητες Αξιοποίησης στη Διδασκαλία του Γλωσσικού Μαθήματος Διονύσης Αρκαδιανός.
ΔΙΔΑΚΤΙΚΗ ΤΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ Η ΔΙΔΑΣΚΑΛΙΑ ΘΕΜΑΤΩΝ ΠΛΗΡΟΦΟΡΙΚΗΣ Γιώργος Σούλτης.
European Perspectives in Language Teaching, Learning, Assessment The European Language Portfolio: What, why and how Bessie Dendrinos School of Philosophy.
Εισαγωγή στην Python.
ΕΦΑΡΜΟΓΕΣ ΥΠΟΛΟΓΙΣΤΩΝ
ΠΛΗΡΟΦΟΡΙΚΗ ΤΕΧΝΟΛΟΓΙΑ ΚΑΙ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟΣ Η/Υ
Κατηγορίες και Προδιαγραφές Λογισμικού Η/Υ (Software)
Οδηγίες εγκατάστασης Windows XP
Ενότητα Εισαγωγή Είναι εύκολη στη χρήση και στην εκμάθηση.
ΔΙΑΔΙΚΤΥΟ, WEB2.0 KAI WEB X Από τον WEB 1.0 στον WEB X.0
Mαθηματα προγραμματισμου αρχαριων
Ενισχυτική διδασκαλία
Δημιουργία ηλεκτρονικού βιβλίου
3. Βασικά στοιχεία γλώσσας προγραμματισμού
Αντικειμενοστραφής Προγραμματισμός ΙΙ
ΠΡΟΓΡΑΜΜΑΤΙΣΤΙΚΑ ΠΕΡΙΒΑΛΛΟΝΤΑ Ανάπτυξη Εφαρμογών για Φορητές Συσκευές
Εισαγωγή στον Προγραμματισμό με Python, ΑΠΘ ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ Εισαγωγή στον Προγραμματισμό με Python Εβδομάδα 1: Βασικά στοιχεία.
Εισαγωγή στην υλοποίηση δικτυακού τόπου
Ειδικά Θέματα στον Προγραμματισμό Υπολογιστών
UNIT 1 Τα Πρώτα Προγράμματα.
Μεταγράφημα παρουσίασης:

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ Εισαγωγικό Φροντιστήριο

Project του μαθήματος  Εργασία 2 ατόμων  Προφορική εξέταση για :  Project (80%)  Θεωρία (20%)  Στο φροντιστήριο :  Ζητήματα σχεδιασμού  Παρουσίαση εργαλείων  Γλώσσα υλοποίησης της επιλογής σας αλλά :  Το φροντιστήριο θα γίνει σε Python 2.x.x ”Although Python 3.0 is now available, NLTK has not yet been ported. For now you should use NLTK with Python 2.5.*, 2.6.*, or 2.7.* only. NLTK 3.0 will hopefully be ready during 2012.”

Γιατί Python;  Εύκολη ! Θα τη μάθετε αμέσως.  Χρειάζεται να γράψετε πολύ λιγότερο κώδικα. ( Ο χρόνος development είναι 10 φορές μικρότερος )  Είναι scripting, παρόλα αυτά αρκετά γρήγορη. (Implemented in C)  Ο κώδικας σε Python είναι μικρότερος και πιο « καθαρός », εύκολος να διαβαστεί και να κατανοηθεί. ( Τα blocks κώδικα ορίζονται από κενά )  Cross-Platform: Μπορείτε να προγραμματίσετε σε Windows ή Linux  Υπάρχουν πολλά και δωρεάν διαθέσιμα resources στο δίκτυο για να διαβάσετε.  Υπάρχει σε Python το NLTK (Natural Language Toolkit), το οποίο περιλαμβάνει ήδη υλοποιημένα εργαλεία για επεξεργασία φυσικής γλώσσας.

Βαθμολόγηση  Η παράδοση του project θα γίνει τη μέρα της εξέτασης.  Βαθμολογούνται :  Η ορθότητα της υλοποίησης ( σωστά αποτελέσματα )  Η πληρότητα της υλοποίησης ( όλα τα ζητούμενα )  Ο καλός σχεδιασμός  Τεκμηριωμένες σχεδιαστικές επιλογές  Ολοκληρωμένη εφαρμογή, σχεδιασμός κοντά σε πραγματικές ανάγκες  Εφαρμογή της θεωρίας, σωστή χρήση της θεωρίας  Καλή απόδοση !!! ( μεγάλος όγκος δεδομένων εισόδου )  Να έχετε ασχοληθεί και να ξέρετε να απαντήσετε στις ερωτήσεις για το project.

Python  High Level  Scripting  Elegant Syntax  Interpreted  Object Oriented  Functional  Dynamic Typing  Automatic Memory Management

My First Program print “Hello World!” Αντί για : #include int main(int argc, char** argv) { printf(“HelloWorld!\n”); }

Interactive Mode

Πηγές για Python

Editors  Editors  Windows  Notepad etc.  Linux  Gedit etc.  IDEs  Windows  Active Python  Netbeans  …  Linux  Eclipse  Netbeans  …

NLTK – Natural Language Toolkit

Πρόσβαση στα resources  Το NLTK με την εντολή download δίνει τη δυνατότητα εγκατάστασης διάφορων resources

Διαθέσιμα resources  Μέρος της λίστας των διαθέσιμων :

Βιβλίο  “Natural Language Processing with Python”  Μπορείτε να εγκαταστήσετε τις πηγές του βιβλίου :

Βιβλίο – Χρήση των πηγών  Σε άγνωστα αντικείμενα θυμηθείτε το dir για να δουλέψετε

Βιβλίο – Μέτρηση συχνοτήτων  Απόδοση ?

Βιβλίο – Frequency Distribution  FreqDist  Δέχεται ως είσοδο τη λίστα από tokens  Δίνει ένα dictionary με key το token και value τη συχνότητα εμφάνισής του

Βιβλίο – Concordances

 Από το περιβάλλον συνεμφάνισης μπορούμε να αντλήσουμε στοιχεία για τη σημασιολογία των λέξεων :

Webtext  Συλλογή κειμένων από το διαδίκτυο  Τι διαφορές έχουν από τα υπόλοιπα κείμενα ?

Κείμενα από τον Παγκόσμιο Ιστό  Προκλήσεις στην επεξεργασία κειμένων από τον Παγκόσμιο Ιστό :  Τεράστιος όγκος δεδομένων  Συνεχής αύξηση των δεδομένων  Πολλές γλώσσες  Κείμενα χαμηλής ποιότητας ( πχ ασύντακτα και ανορθόγραφα )  Html μορφή και προβλήματα στην επεξεργασία της (not well- formed)  Ιδιαιτερότητες στην επικοινωνία :  Transliteration (greeklish, romanization etc.)  Internet Acronyms(afk, lol, btw, twot etc.)  Internet slang(noob, troll, fail etc.)

Penn Treebank Corpus Sample

 Penn Treebang Tagset: το tagset του Treetagger

Brown Corpus  Ξεκίνησε τη δεκαετία του ’60 στο Brown University  Συλλογή αντιπροσωπευτικών κειμένων της αγγλικής  Αποτέλεσε τη βάση για πολλά μορφοσυντακτικά σχολιασμένα corpora  Το Brown Corpus αποτελεί ιστορικό κομμάτι της υπολογιστικής γλωσσολογίας

Brown Corpus  Περιέχει κείμενα ταξινομημένα σε κατηγορίες  Επιτρέπει ανάκτηση λέξεων και προτάσεων ανά κατηγορία

Brown Corpus – Παράδειγμα χρήσης  Εύρεση του λεξιλογίου που συναντάται στα κείμενα επιστημονικής φαντασίας