Γλωσσική Τεχνολογία HTML/XML Processing – HTTP Services.

Slides:



Advertisements
Παρόμοιες παρουσιάσεις
Τεχνολογίες Web Απαραίτητες γνώσεις για την υλοποίηση της άσκησης.
Advertisements

Δημιουργία Ιστοσελίδων σε HTML και FrontPage Πρόγραμμα Αναμόρφωσης Προπτυχιακών Σπουδών Κεντρικό Γραφείο Υποστήριξης Εκπαιδευτικού Έργου Αλέξανδρος Λεκατσάς.
Κληρονομικότητα. Εισαγωγή  Κληρονομικότητα (Inheritance) καλείται ο μηχανισμός με τον οποίο μία νέα κλάση που ονομάζεται παράγωγη (derived class) δημιουργείται.
ΕΙΣΑΓΩΓΗ ΣΤΗΝ PHP. Τι θα μάθουμε;  Να καταλάβουμε τι είναι η PHP και πώς δουλεύουν τα PHP scripts  Τι χρειάζεται για να ξεκινήσουμε με την PHP  Να.
Τεχνικές Προγραμματισμού με την JavaScript Στυλιάδης Κων/νος Φλώρινα, Οκτώβριος 2004.
Εισαγωγή στην XML Μάρτιος 2005 Γ. Σ. Σακελλάρης Τ. Α. Κοντογιώργης
Διευκρινήσεις κώδικα Hy240b project 2014 phase 1.
Δ.Π.Θ. xml - 1 ΝΕΕΣ ΓΛΩΣΣΕΣ ΚΑΙ ΤΕΧΝΙΚΕΣ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟΥ XML Η HTML αποτέλεσε την πρώτη και κύρια γλώσσα δημιουργίας ιστοσελίδων από την έναρξη λειτουργίας.
Η γλώσσα μορφοποίησης υπερκειμένου HTML
Semantic Web Technologies
ΤΕΧΝΙΚΕΣ Αντικειμενοστραφουσ προγραμματισμου
MySQL + Γλώσσα Προγραμματισμού
Βάσεις Δεδομένων 1 T.Manavis– N.Kyritsis.
DATA MINING LECTURE 6 Mixture of Gaussians and the EM algorithm
ΤΕΧΝΙΚΕΣ Αντικειμενοστραφουσ προγραμματισμου
TEMPLATES STANDARD TEMPLATE LIBRARY ΟΝΤΟΚΕΝΤΡΙΚΟΣ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟΣ C Evangelos Theodoridis.
Γλωσσική Τεχνολογία Object-Orientation in Python.
Φροντηστήριο Διαχείριση Περιεχομένου Παγκόσμιου Ιστού και Γλωσσικά Eργαλεία.
ΔΟΜΕΣ ΔΕΔΟΜΕΝΩΝ Φροντιστήρια Εισηγητής: Σπύρος Αργυρόπουλος Μέλος ΕΤΕΠ Εργαστήριο Προγραμματισμού & Τεχνολογίας Ευφυών Συστημάτων.
Εισαγωγή στην XML Από την Καραδημητρίου Κρυσταλλένια Καθηγήτρια Πληροφορικής στο Γυμνάσιο και Ενιαίο Λύκειο Φιλώτα Φλώρινας Οκτώβριος 2004.
Web Services Υπηρεσίες διαδικτύου
Databases & Qt Μανούσης Πέτρος ΑΜ: 862
Uniform Resource Locators (URLs) Ορισμός : URL (Uniform Resource Locator): Δείκτης σε μία πηγή πληροφοριών του Παγκοσμίου Ιστού (World Wide Web) Στη Java,
AJAX Asynchronous JavaScript and XML Θ. Βαρβαρίγου Καθηγ. ΕΜΠ Τηλ
Λειτουργικά συστήματα ΙΙ
ΤΕΧΝΙΚΕΣ ΑΝΤΙΚΕΙΜΕΝΟΣΤΡΑΦΟΥΣ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟΥ Συλλογές.
Θέματα Βάσεων Δεδομένων Αποθήκευση XML δεδομένων σε Σχεσιακή Βάση Δεδομένων Θέματα Βάσεων Δεδομένων Αποθήκευση XML δεδομένων σε Σχεσιακή Βάση Δεδομένων.
Εργασία Η υλοποίηση του αλγορίθμου συγχώνευσης θα πρέπει να χρησιμοποιεί την ιδέα των ροών (streams). Θα πρέπει να υπάρχουν δύο διαφορετικά είδη.
Στο λειτουργικό σύστημα Windows, υπάρχουν εικονίδια (icons) τα οποία αναπαριστούν τις διάφορες οντότητες (φυλαγμένες πληροφορίες, προγράμματα που κάνουν.
ΕΝΟΤΗΤΑ 3 – Κεφάλαιο 9: Ζωγραφική
ΕΣΔ 232: Οργάνωση δεδομένων στην Κοινωνία της Πληροφορίας © 2013 Nicolas Tsapatsoulis Φόρμες Δημιουργία Περιεχομένου Ι.
Ιστοσελίδες -- Web-site. Εισαγωγή Στατικές ιστοσελίδες Δυναμικές ή Διαδραστικές ιστοσελίδες:  Ο τρόπος παρουσίασης και τα περιεχόμενά της ιστοσελίδας.
PHP/MYSQL ΠΑΡΟΥΣΙΑΣΗ ΣΤΑ ΠΛΑΙΣΙΑ ΤΟΥ ΜΑΘΗΜΑΤΟΣ ΕΠΟΙΚΟΙΝΩΝΙΑ ΑΝΘΡΩΠΟΥ-ΜΗΧΑΝΗΣ ΤΥΡΟΛΟΓΟΥ ΓΛΥΚΕΡΙΑ ΑΜ 875 ΡΙΖΟΥ ΔΕΣΠΟΙΝΑ ΑΜ 816.
Γλωσσική Τεχνολογία Εισαγωγικό Φροντιστήριο. Project του μαθήματος  Εργασία 2 ατόμων  Προφορική εξέταση για :  Project (80%)  Θεωρία (20%)  Στο φροντιστήριο.
Δομές Δεδομένων. Επιλογή δομής δεδομένων Κριτήρια: – Μέγεθος του προβλήματος – Πως θα χρησιμοποιηθεί Ενέργειες που καθορίζουν το κόστος: – Lookup: αναζήτηση/έλεγχος.
ΤΕΧΝΙΚΕΣ ΑΝΤΙΚΕΙΜΕΝΟΣΤΡΑΦΟΥΣ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟΥ Γενικευμένες κλάσεις Συλλογές.
Επικοινωνία Ανθρώπου Μηχανής HTML CGI JAVASCRIPT Κουμπούλης Χρήστος Α.Μ. 921 Χαλαβαζής Βασίλης Α.Μ. 988.
DreamWeaver Παρουσίαση Εργαλείου για Ανάπτυξη Web-based GUIs 1.
Εισαγωγή στην XML Μ. ΓΑΒΑΛΑΣ.
ΙΟΝΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΤΜΗΜΑ ΑΡΧΕΙΟΝΟΜΙΑΣ & ΒΙΒΛΙΟΘΗΚΟΝΟΜΙΑΣ ΜΕΤΑΠΤΥΧΙΑΚΟ ΠΡΟΓΡΑΜΜΑ ΣΠΟΥΔΩΝ ΣΤΗΝ ΕΠΙΣΤΗΜΗ ΤΗΣ ΠΛΗΡΟΦΟΡΙΑΣ “ USING MILOS TO BUILD A MULTIMEDIA.
Tomcat Θ. Βαρβαρίγου Καθηγήτρια ΕΜΠ Τηλ
Κεφάλαιο 11.1 Uniform Resource Locators (URLs). Ορισμός : URL (Uniform Resource Locator): Δείκτης σε μία πηγή πληροφοριών του Παγκοσμίου Ιστού (World.
ΔΟΜΕΣ ΔΕΔΟΜΕΝΩΝ – FILE & PROCESS HANDLING Διαχείριση Περιεχομένου Παγκόσμιου Ιστού και Γλωσσικά Εργαλεία.
#develop The open source IDE for.NET. Τι είναι το #develop? o Διαβάζεται SharpDevelop. o Είναι ένα opensource IDE για το.ΝΕΤ platform. o Είναι μία συλλογή.
Επαλήθευση κα Βελτιστοποίηση Συστήματος Διαχείρισης XML εγγράφου στη γλώσσα CLIPS Διπλωματική Εργασία της Andoena Balla.
ΗΥ-340 Γλώσσες και Μεταφραστές Φροντιστήριο Syntax Directed Translation and alpha Language.
ΕΙΣΑΓΩΓΙΚΟ ΦΡΟΝΤΙΣΤΗΡΙΟ Διαχείριση Περιεχομένου Παγκόσμιου Ιστού και Γλωσσικά Εργαλεία.
EXtensible Markup Language (XML) και XML Schema Γιώργος Θάνος Παρασκευή 31 Οκτωβρίου 2008.
XML Parsing Γιώργος Θάνος Παρασκευή 14 Νοεμβρίου 2008.
HTML-PHP Καμπέρης Άρης Α.Μ. 763 Zaher Owda Α.Μ. 849.
1. 1.Δημιουργία Νέου Αρχείου Επιλέγουμε καρτέλα File, πατούμε στην εντολή New και μετα αφου διαλέξουμε τον τύπo αρχείου (π.χ Blank Document), πατούμε.
Βάσεις Δεδομένων και Παγκόσμιος Ιστός Βασικές έννοιες του Ιστού.
Μάθημα 1 ΔΙΑΔΙΚΤΥΟ Διευθύνσεις και Πρωτόκολλα. Διευθύνσεις Πως αποκωδικοποιούνται οι διευθύνσεις: Πρωτόκολλο://server.domain.
ΕΝΟΤΗΤΑ 3 – Κεφάλαιο 9: Ζωγραφική
Ασκήσεις στην Java-XML
Βασικά Web εργαλεία και τεχνολογίες
Διευθύνσεις και Πρωτόκολλα στο διαδίκτυο
Προγραμματισμός Εφαρμογών Διαδικτύου
Εισαγωγικά Θέματα Διαχείρισης Δικτύων
Structure of Management Information (SMI)
ΕΡΓΑΣΤΗΡΙΟ Ηλεκτρονικού Εμπορίου Ε-Επιχειρείν
Java DataBase Connectivity
ΤΕΧΝΟΛΟΓΙΚΟ ΕΚΠΑΙΔΕΥΤΙΚΟ ΙΔΡΥΜΑ ΣΕΡΡΩΝ
Αρχεσ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟΥ Η/Υ ΤΑξη Β΄
Κεφάλαιο 6o. Επίπεδο εφαρμογής
Κεφαλαιο 11 ΕΙΣΑΓΩΓΗ ΣΤΗΝ HTML.
Web Services στη C# Εργαστήριο 3
Ερωτήματα Επιλογής σε ACCESS
UNIT 1 Τα Πρώτα Προγράμματα.
ΕΝΟΤΗΤΑ 3 – Κεφάλαιο 9: Ζωγραφική
Μεταγράφημα παρουσίασης:

Γλωσσική Τεχνολογία HTML/XML Processing – HTTP Services

Περιεχόμενα  HTML processing  XML processing  HTTP services  URL parsing  URL opening  Content fetching  Project

HTML Processing  3 built-in modules:  HTMLParser – Simple HTML parser  sgmllib – Simple SGML parser  htmllib – A parser for HTML documents  Άλλες βιβλιοθήκες :  BeautifulSoup

HTMLParser  HTMLParser methods:  HTMLParser.reset()  HTMLParser.feed(data)  HTMLParser.close()  HTMLParser.handle_starttag(tag, attrs)  HTMLParser.handle_endtag(tag)  HTMLParser.handle_data(data)  HTMLParser.handle_comment(data)

HTMLParser - Παράδειγμα

sgmllib  Αποτελεί την βάση για επεξεργασία οποιουδήποτε κειμένου σε SGML (Standard Generalized Mark-up Language) μορφή.  Στην πραγματικότητα υλοποιήθηκε ως βάση για την επεξεργασία HTML και του module htmllib.  Παρόμοιο σύνολο συναρτήσεων με αυτό του HTMLParser.  Ευρεία χρήση αντί του HTMLParser.

BaseHTMLProcessor 1/2

BaseHTMLProcessor 2/2

SubHTMLProcessor

XML related standards  SAX (Simple API for XML)  event-driven interface  απλό  γρήγορο  διάτρεξη XML εγγράφου  DOM (Document Object Model)  tree-based representation  αργό  μνημοβόρο  αλλαγή δομής XML εγγράφου

XML modules  xml.parsers.expat - Fast XML parsing using Expat  xml.dom - The Document Object Model API  xml.dom.minidom - Lightweight DOM implementation  xml.dom.pulldom - Support for building partial DOM trees  xml.sax - Support for SAX2 parsers  xml.sax.handler - Base classes for SAX handlers  xml.sax.saxutils - SAX Utilities  xml.sax.xmlreader - Interface for XML parsers  xml.etree.ElementTree - The ElementTree XML API

Other Libraries  BeautifulSoup  lxml  PyXML  libxml2  and more…

The ElementTree XML API  Element:  Αντικείμενο για την ιεραρχική αποθήκευση δεδομένων στην μνήμη. Κάθε element σχετίζεται με :  ένα tag (string), ονομάζεται element type και προσδιορίζει τον « τύπο » δεδομένων ( στο XML) που διατηρεί το element  ένα πλήθος attributes, αποθηκευμένα σε dictionary  ένα string ( το κείμενο μεταξύ των tags)  ένα προεραιτικό tail string και  ένα πλήθος από child elements, αποθηκευμένα σε sequence.

ElementTree methods  xml.etree.ElementTree.fromstring(text):  Διαβάζει XML κείμενο από string (text).  xml.etree.ElementTree.parse(source, parser=None):  Διαβάζει XML κείμενο από αρχείο (source).  xml.etree.ElementTree.iselement(element):  Boolean συνάρτηση για τον έλεγχο επικύρωσης ενός element object.  xml.etree.ElementTree.SubElement(parent, tag, attrib={}, **extra):  Δημιουργεί ένα αντικείμενο element και το προσθέτει στο υπάρχον element.

ElementTree Objects  tag:  ένα string που προσδιορίζει τον τύπο δεδομένων (element type)  text:  ένα string που διατηρεί το κείμενο μεταξύ start και close tags  tail:  ένα string που διατηρεί οποιοδήποτε κείμενο που ( αν ) βρίσκεται μεταξύ του close tag και του επόμενου tag  attrib:  ένα dictionary που διατηρεί τα attributes του element.  ΠΡΟΣΟΧΗ !! Μην χρησιμοποιείτε τις κλασσικές μεθόδους για dictionaries αλλά αυτές στην επόμενη διαφάνεια !!

dictionary-like methods  clear():  « καθαρίζει » (reset) όλα τα objects ενός element  get(key, default=None):  επιστρέφει την τιμή του attribute με όνομα key  items():  επιστρέφει τα attributes ενός element σε μια ακολουθία από ζεύγη (name, value) σε τυχαία σειρά  keys():  επιστρέφει με τυχαία σειρά τα ονόματα των attributes ενός element μέσα σε μία λίστα  set(key, value):  θέτει το attribute με όνομα key ενός element στην τιμή value

methods on subelements  append(subelement):  προσθέτει ένα subelement στην λίστα του element στο οποίο ανήκει  find(match):  επιστρέφει το πρώτο subelement που ταιριάζει με το match. Το match μπορεί να είναι tag name ή path.  findall(match):  επιστρέφει όλα τα matching subelements σε μία λίστα με την σειρά που εμφανίζονται  insert(index, element):  εισάγει ένα subelement στο element στη θέση index  remove(subelement):  απομακρύνει το subelement

ElementTree Objects  getroot():  επιστρέφει το root element του δέντρου  find(match):  ίδια με την getroot().find(match)  findall(match):  ίδια με την getroot().findall(match)  parse(source, parser=None):  φορτώνει ένα XML από το αρχείο source στην μνήμη σε μορφή element tree. Ως parser μπορείτε να αφήσετε τον default XMLParser.  write(file, encoding="us-ascii", xml_declaration=None, method="xml"):  γράφει το element tree στο αρχείο file. Το default encoding είναι US- ASCII. Το xml_declaration ελέγχει την ύπαρξη δήλωσης του XML εγγράφου. Το None χρησιμοποιείται by default όταν το encoding δεν είναι US-ASCII. Το method είναι by default "xml“, δεν το αλλάζετε.

ElementTree - Παράδειγμα

HTTP Web Services  4 built-in modules:  urlparse - parse URLs into components  httplib - HTTP protocol client  urllib - open arbitrary resources by URL  urllib2 - extensible library for opening URLs

urlparse 1/2  urlparse.urlparse(urlstring[, scheme[, allow_fragments]]):  διάτρεξη του URL και « σπάσιμο » σε 6 κομμάτια. Το URL θεωρείται ότι είναι της μορφής : scheme://netloc/path;parameters?query#fragment  Μεγάλη ΠΡΟΣΟΧΗ στην χρήση της !! Μπορεί να έχετε απροσδόκητα αποτελέματα !!

urlparse 2/2  urlparse.urlsplit(urlstring[, scheme[, allow_fragments]]):  παρόμοια με την urlparse() και χρησιμοποιείτε αυτήν αντί της urlparse(). Επιστρέφει μια 5-tuple: (addressing scheme, network location, path, query, fragment identifier). Δεν « σπάει » δηλαδή τις παραμέτρους για τις οποίες χρειάζεται μια επιπλέον συνάρτηση.  ParseResult.geturl ():  επιστρέφει το αρχικό URL. Μεγάλη ΠΡΟΣΟΧΗ στην χρήση της !! Το αποτέλεσμα που επιστρέφεται μπορεί να είναι διαφορετικό από το αρχικό URL.

urllib  urllib.urlopen(url[, data[, proxies]]):  ο απλός αλλά ΌΧΙ προτεινόμενος τρόπος να κατεβάσετε περιεχόμενο από ένα URL

urllib2  Διαδικασία 3 βημάτων :  Το πρώτο βήμα είναι να δημιουργήσετε μια αίτηση (Request object) του τι θέλετε να κατεβάσετε.  Το δεύτερο βήμα είναι να δημιουργήσετε έναν URL opener. Το πλεονέκτημα που αποκτάτε είναι ότι μπορείτε να ορίσετε τους δικούς σας handlers για το πως θα διαχειρίζεται κάθε ειδική περίπτωση, πχ : redirects.  Το τελευταίο βήμα είναι να εκτελέσετε τον opener έτσι ώστε να κατεβάσετε την πληροφορία που θέλετε.

Redirect Handlers  class urllib2.HTTPRedirectHandler:  Ο default redirect handler για redirects. Μπορείτε να γράψετε τους δικούς σας για να διαχειριστείτε οποιοδήποτε redirect της σειράς 3xx (redirection).

Error handlers  class urllib2.HTTPDefaultErrorHandler:  Ο default error handler για HTTP error responses. Μπορείτε να γράψετε τους δικούς σας για να διαχειριστείτε οποιοδήποτε bad request της σειράς 4xx (client error) ή 5xx (server error).

Σύνοψη  Παρατηρείστε την διαχείριση των σελίδων σαν αρχεία ( συναρτήσεις open(), read(), close()).  Παρατηρείστε επίσης την χρήση handlers για τον χειρισμό ειδικών περιπτώσεων.  Παρατηρείστε τέλος την χρήση timeout κατά την αίτηση ανοίγματος της σελίδας.