Η παρουσίαση φορτώνεται. Παρακαλείστε να περιμένετε

Η παρουσίαση φορτώνεται. Παρακαλείστε να περιμένετε

Βάσεις Δεδομένων ΙΙ 2004-2005 Ευαγγελία Πιτουρά 1 Βάσεις Διαδικτύου.

Παρόμοιες παρουσιάσεις


Παρουσίαση με θέμα: "Βάσεις Δεδομένων ΙΙ 2004-2005 Ευαγγελία Πιτουρά 1 Βάσεις Διαδικτύου."— Μεταγράφημα παρουσίασης:

1 Βάσεις Δεδομένων ΙΙ 2004-2005 Ευαγγελία Πιτουρά 1 Βάσεις Διαδικτύου

2 Βάσεις Δεδομένων ΙΙ 2004-2005 Ευαγγελία Πιτουρά 2 Θέματα Εισαγωγή στην XML Ευρετήρια για την Ανάκτηση Κειμένων Ο αλγόριθμος HITS

3 Βάσεις Δεδομένων ΙΙ 2004-2005 Ευαγγελία Πιτουρά 3 Τι είναι η XML Mark-up Γλώσσες (Γλώσσες Σημειοθέτησης) HTML ετικέτες (tags) για την αναπαράσταση της δομής των εγγράφων XML (Extensible Markup Language) δε διαθέτει μια συγκεκριμένη συλλογή ετικετών με σταθερή και καθορισμένη σημασία Αντίθετα, ο χρήστης μπορεί να ορίσει δικές του ετικέτες – που συνήθως αφορούν τη σημασία του περιεχομένου

4 Βάσεις Δεδομένων ΙΙ 2004-2005 Ευαγγελία Πιτουρά 4 Παράδειγμα XML Richard Feymann Απλά και εμφωλευμένα στοιχεία (elements/sub-elements) Ετικέτα αρχής ( ) και ετικέτα τέλους ( )

5 Βάσεις Δεδομένων ΙΙ 2004-2005 Ευαγγελία Πιτουρά 5 Παράδειγμα XML Richard Feymann Γνωρίσματα (Attributes) περιγραφικές πληροφορίες για τα στοιχεία att = “value”

6 Βάσεις Δεδομένων ΙΙ 2004-2005 Ευαγγελία Πιτουρά 6 Richard Feymann The Character of Physical Law 1980 R. K Narayan The Character of Physical Law 1981

7 Βάσεις Δεδομένων ΙΙ 2004-2005 Ευαγγελία Πιτουρά 7 R. K Narayan The English Teacher 1980 Παράδειγμα XML Ορθά Διαμορφωμένο ( well-formed)  Ξεκινά με δηλωτικό  Υπάρχει στοιχείο ρίζα  Κατάλληλα εμφωλευμένα στοιχεία

8 Βάσεις Δεδομένων ΙΙ 2004-2005 Ευαγγελία Πιτουρά 8 Μια δήλωση DTD είναι ένα σύνολο από κανόνες που επιτρέπουν στο χρήστη να ορίζει το δικό του σύνολο στοιχείων και γνωρισμάτων Έγκυρο έγγραφο όταν συνοδεύεται από μια αντίστοιχη DTD και το έγγραφο είναι δομημένο σύμφωνα με τους κανόνες που ορίζει η DTD XML DTD

9 Βάσεις Δεδομένων ΙΙ 2004-2005 Ευαγγελία Πιτουρά 9 Παράδειγμα DTD

10 Βάσεις Δεδομένων ΙΙ 2004-2005 Ευαγγελία Πιτουρά 10 Παράδειγμα DTD Γενικό σχήμα Στοιχείο ρίζα

11 Βάσεις Δεδομένων ΙΙ 2004-2005 Ευαγγελία Πιτουρά 11 Παράδειγμα DTD * 0 ή περισσότερα + 1 ή περισσότερα ? Προαιρετική εμφάνιση, subelements

12 Βάσεις Δεδομένων ΙΙ 2004-2005 Ευαγγελία Πιτουρά 12 Παράδειγμα DTD * 0 ή περισσότερα + 1 ή περισσότερα ? Προαιρετική εμφάνιση, subelements

13 Βάσεις Δεδομένων ΙΙ 2004-2005 Ευαγγελία Πιτουρά 13 Παράδειγμα DTD #PCDATA δηλώνει στοιχεία με μορφή χαρακτήρων

14 Βάσεις Δεδομένων ΙΙ 2004-2005 Ευαγγελία Πιτουρά 14 Παράδειγμα DTD Γενικά Όπου contenttype  Άλλα στοιχεία  #PCDATA  EMPTY  Κανονική έκφραση exp1, exp2, exp3, … exp* exp? exp+ exp1 | exp2

15 Βάσεις Δεδομένων ΙΙ 2004-2005 Ευαγγελία Πιτουρά 15 Παράδειγμα DTD attType: τύποι απαρίθμησης ή τύποι συμβολοσειράς

16 Βάσεις Δεδομένων ΙΙ 2004-2005 Ευαγγελία Πιτουρά 16 XML XQuery: Γλώσσα ερωτήσεων για XML δεδομένα Τεχνικές  Για την αποθήκευση δεδομένων σε σχεσιακές βάσεις δεδομένων  Ειδικές (native) βάσεις δεδομένων για αποθήκευση εγγράφων XML http://www.w3.org/XML/ http://www.w3.org/XML/Query

17 Βάσεις Δεδομένων ΙΙ 2004-2005 Ευαγγελία Πιτουρά 17 Θέματα Εισαγωγή στην XML Ευρετήρια για την Ανάκτηση Κειμένων Ο αλγόριθμος HITS

18 Βάσεις Δεδομένων ΙΙ 2004-2005 Ευαγγελία Πιτουρά 18 Ευρετηριοποίηση για την Ανάκτηση Κειμένων Βάση κειμένων: συλλογή από έγγραφα Αναζήτηση με μια λέξη κλειδί (keyword queries) Αίτημα Boole (t 11  t 12  …  t i11 )  (t 21  t 22  …  t 2i2 )  …. (t j1  t j2  …  t jij ) Αίτημα Διαβάθμισης (Ranking)

19 Βάσεις Δεδομένων ΙΙ 2004-2005 Ευαγγελία Πιτουρά 19 Ευρετηριοποίηση για την Ανάκτηση Κειμένων Παράδειγμα Rid Λέξεις-Κλειδιά 1agent James Bond 2agent mobile computer 3James Madison movie 4James Bond movie Παράδειγμα ερωτήσεων

20 Βάσεις Δεδομένων ΙΙ 2004-2005 Ευαγγελία Πιτουρά 20 Ανεστραμμένο Αρχείο Μια ταξινομημένη λίστα (ανεστραμμένη λίστα) για κάθε όρο Ευρετήριο Λεξιλογίου: Για τον ταχύτερο εντοπισμό της λίστας για κάθε όρο: Το σύνολο των όρων μπορεί να οργανωθεί με τη χρήση μιας δομής ευρετηρίου (π.χ. Β+-δέντρο) Παράδειγμα Ένας όρος, σύζευξη, διάζευξη

21 Βάσεις Δεδομένων ΙΙ 2004-2005 Ευαγγελία Πιτουρά 21 Αρχείο Υπογραφών Υπογραφή εγγράφου (File Signature) Μια εγγραφή ευρετηρίου για κάθε έγγραφο στη βάση δεδομένων Σταθερό μήκος bits – εύρος υπογραφής Υ1 ταιριάζει με Υ2, Υ1 τουλάχιστον τα 1 που έχει και η Υ2 Εσφαλμένη διάγνωση (false positive) Παράδειγμα Ένας όρος, σύζευξη, διάζευξη

22 Βάσεις Δεδομένων ΙΙ 2004-2005 Ευαγγελία Πιτουρά 22 Αρχείο Υπογραφών Αρχείο υπογραφών με κατακόρυφο διαμερισμό σε μονοψήφιες στήλες: Διαμερίζουμε ένα αρχείο υπογραφών σε ένα σύνολο κατακόρυφων δυαδικών στηλών Για κ άσσους ανάκτηση κ-στηλών

23 Βάσεις Δεδομένων ΙΙ 2004-2005 Ευαγγελία Πιτουρά 23 Θέματα Εισαγωγή στην XML Ευρετήρια για την Ανάκτηση Κειμένων Αναζητήσεις λέξεων κλειδιών στο διαδίκτυο: Ο αλγόριθμος HITS

24 Βάσεις Δεδομένων ΙΙ 2004-2005 Ευαγγελία Πιτουρά 24 O Αλγόριθμος HITS Δύο τύποι σελίδων Αυθεντική Μια σελίδα που είναι αυθεντία σε ένα θέμα και αναγνωρίζεται ως τέτοια από άλλες σελίδες (δηλαδή, υπάρχουν πολλοί σύνδεσμοι σε αυτήν) Κομβικοί Μια σελίδα που αναφέρεται σε μια αυθεντική σελίδα

25 Βάσεις Δεδομένων ΙΙ 2004-2005 Ευαγγελία Πιτουρά 25 O Αλγόριθμος HITS Το web ως ένας κατευθυνόμενος γράφος Κόμβοι: ιστοσελίδες Ακμή από Α στον Β: η ιστοσελίδα Α έχει έναν υπερ-σύνδεσμο στην ιστοσελίδα Β Ο αλγόριθμος σε 2 φάσεις: Φάση Ι: (δειγματοληπτικό στάδιο) ένα σύνολο σελίδων που αποτελεί το βασικό σύνολο Φάση ΙΙ: (επαναληπτικό στάδιο) επεξεργασία του βασικού συνόλου για τον εντοπισμό καλών αυθεντικών και κομβικών ιστοσελίδων

26 Βάσεις Δεδομένων ΙΙ 2004-2005 Ευαγγελία Πιτουρά 26 O Αλγόριθμος HITS Φάση Ι: Υπολογισμός βασικού συνόλου 1. Υπολογισμός αρχικού συνόλου: σύνολο-ρίζα Κλασικοί μέθοδοι: πχ ανάκτηση όλων των σελίδων που περιέχουν τις λέξεις κλειδιά (περιμένουμε ότι θα περιέχει (τουλάχιστον) αναφορές προς σχετικές σελίδες) 2. Σελίδες-σύνδεσμοι: σελίδα που είτε συμπεριλαμβάνει σύνδεσμο που να αναφέρεται στο σύνολο ρίζα είτε το σύνολο ρίζα περιέχει σύνδεσμο που αναφέρεται σε αυτήν Βασικό Σύνολο: διεύρυνση του συνόλου-ρίζα ώστε να περιλαμβάνει και τις σελίδες συνδέσμους – Βασικές ιστοσελίδες

27 Βάσεις Δεδομένων ΙΙ 2004-2005 Ευαγγελία Πιτουρά 27 O Αλγόριθμος HITS Φάση ΙΙ: Ποιες βασικές ιστοσελίδες είναι κόμβοι και αυθεντίες Κάθε βασική σελίδα p δύο τιμές: h p - Συντελεστής Κομβικού Ρόλου (πολλούς δείκτες σε αυθεντικές) a p - Συντελεστής Αυθεντικότητας (πολλοί δείκτες από κομβικές σε αυτήν) Αρχικοποίηση,  p, h p = 1 και α p = 1 Επαναληπτικά, αυξάνεται a p = Σ h q Βασικές σελίδες q που δείχνουν στην p h p = Σ α q Βασικές σελίδες q στις οποίες δείχνει η p

28 Βάσεις Δεδομένων ΙΙ 2004-2005 Ευαγγελία Πιτουρά 28 O Αλγόριθμος HITS Έστω το βασικό σύνολο σελίδων {1, 2,..., n} Πίνακας Γειτνίασης (adjacency matrix) B: n x n B[i, j] = 1 αν η σελίδα i περιέχει σύνδεσμο που δείχνει στη σελίδα j Έστω h = το διάνυσμα συντελεστών κομβικών ρόλων και α = το διάνυσμα συντελεστών αυθεντικότητας

29 Βάσεις Δεδομένων ΙΙ 2004-2005 Ευαγγελία Πιτουρά 29 O Αλγόριθμος HITS Οι κανόνες ενημέρωσης h = B aa = B Τ h 1η επανάληψη h = B B Τ h = (B B Τ ) ha = B T B a = (B T B) a 2η επανάληψη h = (B B Τ ) 2 ha = (B T B) 2 a Σύγκλιση στα ιδιοδιανύσματα του ΒΒ Τ και Β Τ Β αν κανονικοποιηθούν αρχικά οι συντελεστές


Κατέβασμα ppt "Βάσεις Δεδομένων ΙΙ 2004-2005 Ευαγγελία Πιτουρά 1 Βάσεις Διαδικτύου."

Παρόμοιες παρουσιάσεις


Διαφημίσεις Google