Advanced Data Indexing (Προηγμένη ευρετηρίαση δεδομένων) Ροές Δεδομένων (3 ο Μέρος)

Slides:



Advertisements
Παρόμοιες παρουσιάσεις
Πιθανότητες & Τυχαία Σήματα
Advertisements

Προσομοίωση Απλού Μοντέλου Markov σε
Βασικές έννοιες αλγορίθμων
ΗΜΥ 100 Εισαγωγή στην Τεχνολογία
Βάσεις Δεδομένων Ευαγγελία Πιτουρά1 Λογικός Σχεδιασμός Σχεσιακών Σχημάτων: Αποσύνθεση.
ΕΙΣΑΓΩΓΗ ΣΤΗ ΘΕΩΡΙΑ ΣΗΜΑΤΩΝ & ΣΥΣΤΗΜΑΤΩΝ ΜΕΤΑΣΧΗΜΑΤΙΣΜΟΣ-Z.
Αντισταθμιστική ανάλυση Κατά τη διάρκεια εκτέλεσης του Α η Δ πραγματοποιεί μία ακολουθία από πράξεις. Θεωρήστε έναν αλγόριθμο Α που χρησιμοποιεί μια δομή.
Ασκήσεις Συνδυαστικής
Ανακτηση Πληροφοριασ σε νεφη Υπολογιστων
ΣΥΜΠΙΕΣΗ Τεράστιες ανάγκες σε αποθηκευτικό χώρο Παράδειγμα:
Πολυπλοκότητα Παράμετροι της αποδοτικότητας ενός αλγόριθμου:
ΓΡΗΓΟΡΟΣ ΜΕΤΑΣΧΗΜΑΤΙΣΜΟΣ FOURIER
Robustness in Geometric Computations Christoph M. Hoffmann.
Δομές Αναζήτησης TexPoint fonts used in EMF. Read the TexPoint manual before you delete this box.: AA A A A εισαγωγή αναζήτησηεπιλογή διατεταγμένος πίνακας.
Ψηφιακά Δένδρα TexPoint fonts used in EMF. Read the TexPoint manual before you delete this box.: AA A A A Μπορούμε να χρησιμοποιήσουμε την παραπάνω αναπαράσταση.
Εισαγωγικές Έννοιες Διδάσκοντες: Σ. Ζάχος, Δ. Φωτάκης Επιμέλεια διαφανειών: Δ. Φωτάκης Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών Εθνικό Μετσόβιο.
Αναγνώριση Προτύπων.
Κοντινότεροι Κοινοί Πρόγονοι α βγ θ δεζ η π ν ι κλμ ρσ τ κκπ(λ,ι)=α, κκπ(τ,σ)=ν, κκπ(λ,π)=η κκπ(π,σ)=γ, κκπ(ξ,ο)=κ ξο κκπ(ι,ξ)=β, κκπ(τ,θ)=θ, κκπ(ο,μ)=α.
Η αλληλουχία των ενεργειών δεν είναι πάντα μία και μοναδική!!!
Δυναμική Διατήρηση Γραμμικής Διάταξης Διατηρεί μια γραμμική διάταξη δυναμικά μεταβαλλόμενης συλλογής στοιχείων. Υποστηρίζει τις λειτουργίες: Έλεγχος της.
Ψηφιακά Δένδρα TexPoint fonts used in EMF. Read the TexPoint manual before you delete this box.: AA A A A Μπορούμε να χρησιμοποιήσουμε την παραπάνω αναπαράσταση.
ΘΕΩΡΙΑ ΠΟΛΥΠΛΟΚΟΤΗΤΑΣ ΠΑΡΟΥΣΙΑΣΗ ΣΤΑ ΚΕΦΑΛΑΙΑ 7.4 – 7.6 NP ΠΛΗΡΟΤΗΤΑ.
Ενεργή επιλογή αλγορίθμου, Active Algorithm Selection, Feilong Chen and Rong Jin Εύα Σιταρίδη.
Εργαστήριο Ψηφιακής Επεξεργασίας Εικόνας
Δυναμικά Σύνολα TexPoint fonts used in EMF. Read the TexPoint manual before you delete this box.: AA A AA A A Δυναμικό σύνολο Tα στοιχεία του μεταβάλλονται.
Κ. Μόδη: Γεωστατιστική και Εφαρμογές της (Κεφάλαιο 4) 1 Από κοινού κατανομή πολλών ΤΜ Ορίζεται ως από κοινού συνάρτηση κατανομής F(x 1, …, x n ) n τυχαίων.
Μοντέλα - Αλγόριθμοι – Ταξινόμηση Advanced Data Indexing (Προηγμένη ευρετηρίαση δεδομένων)
Υπολογιστική Πολυπλοκότητα Διδάσκοντες: Σ. Ζάχος, Δ. Φωτάκης Επιμέλεια διαφανειών: Δ. Φωτάκης Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών Εθνικό.
Λεξικό, Union – Find Διδάσκοντες: Σ. Ζάχος, Δ. Φωτάκης Επιμέλεια διαφανειών: Δ. Φωτάκης Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών Εθνικό Μετσόβιο.
Advanced Data Indexing (Προηγμένη ευρετηρίαση δεδομένων) Κατακερματισμός – Hashing (1 ο Μέρος)
Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1 Εισαγωγή στην Επεξεργασία Ερωτήσεων.
Προγραμματισμός Γιατι γραφουμε προγραμματα (προηγ. διαλεξη)
Olympia Nikou1 Τίτλος Παρουσίασης: Προσεγγιστικός Υπολογισμός των λύσεων ενός προβλήματος με: Δειγματοληψία στον χώρο αναζήτησης των λύσεων.
Δομές Δεδομένων 1 Θέματα Απόδοσης. Δομές Δεδομένων 2 Οργανώνοντας τα Δεδομένα  Η επιλογή της δομής δεδομένων και του αλγορίθμου επηρεάζουν το χρόνο εκτέλεσης.
Βάσεις Δεδομένων Ευαγγελία Πιτουρά1 Λογικός Σχεδιασμός Σχεσιακών Σχημάτων.
ΑΛΓΕΒΡΟ - ΠΟΛΥΩΝΥΜΙΚΕΣ ΥΠΟΛΟΓΙΣΤΙΚΕΣ ΜΕΘΟΔΟΙ ΣΤΗ ΘΕΩΡΙΑ ΕΛΕΓΧΟΥ Διδακτορική διατριβή Σταύρος Δ. Βολογιαννίδης URL:
Πηγή: Βιοστατιστική [Β.Γ. Σταυρινός, Δ.Β. Παναγιωτάκος]
Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1 Ευρετήρια.
JPEG Μια τεχνική συμπίεσης ακίνητης εικόνας. Η Τεχνική JPEG Αφορά συμπίεση ακίνητων εικόνων Είναι τεχνική συμπίεσης με απώλειες Το πρόβλημα είναι η εκάστοτε.
Παρεμβολή συνάρτησης μιας μεταβλητής με την βοήθεια νευρωνικών δικτύων
Διάλεξη 14: Εισαγωγή στη ροή ρευστών
Μετασχηματισμός Fourier
Συνδετικότητα γραφήματος (graph connectivity). α β Υπάρχει μονοπάτι μεταξύ α και β; Παραδείγματα: υπολογιστές ενός δικτύου ιστοσελίδες ισοδύναμες μεταβλητές.
Κρυφή μνήμη (cache memory) (1/2) Εισαγωγή στην Πληροφορκή1 Η κρυφή μνήμη είναι μία πολύ γρήγορη μνήμη – πιο γρήγορη από την κύρια μνήμη – αλλά πιο αργή.
Σχεδιασμός των Μεταφορών Ενότητα #5: Δειγματοληψία – Sampling. Δρ. Ναθαναήλ Ευτυχία Πολυτεχνική Σχολή Τμήμα Πολιτικών Μηχανικών.
Φυσική για Επιστήμονες και Μηχανικούς Εισαγωγή – Φυσική και μετρήσεις.
Σήματα και Συστήματα 11 10η διάλεξη. Σήματα και Συστήματα 12 Εισαγωγικά (1) Έστω γραμμικό σύστημα που περιγράφεται από τη σχέση: Αν η είσοδος είναι γραμμικός.
ΣΗΜΑΤΑ ΚΑΙ ΣΥΣΤΗΜΑΤΑ II Καθ. Πέτρος Π. Γρουμπός Διάλεξη 8η Στοχαστικά Σήματα - 1.
ΣΗΜΑΤΑ ΚΑΙ ΣΥΣΤΗΜΑΤΑ II Καθ. Πέτρος Π. Γρουμπός Διάλεξη 4η Δειγματοληψία.
Ευρετήρια Βάσεις Δεδομένων Ευαγγελία Πιτουρά.
Δυναμικός Κατακερματισμός
ΑΛΓΟΡΙΘΜΟΣ ΠΡΟΒΛΗΜΑ ΑΛΓΟΡΙΘΜΟΣ ΛΥΣΗ
ΕΙΣΑΓΩΓΗ ΣΤΟΥΣ ΕΞΕΛΙΚΤΙΚΟΥΣ ΑΛΓΟΡΙΘΜΟΥΣ
Επιστημονικός Υπολογισμός Ι
Διδάσκων: Δρ. Τσίντζα Παναγιώτα
Αρχεσ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟΥ Η/Υ ΤΑξη Β΄
ΑΝΑΠΑΡΑΣΤΑΣΗ ΑΚΕΡΑΙΩΝ
Μέγιστη ροή Κατευθυνόμενο γράφημα 12 Συνάρτηση χωρητικότητας
ΕΙΣΑΓΩΓΗ ΣΤΟΥΣ ΕΞΕΛΙΚΤΙΚΟΥΣ ΑΛΓΟΡΙΘΜΟΥΣ
Ψηφιακός Έλεγχος διάλεξη Παρατηρητές Ψηφιακός Έλεγχος.
Ονοματεπώνυμο Σπουδάστριας: Ευαγγελία Δάπκα
ΚΕΦΑΛΑΙΟ 1 Ανάλυση προβλήματος.
Ονοματεπώνυμο : ………………………. Τμήμα : Β…. α ή β
Ονοματεπώνυμο : Χρυσούλα Αγγελοπούλου Καθηγήτρια Πληροφορικής
Δισδιάστατα Σήματα και Συστήματα #1
Τμήμα Μηχανικών Πληροφορικής Τ.Ε.
Χειμερινό εξάμηνο 2017 Στέλιος Πετράκης
Βασικές έννοιες (Μάθημα 2) Τίτλος: Η Συσκευή
Εξωτερική Αναζήτηση Ιεραρχία Μνήμης Υπολογιστή Εξωτερική Μνήμη
Δυναμικός Κατακερματισμός
Μεταγράφημα παρουσίασης:

Advanced Data Indexing (Προηγμένη ευρετηρίαση δεδομένων) Ροές Δεδομένων (3 ο Μέρος)

Άλλες Μέθοδοι για Ροές Αποτύπωμα

Είναι μία μέθοδος τοποθέτησης διακριτών αναγνωριστικών ετικετών σε σύνολα μεγάλων αντικειμένων. Στόχοι Αποφυγή αποθήκευσης ολόκληρων των αντικειμένων. Γρήγορος και αποτελεσματικό έλεγχος ισότητας αντικειμένων. Γρήγορη αναζήτηση αντικειμένων με βάση το αποτύπωμά τους. Ιδιότητες Οι ετικέτες/αποτυπώματα πρέπει να είναι μικρές. Διαφορετικά αποτυπώματα πρέπει να αντιστοιχούν σε διαφορετικά αντικείμενα. Διαφορετικά αντικείμενα πιθανώς να έχουν διαφορετικά αποτυπώματα.

Η Δομή ενός Αποτυπώματος Ένα αποτύπωμα αποτελείται από δυαδικά ψηφία (bits). Ένα αποτύπωμα μεγέθους k αντιστοιχεί σε αντικείμενα με μέγεθος χώρου N=2 k. Για την αντιστοιχία ορίζεται μία οικογένεια συναρτήσεων του αποτυπώματος από τον χώρο των αντικειμένων Ω σε λέξη των k bits: F = {f :  k } Κάθε τυχαία συνάρτηση της οικογένειας f  F πρέπει να έχει τις εξής ιδιότητες: f(A) ≠ f(B)  A ≠  (διαφορετικά αποτυπώματα αντιστοιχούν σε διαφορετικά αντικείμενα). P[ f(A) = f(B) | A ≠    (η πιθανότητα δύο διαφορετικά αντικείμενα να έχουν το ίδιο αποτύπωμα πρέπει να είναι κοντά στο 0 [ιδεατά να είναι 2 O(-k) ]). Τυπική Περίπτωση: Αν έχουμε ένα σύνολο αντικειμένων S με |S| = n << 2 k Για να πετύχουμε στην 2 η ιδιότητα αρκεί: |f(S)| = |S| με μεγάλη πιθανότητα. Έχουμε n 2 πιθανές συγκρούσεις ζευγαριών, άρα απαιτείται: 2 k > n 2.

Παράδειγμα – URL Αποτυπώματα Εφαρμογή στις Μηχανές Αναζήτησης Διαχείριση μεγάλου πλήθους URLs λέξεων. Μεγάλες, μεταβλητού μεγέθους λέξεις. Τι μέγεθος αποτυπώματος απαιτείται; 4 δις ιστοσελίδες  n=2 32 N  n 2  k=64 Αποτύπωμα  αναπαράσταση με 8 bytes Πως ορίζονται όμως οι συναρτήσεις;

Δοθείσης μίας λέξης των m-bits: όπου α i  {0,1}, ένα αποτύπωμα των k-bits υπολογίζεται ως εξής: 1.Ορίζουμε το πολυώνυμο A(t) : 2.Επιλέγουμε ένα ανάγωγο πολυώνυμο ( που δεν μπορεί να εκφρασθεί σαν γινόμενο παραγόντων) P(t): 3.Υπολογίζουμε το αποτύπωμα f(A) ως εξής: Ορισμός Συναρτήσεων Αποτυπώματος 6

Για λέξεις από bit, οι μόνες πράξεις που απαιτούνται για το A(t)modP(t) είναι η ολίσθηση και το XOR: Απαιτείται λοιπόν γραμμικός χρόνος υπολογισμού. Αριστερή Ολίσθηση P(t) χωρίς 1 ο bit Ιδιότητες 7

Δοθείσης της λέξης A=101010, θέλουμε να υπολογίσουμε ένα 4-bit αποτύπωμα. Επιλέγουμε P=11111 (ώστε το P(t) να είναι ανάγωγο) f(A) Παράδειγμα 8

Ταίριασμα λέξεων: μπορούμε να βρούμε τη λέξη y 1 y 2 …y m στην λέξη x 1 x 2 …x n (m<n); Αλγόριθμος Σύγκρισης ένα προς ένα: x 1 x 2 x 3 x 4 x 5 x 6 x 7 x 8 … x n y 1 y 2 y 3 y 4 …y m ? ? ? X Πολυπλοκότητα Χρόνου: O(m  n) Παράδειγμα Εφαρμογής

Με χρήση αποτυπωμάτων f (y 1 y 2 y 3 y 4 …y m ) f(x1x2…xm)f(x1x2…xm) ? f(x 2 x 3 …x m+1 ) Η πολυπλοκότητα χρόνου για τον υπολογισμό του f(x 2 x 3 …x m+1 ) από το f(x 1 x 2 …x m ) είναι O(1) Πολυπλοκότητα Χρόνου: O(m+n) Παράδειγμα Εφαρμογής Ταίριασμα λέξεων: μπορούμε να βρούμε τη λέξη y 1 y 2 …y m στην λέξη x 1 x 2 …x n ;

Άλλες Μέθοδοι για Ροές Wavelets

Στην επεξεργασία σήματος, τα wavelets χρησιμοποιούνται για να διασπάσουν το σύνθετο σήμα σε πιο απλά κομμάτια. Παρόμοια, τα wavelets χρησιμοποιούνται για να διασπάσουν μεγάλα σύνολα δεδομένων σε πιο απλές μορφές. Χρησιμοποιούνται σε διάφορες εφαρμογές ροών δεδομένων (χρονοσειρές, σήματα, ήχος, κλπ). Δίνουν μία σύνοψη των δεδομένων. Εφαρμόζονται σε ροές του μοντέλου των χρονοσειρών. Ο μετασχηματισμός wavelet δείχνει τις κυρίαρχες τάσεις στο σήμα (στα δεδομένα της ροής). Τα ανακατασκευασμένα δεδομένα από λίγους σημαντικούς wavelet συντελεστές, προσεγγίζουν με τον καλύτερο τρόπο τα αρχικά δεδομένα.

Wavelets Οι wavelet συντελεστές είναι προβολές του σήματος/των δεδομένων σε ένα (ορθογώνιο) σύνολο διανυσμάτων βάσης. Μία κατηγορία με μεγάλη εφαρμογή είναι τα Haar wavelets που χρησιμοποιούνται στις βάσεις δεδομένων λόγω ευκολίας υπολογισμού τους. Οι υπολογισμοί γίνονται ιεραρχικά κατά επίπεδα (levels). Στην πιο απλή τους μορφή υπολογίζεται ο μέσος όρος κατά ζεύγη για το επόμενο επίπεδο ( ) [για ορθογώνια βάση: ]. Οι συντελεστές προκύπτουν με αφαίρεση του πρώτου αριθμού του ζεύγους και του μέσου όρου που προέκυψε. Έξοδος wavelet: ένα διάνυσμα βάσης που αποτελείται από έναν μέσο όρο και από τους τελικούς συντελεστές.

Ανάλυση Μέσοι Όροι Αναλυτικοί Συντελεστές [2, 2, 0, 2, 3, 5, 4, 4] [2, 1, 4, 4][0, -1, -1, 0] [1.5, 4][0.5, 0] [2.75][-1.25] ---- Level-3 Level-2 Level-1 Level-0 Διάνυσμα wavelet μετασχηματισμού: [2.75, -1.25, 0.5, 0, 0, -1, -1, 0] Παράδειγμα Haar Wavelet Έστω ότι έχουμε τα δεδομένα: 2, 2, 0, 2, 3, 5, 4, 4.

Παράδειγμα Haar Wavelet Χρησιμοποιώντας το διάνυσμα του μετασχηματισμού με τους συντελεστές: [2.75, -1.25, 0.5, 0, 0, -1, -1, 0] μπορούμε να αναπαράγουμε τα δεδομένα ως εξής: Original Data

Παράδειγμα για ορθογώνια βάση

Haar Wavelet Συντελεστές Κρατάμε και αποθηκεύουμε μόνο B (Β<Ν) συντελεστές (συνήθως τους μεγαλύτερους ή αυτούς που προσεγγίζουν καλά την συνολική «ενέργεια» του «σήματος»). Όλοι οι υπόλοιποι γίνονται μηδέν στην ανακατασκευή. Π.χ. Η διαγραφή μικρών συντελεστών δίνει μικρό λάθος στην επανακατασκευή των αρχικών δεδομένων. Οπωσδήποτε όμως κρατάμε έναν τουλάχιστον συντελεστή από το κάθε επίπεδο του δέντρου του wavelet (δηλαδή logN συντελεστές που μπορεί να περιέχονται ή όχι στους Β). [2.75, -1.25, 0.5, 0, 0, 0, 0, 0]  σύνοψη: [2.75,-1.25,0.5] [2.75, -1.25, 0.5, 0, 0, -1, -1, 0]

Haar Wavelet Συντελεστές Η καλύτερη εκλογή των B συντελεστών (που προσεγγίζουν την συνολική ενέργεια) γίνεται με βάση την ελαχιστοποίηση του μέσου τετραγωνικού σφάλματος (SSE) ως προς την ενέργεια. Η εκλογή περισσότερων συντελεστών δεν οδηγεί πάντα σε περαιτέρω ελαχιστοποίηση:

Haar Wavelet Απόδοση Ο Haar wavelet μετασχηματισμός απαιτεί χώρο O(B+logN). Ο χρόνος υπολογισμού/προσέγγισης μίας τιμής είναι επίσης O(B+logN). Αν έχουμε ενημερώσεις στοιχείων από την ροή, τότε πρέπει να ενημερωθούν και τα αντίστοιχα wavelets. Η ενημέρωση ενός wavelet γίνεται εύκολα αν αυτό αναπαρασταθεί με sketches μεγέθους logN. [A.Gilbert, Y.Kotidis, S.Muthukrishanan, M.Strauss, 2002]. Το πρόβλημα των συχνών στοιχείων λύνεται αποδοτικά ακόμα και με μεθόδους που χρησιμοποιούν wavelets [A.Gilbert et al.].

ΤΕΛΟΣ