Matching.

Slides:



Advertisements
Παρόμοιες παρουσιάσεις
Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1 Ευρετήρια.
Advertisements

Αλγόριθμοι σχεδίασης βασικών 2D σχημάτων (ευθεία)
Γραφήματα & Επίπεδα Γραφήματα
ΗΜΥ 100 Εισαγωγή στην Τεχνολογία
Ερωτηματολόγιο Συλλογής Απαιτήσεων Εφαρμογών Υψηλών Επιδόσεων
Παράδειγμα 2: Υπολογισμός αθροίσματος με επαναληπτική εντολή: για...από...μέχρι... με βήμα Να βρεθεί και να εκτυπωθεί το άθροισμα των άρτιων αριθμών από.
ΠΕΡΙΓΡΑΦΗ ΚΑΙ ΑΝΑΛΥΣΗ ΔΕΔΟΜΕΝΩΝ
Πέτσας Δημήτριος Παρουσίαση στο μάθημα: Ψηφιακές Βιβλιοθήκες
Tάσος Μπούντης Τμήμα Μαθηματικών Πανεπιστήμιο Πατρών
Βασικές Συναρτήσεις Πινάκων
ΜοντελοποίησηΈργα ΜαθήματαΑξιολόγηση Αναστοχασμος Μαθήματα.
-Στοίβα-Ουρά - Πλεονεκτήματα πινάκων -Δομές δεδομένων δευτερεύουσας μνήμης -Πληροφορική και δεδομένα -Παραδείγματα-Προβλήματα ψευδοκώδικα.
Εξόρυξη Γνώσης Από Χρονικά Δεδομένα
Πιθανοκρατικοί Αλγόριθμοι
Τα στοιχειώδη περί γεωδαιτικών υπολογισμών
ΥΠΟΠΡΟΓΡΑΜΜΑΤΑ ΤΜΗΜΑΤΙΚΟΣ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟΣ
Εκτέλεση Αλγορίθμων σε ψευδογλώσσα
Εισαγωγή στον Προγραμματισμό, Αντώνιος Συμβώνης, ΣΕΜΦΕ, ΕΜΠ, Slide 1 Εβδομάδα 3: Υλοποίηση μεθόδων.
Δομές Αναζήτησης TexPoint fonts used in EMF. Read the TexPoint manual before you delete this box.: AA A A A εισαγωγή αναζήτησηεπιλογή διατεταγμένος πίνακας.
 Αυδίκου Χριστίνα  Γιουμούκης Παναγιώτης  Κιντσάκης Θάνος  Πάπιστας Γιάννης.
ΤΕΧΝΙΚΕΣ ΑΝΤΙΚΕΙΜΕΝΟΣΤΡΑΦΟΥΣ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟΥ Πίνακες Κλάσεις και Αντικείμενα.
Αρχή της ενσωμάτωσης Η εσωτερική κατάσταση ενός αντικειμένου πρέπει να είναι τροποποιήσιμη μόνο μέσω της δημόσιας διασύνδεσής του.
Αλγόριθμοι και Πολυπλοκότητα
Νευρωνικά Δίκτυα Εργαστήριο Εικόνας, Βίντεο και Πολυμέσων
Στατιστική Ι Παράδοση 5 Οι Δείκτες Διασποράς Διασπορά ή σκεδασμός.
Μικροσυστοιχίες και ανάλυση δεδομένων
Αναγνώριση Προτύπων.
1 Πραγματικοί Οικονομικοί Κύκλοι. 2 Βραχυχρόνιες διακυμάνσεις Σε συναθροιστικά οικονομικά μεγέθη: Προϊόν, απασχόληση, ανεργία. Ιδιωτικές επενδύσεις, κατανάλωση,
Κεφάλαιο 2ο Πεπερασμένα αυτόματα.
Γραφήματα & Επίπεδα Γραφήματα
Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1 Συναρτησιακές Εξαρτήσεις.
Καλώς ήρθατε στις Οικονομικές Επιστήμες
Δυναμικός Προγραμματισμός
1 Θεματική Ενότητα Γραφήματα & Επίπεδα Γραφήματα.
Προσεγγιστικοί Αλγόριθμοι
ΣΤΟΙΧΕΙΑ ΔΙΑΝΥΣΜΑΤΙΚΟΥ ΛΟΓΙΣΜΟΥ
2006 GfK Praha CORRUPTION CLIMATE IN EUROPE % % % %0 - 10% % % % % % ΚΛΙΜΑ ΔΙΑΦΘΟΡΑΣ Η.
ΕΥΡΕΣΗ ΚΑΤΗΓΟΡΙΚΩΝ ΕΚΤΟΠΩΝ ΣΕ ΒΙΒΛΙΟΓΡΑΦΙΚΗ ΒΑΣΗ ΔΕΔΟΜΕΝΩΝ
ΤΑΛΑΝΤΩΣΕΙΣ 1. Μεγέθη που χαρακτηρίζουν μια ταλάντωση
Δομές Δεδομένων 1 Στοίβα. Δομές Δεδομένων 2 Στοίβα (stack)  Δομή τύπου LIFO: Last In - First Out (τελευταία εισαγωγή – πρώτη εξαγωγή)  Περιορισμένος.
Μεταθέσεις & Συνδυασμοί
Συνδυαστικά Κυκλώματα
Προγραμματισμός ΙΙ Διάλεξη #5: Εντολές Ανάθεσης Εντολές Συνθήκης Δρ. Νικ. Λιόλιος.
Μεταβλητές – εντολές εκχώρησης- δομή ακολουθίας
Σέρρες,Ιούνιος 2009 Τίτλος: Αυτόματος έλεγχος στο Scilab: Ανάπτυξη πακέτου για εύρωστο έλεγχο. Ονοματεπώνυμο Σπουδάστριας: Ευαγγελία Δάπκα Επιβλέπων Καθηγητής.
Ενεργή επιλογή αλγορίθμου, Active Algorithm Selection, Feilong Chen and Rong Jin Εύα Σιταρίδη.
Συντομότερες Διαδρομές
Ενότητα Α.4. Δομημένος Προγραμματισμός
Επιθεωρήσεις ΔΚΕΕ ( )  Επιθεωρήσεις : 25  Έκλεισαν Ικανοποιητικά 6 (24%) και Μη Ικανοποιητικά 19 (76%)  Μη Συμμορφώσεις : 257  Διορθωτικές.
Γραμμικός Προγραμματισμός TexPoint fonts used in EMF. Read the TexPoint manual before you delete this box.: AA A AA A A Μια εταιρεία παράγει κέικ δύο κατηγοριών,
Δομές Δεδομένων - Ισοζυγισμένα Δυαδικά Δένδρα (balanced binary trees)
+19 Δεκέμβριος 2014 Δείκτης > +20 Δείκτης 0 έως +20 Δείκτης 0 έως -20 Δείκτης < -20 Συνολικά της ΕΕ: +5 Δείκτης > +20 Δείκτης 0 έως +20 Δείκτης 0 έως -20.
Υπολογιστική Πολυπλοκότητα Διδάσκοντες: Σ. Ζάχος, Δ. Φωτάκης Επιμέλεια διαφανειών: Δ. Φωτάκης Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών Εθνικό.
ΕΠΛ 231 – Δομές Δεδομένων και Αλγόριθμοι13-1 Στην ενότητα αυτή θα μελετηθούν τα εξής επιμέρους θέματα: Ο αλγόριθμος Dijkstra για εύρεση βραχυτέρων μονοπατιών.
Ανάκτηση Πληροφορίας 1 Multimedia IR Multimedia IR Δεικτοδότηση και Αναζήτηση.
Θεωρία Γράφων Θεμελιώσεις-Αλγόριθμοι-Εφαρμογές TSP, Μέτρα κεντρικότητας, Dijkstra Data Engineering Lab.
Πρόβλεψη Θέσης Χρήστη σε Κινητά Δίκτυα - Ταξινομητής Βέλτιστης Παύσης Σπύρος Γεωργάκης Διπλωματική Εργασία.
Advanced Data Indexing (Προηγμένη ευρετηρίαση δεδομένων) Ροές Δεδομένων (3 ο Μέρος)
Μετασχηματισμός Fourier Διακριτού Χρόνου Δειγματοληψία
ΤΕΙ ΙΟΝΙΩΝ ΝΗΣΩΝ ΤΜΗΜΑ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ ΠΑΡΆΡΤΗΜΑ ΛΕΥΚΑΔΑΣ ΥΠΕΥΘΥΝΗ ΚΑΘΗΓΉΤΡΙΑ Δρ. ΤΣΙΝΤΖΑ ΠΑΝΑΓΙΩΤΑ Οι παρουσιάσεις του μαθήματος βασίζονται στο.
ΤΕΙ ΙΟΝΙΩΝ ΝΗΣΩΝ ΤΜΗΜΑ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ ΠΑΡΆΡΤΗΜΑ ΛΕΥΚΑΔΑΣ ΥΠΕΥΘΥΝΗ ΚΑΘΗΓΉΤΡΙΑ Δρ. ΤΣΙΝΤΖΑ ΠΑΝΑΓΙΩΤΑ Οι παρουσιάσεις του μαθήματος βασίζονται στο.
Σήματα και Συστήματα 11 10η διάλεξη. Σήματα και Συστήματα 12 Εισαγωγικά (1) Έστω γραμμικό σύστημα που περιγράφεται από τη σχέση: Αν η είσοδος είναι γραμμικός.
ΣΗΜΑΤΑ ΚΑΙ ΣΥΣΤΗΜΑΤΑ II Καθ. Πέτρος Π. Γρουμπός Διάλεξη 8η Στοχαστικά Σήματα - 1.
Δυναμικός Κατακερματισμός
Επίλυση Προβλημάτων με Αναζήτηση
Κλάσεις και αντικείμενα
Ανάπτυξη Εφαρμογών σε Προγραμματιστικό Περιβάλλον ΑΕΠΠ
Μη Γραμμικός Προγραμματισμός
Α1(2,2), Α2(2,1), Α3(1,2), Α4(2,3), Α5(3,2) & Α6(1,5) Β1(6,2), Β2(5,3), Β3(6,4), Β4(4,4), Β5(5,5), Β6(7,5), Β7(8,4) & Β8(8,1) C1(2,2) & C2(6,4)
Μεταγράφημα παρουσίασης:

Matching

Βάση Χρονοσειρών Μία χρονοσειρά (time serie) είναι μια ακολουθία πραγματικών αριθμών, που αντιπροσωπεύουν μετρήσεις μιας πραγματικής μεταβλητής σε ίσα χρονικά διαστήματα πχ Οι τιμές των μετοχών Όγκος πωλήσεων στην πάροδο του χρόνου Καθημερινή θερμοκρασία Μια βάση δεδομένων χρονοσειρών είναι μια μεγάλη συλλογή χρονοσειρών

Χρονοσειρά value axis time axis 50 100 150 200 250 300 350 400 450 500 50 100 150 200 250 300 350 400 450 500 23 24 25 26 27 28 29 value axis time axis

Προβλήματα Χρονοσειρών Πρόβλημα ομοιότητας X = x1, x2, …, xn και Y = y1, y2, …, yn Ορισμός και υπολογισμός Sim(X, Y) π.χ. οι μετοχές X και Y έχουν παρόμοια συμπεριφορά; Ανάκτηση αποτελεσματικά παρόμοιων χρονοσειρών

Τύποι ερωτημάτων Συνολικό ταίριασμα vs ταίριασμα υποσυνόλου Όλα τα ζεύγη ερωτημάτων

Παραδείγματα Βρείτε επιχειρήσεις με παρόμοιες τιμές μετοχών σε ένα χρονικό διάστημα Βρείτε προϊόντα με παρόμοιους κύκλους πωλήσεων Cluster χρήστες με παρόμοια χρήση πιστωτικής κάρτας Βρείτε παρόμοιες υποακολουθίες στο DNA Βρείτε παρόμοιες σκηνές σε video

Συνάρτηση απόστασης: από ειδικό (πχ, Euclidean distance) day $price 1 365 Συνάρτηση απόστασης: από ειδικό (πχ, Euclidean distance)

Προβλήματα Καθορισμός της συνάρτησης ομοιότητας (ή απόστασης) Βρείτε έναν αποτελεσματικό αλγόριθμο για να ανακτήσετε παρόμοιες χρονοσειρές από βάση δεδομένων Η Συνάρτηση Ομοιότητας εξαρτάται από την εφαρμογή

Αποστάσεις Τι ιδιότητες πρέπει μια απόσταση ομοιότητας να έχει ώστε να επιτρέπει εύκολο indexing D(A,B) = D(B,A) Συμμετρία D(A,A) = 0 Σταθερή Αυτό-ομοιότητα D(A,B) >= 0 Θετικότητα D(A,B)  D(A,C) + D(B,C) Τριγωνική Ανισότητα

Αποστάσεις Δείτε κάθε ακολουθία ως ένα n-διάστατο σημείο (n = μήκος της κάθε ακολουθίας) Η ομοιότητα μεταξύ των X και Y είναι p=1 Manhattan distance p=2 Euclidean distance

Euclidean model Query Q Database Distance 0.98 0.07 0.21 0.43 Rank 4 1 n datapoints Database n datapoints Distance 0.98 0.07 0.21 0.43 Rank 4 1 2 3 S Q Euclidean Distance μεταξύ των χρονοσειρών Q = {q1, q2, …, qn} και S = {s1, s2, …, sn}

Classification Χρονοσειρών Age Income Student CreditRating Class: buy comp. 28 High No Fair 25 Excellent 35 Yes 45 Medium 18 Low 49 ?? Will this person buy a computer? Class B Class A Που ανήκει;

Euclidean απόσταση Δεδομένων 2 time series Q = q1, …, qn και C = c1, …, cn Η Euclidean απόσταση τους είναι: Q C

Περιορισμοί της Euclidean απόστασης Πολύ ευαίσθητη σε στρέβλωση των δεδομένων Τα Training data Αποτελούνται από 10 στιγμιότυπα από 3 classes Εκτελούμε 1-nearest neighbor αλγόριθμο, με “leaving-one-out” αξιολόγηση, μέσο όρο 100 runs. . Euclidean σφάλμα: 29.77% DTW Error rate: 3.33 %

Dynamic Time Warping (DTW) Δυναμική χρονική στρέβλωση Euclidean Distance Αντιστοιχία ένα-προς-ένα Time Warping Distance επιτρέπεται μη γραμμική αντιστοιχία

Dynamic Time Warping (DTW) Δυναμική χρονική στρέβλωση Q C Warping path w

Dynamic Time Warping (DTW) Δυναμική χρονική στρέβλωση δυναμικού προγραμματισμού για την αξιολόγηση της επανάληψης: Όπου γ(i, j) είναι η αθροιστική απόσταση από την απόσταση d(i, j) και της ελάχιστης συσωρευτικής απόστασης μεταξύ των γειτονικών κελιών. (i-1, j) (i, j-1) (i, j) (i-1, j-1)

Global Constraints (Περιορισμοί) Αποτροπή κάθε παράλογης στρέβλωσης Sakoe-Chiba Band Itakura Parallelogram

Global Global Constraints (Περιορισμοί) Ο Global Constraint για μία ακολουθία μεγέθους m ορίζετε από τη R, όπου Ri = d 0  d  m, 1  i  m. Το Ri ορίζει την ελευθερία της στρέβλωσης πάνω και προς τα δεξιά της διαγωνίου σε κάθε δεδομένο σημείο i στην ακολουθία. Ri Sakoe-Chiba Band Itakura Parallelogram

Επιτρεπτό πλάτος ζώνης Euclidean distance = 2.4836 DTW dist = 1.6389 R = 1 DTW dist = 1.0204 R = 10 DTW dist = 1.0204 R = 25 ίδιο

Edit distance Έστω δύο strings x,y e.g. x = kitten y = sitting Χρησιμοποιούμε τους edit τελεστές: 1. insertions 2. deletions 3. substitutions

Edit distance k i t t e n s i t t i n g 1ο βήμα: kitten sitten (substitution) 2ο βήμα : sittensittin (substitution) 3ο βήμα : sittinsitting (insertion)

Edit distance Μπορεί να γίνει αλλιώς; Αν: x = darladidirladada y = marmelladara …

Edit distance Πολλές εφαρμογές εξαρτώνται από την ομοιότητα δύο strings Βιολογία: …ATGCATACGATCGATT… …TGCAATGGCTTAGCTA… Τα ζωικά είδη από την ίδια οικογένεια έχουν περισσότερες ομοιότητες στο DNA

Edit distance Αναζήτηση λέξεων στο διαδίκτυο: συνήθως με “mtallica” εννοούμε “metallica”:

Ορισμοί Μας ενδιαφέρουν ακολουθίες bit: Σ = {0,1}n Για i..j<n ορίζουμε την ακολουθία x: x[i..j] Ως xi δηλώνουμε το i-οστό bit του x Αντιστοιχούμε τις πράξεις με τις θέσεις στην ακολουθία: deleting xi ↔ i substituting xi ↔ i inserting y ↔ θέση του y, μετά την εισαγωγή Ευθυγράμμιση τ των x, y: είναι η ακολουθία εργασιών για τη μετατροπή του x σε y

Ορισμοί Μήκος ευθυγράμμισης είναι το πλήθος των edit λειτουργιών Απόσταση edit δύο συμβολοσειρών x, y είναι το μήκος της βέλτιστης ευθυγράμμισης τους: ED(x,y) π.χ. ED(kitten, sitting) = 3 Απόσταση Hamming των δύο ίσου μήκους x, y είναι ο αριθμός των θέσεων για τις οποίες τα αντίστοιχα σύμβολα είναι διαφορετικά (xi ≠ yi) e.g. HD(kitten, sittin) = 2

Ιδιότητες Τρίγωνική Ανισότητα: για κάθε τρία strings x, y, z αυθαίρετου μήκους ED(x,y) ≤ ED(x,z) + ED(z,y) Διάσπαση Ανισότητας: έστω τα μήκη των x, y n και m αντίστοιχα. Για κάθε i,j: ED(x,y) ≤ ED(x[1..i],y[1..j])+ED(x[i+1..n],y[j+1..m])

Ιδιότητες έστω τα μήκη των x, y n και m αντίστοιχα (n ≤ m). Τότε: ED(x,y) ≤ m ED(x,y) ≥ m-n ED(x,y)=0 iff x=y if m=n, ED(x,y) ≤ HD(x,y) ED(x,y) ≥ αριθμός χαρακτήρων (δεν υπολογίζονται οι διπλοί) που βρίσκονται στο x, αλλά όχι στο y

Ιδιότητες insτ(i..j) = πλήθος εισαγωγών (insertions) στο διάστημα [i..j] delτ(i..j) = πλήθος deletions στο διάστημα [i..j] subτ(i..j) = πλήθος αντικαταστάσεων (substitutions) στο διάστημα [i..j] shτ(i..j) = insτ(i..j) - delτ(i..j) shτ(i..j) είναι η μετατόπιση στο x[i..j] Ορίζεται shτ(i) = shτ(1..i) και shτ(0) = 0 edτ(i..j) είναι η υπο-ακολουθία των edit λειτουργιών εντός του [i..j]

Περισσότερες πληροφορίες http://www.isip.piconepress.com/projects/speech/software/demonstrations/applets/util/dynamic_time_warping/current/index.html http://www.merriampark.com/ld.htm