Εξόρυξη Γνώσης Από Χρονικά Δεδομένα Εξόρυξη Γνώσης Από Χρονικά Δεδομένα Φροντιστήριο Αγγελική Σκούρα (skoura@ceid.upatras.gr)
Εξόρυξη Χρονικών Δεδομένων Ανάλυση χρονικών σειρών πρόβλεψη μελλοντικών τιμών καθορισμός παρόμοιων τάσεων στο χρόνο κατηγοριοποίηση συμπεριφοράς ποσοτικοποίηση (μετρική) ομοιότητας
Βάσεις Δεδομένων από Χρονοσειρές Ορισμός Μια χρονοσειρά είναι μια ακολουθία πραγματικών αριθμών, που αναπαριστούν τις μετρήσεις μιας πραγματικής μεταβλητής σε ισαπέχοντα χρονικά διαστήματα Παραδείγματα Μεταβολή των εργοστασιακών τιμών Όγκος πωλήσεων ως προς τον χρόνο Μετρήσεις θερμοκρασίας σε καθημερινή βάση ΒΔ Χρονοσειρών Μια βάση δεδομένων με ακολουθίες χρονοσειρών
Χρησιμότητα της Ανάλυσης Χρονοσειρών Εύρεση προτύπων Ανάλυση τάσης (Trend analysis) A company’s linear growth in sales over the years Εποχικότητα Winter sales are approximately twice summer sales Πρόβλεψη What is the expected sales for the next quarter?
Σύγκριση Χρονοσειρών Ευκλείδεια Απόσταση Dynamic Time Warping (DTW) Παράδειγμα σύγκρισης χρονοσειρών Τεχνικές υπολογισμού της απόστασης μεταξύ 2 χρονοσειρών Ευκλείδεια Απόσταση Dynamic Time Warping (DTW) Longest Common SubSequence Τεχνική (LCSS) Minimal Variance Matching (MVM) Symbolic Aggregate approXimation (SAX)
Ευκλείδεια Απόσταση Δίνονται οι χρονοσειρές Α = {1,5,4,3,2,4,5,4,3} Β = {1,5,2,2,4,2} Είναι η Ευκλείδεια απόσταση κατάλληλη για τη σύγκριση των δύο αυτών χρονοσειρών?
Τεχνική Dynamic Time Warping Η μέθοδος Dynamic Time Warping (DTW) είναι μια από τις πιο ικανοποιητικές συναρτήσεις απόστασης μεταξύ δύο χρονοσειρών The sequences are "warped" non-linearly in the time dimension Το βασικό χαρακτηριστικό της (το οποίο αποτελεί και το μεγαλύτερο προτέρημά της) είναι η στοίχιση (alignment) των χρονοσειρών πριν μετρηθεί η απόστασή τους Το βασικότερο μειονέκτημα της μεθόδου είναι το γεγονός ότι στον υπολογισμό της στοίχισης χρησιμοποιούνται όλα τα στοιχεία και των δύο χρονοσειρών Αν δηλαδή υπάρχουν ακραίες τιμές (outliers) στις χρονοσειρές, τότε συνυπολογίζονται στο αποτέλεσμα
Τεχνική Dynamic Time Warping Έστω δύο χρονοσειρές για τις οποίες επιθυμούμε να υπολογίσουμε την μεταξύ τους απόσταση χρησιμοποιώντας τη μέθοδο DTW Αρχικά δημιουργούμε έναν πίνακα αποστάσεων D με στοιχεία Η στοίχιση είναι ένα μονοπάτι (warping path) όπου Για το W υπάρχουν κάποιοι περιορισμοί: w1 = (1, 1) και wK = (m, n) Αν wk = (a, b) και wk-1 = (a’, b’), τότε πρέπει a-a’≤1 και b-b’≤1 Αν wk = (a, b) και wk-1 = (a’, b’), τότε πρέπει a-a’≥0 και b-b’≥0
Περιορισμοί που πρέπει να ισχύουν για το Warping Path A warping path is a path through the minimal distance matrix There are three conditions imposed on the dynamic time warping algorithm that ensures a polynomial time convergence: Monotony – the path never returns the path will not turn back on itself, both the i and j indexes either stay the same or increase, they never decrease Continuity – the path advances gradually step-by-step the path advances one step at a time. Both i and j can only increase by 1 on each step along the path Boundary – the path starts in lower left corner and ends in the upper right corner Αν δούμε ένα μονοπάτι που ξεκινά top right και τερματίζει bottom left είναι λανθασμένο? Επιπλέον προαιρετικός περιορισμός: Adjustment window condition a good path is unlikely to wander very far from the diagonal. The distance that the path is allowed to wander is the window length w, that is |i – j| <= w
Τεχνική Dynamic Time Warping Υπάρχουν πολλά μονοπάτια πάνω στον πίνακα D που ικανοποιούν τις παραπάνω συνθήκες. Στόχος είναι η εύρεση του βέλτιστου μονοπατιού, αυτού δηλαδή που ελαχιστοποιεί την απόσταση μεταξύ των X, Y: Το μονοπάτι αυτό μπορεί να βρεθεί χρησιμοποιώντας την τεχνική του δυναμικού προγραμματισμού πάνω στον πίνακα D, χρησιμοποιώντας την παρακάτω αναδρομική σχέση: γ(i, j) = Di, j + min {γ(i − 1, j − 1), γ(i − 1, j), γ(i, j − 1)} όπου γ(i, j) = cumulative distance Η απόσταση των δύο ακολουθιών είναι ίση με την ποσότητα W, δηλαδή την Ευκλείδεια Απόσταση μεταξύ των στοιχισμένων ακολουθιών The time and space complexity of DTW = O(n.m) όπου n, m τα μήκη των ακολουθιών
Παράδειγμα DTW Gif με το τρέξιμο του αλγορίθμου: http://de.wikipedia.org/wiki/Datei:Animation_Dynamic_Time_Warping.gif
Longest Common SubSequence (LCSS) Όπως αναφέραμε, το βασικό μειονέκτημα του DTW είναι η ευαισθησία του σε outliers Η τεχνική LCSS αναζητά τη μέγιστη κοινή υποακολουθία μεταξύ δύο χρονοσειρών Αυτό σημαίνει ότι μπορεί κατά τον υπολογισμό της διαφοράς να μην υπολογίζει στοιχεία και από τις δύο Με αυτόν τον τρόπο επιλύεται το πρόβλημα των outliers Η LCSS υπολογίζει τη διαφορά ως το πηλίκο του μήκους της μέγιστης κοινής υποακολουθίας προς το συνολικό μέγεθος
LCSS Subsequence comparison without scaling (σύγκριση διακριτών σημάτων) LCSS-like μετρικές για χρονοσειρές X = 3, 2, 5, 7, 4, 8, 10, 7 Y = 2, 5, 4, 7, 3, 10, 8, 6 LCSS = 2, 5, 7, 8 Similarity (X,Y) = |LCSS| Παρόμοια Τεχνική: Edit Distance Μειονέκτημα: Δεν εντοπίζει τους διαφορετικούς παράγοντες κλιμάκωσης Εφαρμογές: Speech Recognition Text Pattern Matching Subsequence comparison without scaling [Yazdani & Ozsoyoglu, 1996] Subsequence comparison with local scaling and baselines [Agrawal et. al., 1995 ] Subsequence comparision with global scaling and baselines [Das et. al., 1997] Global scaling and shifting [Chu and Wong,1999]
Minimal Variance Matching (MVM) Η τεχνική MVM κάνει αντιστοίχιση όπως και ο DTW με τη διαφορά ότι επιτρέπει να μην υπολογίζονται στοιχεία από την μία χρονοσειρά Η βασική διαφορά της MVM με την LCSS είναι πως η δεύτερη υπολογίζει τη διαφορά σε σχέση με την μέγιστη κοινή υποσυμβολοσειρά και συνεπώς χρειάζεται κάποιο κατώφλι Χ=( 1, 2, 8, 6, 8) Υ=( 1, 2, 9, 3, 3, 5, 9) The shortest path for the example matrix is marked with boxes Τhe optimal correspondence f is given by f(1) = 1, f(2) = 2, f(3) = 3, f(4) = 6, f(5) = 7 Finally, we obtain the distance Περισσότερες λεπτομέρειες στο paper: http://www.springerlink.com/content/f13252j85441774r/?CFID=105008431&CFTOKEN=57689851
Symbolic Aggregate approXimation (SAX) According to SAX technique… First, the time series is normalized to have a mean of zero and a standard deviation of one Afterwards, the time series is transformed further by applying Piecewise Aggregate Approximation Taking advantage of the fact that the transformed series follows the normal probability distribution, each element is mapped to a symbol using the properties of this distribution The user must assign a value in parameter α which defines the alphabet size (number of symbols to be used) Then, the area under the normal curve is divided into α areas of equal size (meaning that the corresponding probabilities will be equal for each symbol) and each one of them is assigned to a symbol Finally, an element of series which falls into an interval that corresponds to a specific are is mapped to the area’s symbol
Εξόρυξη Γνώσης Από Χρονικά Δεδομένα Εξόρυξη Γνώσης Από Χρονικά Δεδομένα ΑΠΟΡΙΕΣ?