Ροές Δεδομένων. “πλημμύρα” από δεδομένα   Παράγονται όλο και περισσότερα δεδομένα:   Τραπεζικά, τηλεπικοινωνιακά,  ...   Επιστημονικά δεδομένα:

Slides:



Advertisements
Παρόμοιες παρουσιάσεις
Indexing.
Advertisements

Δομές Δεδομένων και Αλγόριθμοι
7.3.8 Μεταφραστές Ελληνογαλλική Σχολή Καλαμαρί - Τίκβα Χριστίνα.
Βάσεις Δεδομένων ΕΙΣΑΓΩΓΗ.
Ιστορία του Ιντερνετ.
ΑΛΛΑΓΕΣ ΣΤΗΝ ΕΠΙΚΟΙΝΩΝΙΑ
A Peer-to-peer Framework for Caching Range Queries O. D. Sahin A. Gupta D. Agrawal A. El Abbadi Παρουσίαση: Καραγιάννης Τάσος, Κρεμμυδάς Νίκος, Μαργαρίτη.
Διαχείριση Έργου Οργάνωση, σχεδιασμός και προγραμματισμός έργων ανάπτυξης λογισμικού.
Slide 1 Δίκτυα Τηλεπικοινωνιών ENOTHTA 12 η A.T.M. (ASYNCHRONOUS TRANSFER MODE) (AΣΥΓΧΡΟΝΟΣ ΡΥΘΜΟΣ ΜΕΤΑΦΟΡΑΣ) (ΜΕΡΟΣ Α’) 1.Ασύγχρονος τρόπος μετάδοσης.
ΠΜΣ ΠΡΟΗΓΜΕΝΑ ΣΥΣΤΗΜΑΤΑ ΠΛΗΡΟΦΟΡΙΚΗΣ Κατεύθυνση ΤΕΔΑ Τεχνολογίες Διαχείρισης Ασφάλειας Security Management Engineering Τμήμα Πληροφορικής ΠΑΝΕΠΙΣΤΗΜΙΟ.
Κεφάλαιο 1ο: ΒΑΣΙΚΕΣ ΕΝΝΟΙΕΣ ΤΩΝ ΛΕΙΤΟΥΡΓΙΚΩΝ ΣΥΣΤΗΜΑΤΩΝ
Βάσεις Δεδομένων 1 T.Manavis– N.Kyritsis.
Κεφάλαιο 6 Υλοποίηση Γλωσσών Προγραμματισμού
 Αυδίκου Χριστίνα  Γιουμούκης Παναγιώτης  Κιντσάκης Θάνος  Πάπιστας Γιάννης.
Κατεύθυνση Τεχνολογιών Ηλεκτρονικών και Κινητών Υπηρεσιών
1 Εισαγωγή στις Βάσεις Δεδομένων  Ανάγκη Αποθήκευσης και Διαχείρισης Δεδομένων  Συστήματα Αρχείων  Συστήματα Βάσεων Δεδομένων  Παραδοσιακές και Σύγχρονες.
Εργασία Η υλοποίηση του αλγορίθμου συγχώνευσης θα πρέπει να χρησιμοποιεί την ιδέα των ροών (streams). Θα πρέπει να υπάρχουν δύο διαφορετικά είδη.
Αναγνώριση Προτύπων.
ΠΡΟΗΓΜΕΝΑ ΣΥΣΤΗΜΑΤΑ ΠΛΗΡΟΦΟΡΙΚΗΣ
Υπηρεσίες δικτύων επικοινωνίας
ΠΛΗΡΟΦΟΡΙΑΚΑ ΣΥΣΤΗΜΑΤΑ
ΚΕΦΑΛΑΙΟ 3 ΒΑΣΙΚΕΣ ΕΝΝΟΙΕΣ ΤΩΝ Γ.Σ.Π.. ΟΡΙΣΜΟΙ Ένα σύστημα για τακτικό και συνηθισμένο τρόπο επεξεργασίας δεδομένων και για απάντηση προκαθορισμένων και.
Τεχνολογίες και Εφαρμογές Πολυμέσων
Δεδομένα, Πληροφορίες και Ηλεκτρονικοί Υπολογιστές
ΕΙΣΑΓΩΓΗ ΜΑΘΗΜΑ 1.
ΣΥΣΤΗΜΑΤΑ ΑΝΑΜΟΝΗΣ Queuing Systems
Δίκτυα Ι Βπ - 2ο ΕΠΑΛ ΝΕΑΣ ΣΜΥΡΝΗΣ 2011.
Computers: Information Technology in Perspective By Long and Long Copyright 2002 Prentice Hall, Inc. Δίκτυα & Ε π ικοινωνία Υ π ολογιστών Διάλεξη 7 η -
Διαχείριση μνήμης Υπόβαθρο Εναλλαγή Συνεχής κατανομή Σελιδοποίηση
ΜΑΘΗΜΑ: ΔΙΑΧΕΙΡΗΣΗ ΕΦΟΔΙΑΤΙΚΗΣ ΑΛΥΣΙΔΑΣ.  E.R.P μπορούμε να πούμε ότι είναι ένα επιχειρησιακό εργαλείο ελέγχου, παρακολούθησης και συντονισμού των διαδικασιών.
ΕΝΟΤΗΤΑ 2: ΤΟ ΛΟΓΙΣΜΙΚΟ ΤΟΥ ΥΠΟΛΟΓΙΣΤΗ
1 Εισαγωγή στις Βάσεις Δεδομένων  Ανάγκη Αποθήκευσης και Διαχείρισης Δεδομένων  Συστήματα Αρχείων  Συστήματα Βάσεων Δεδομένων  Παραδοσιακές και Σύγχρονες.
Μοντέλα Συστημάτων Παρουσιάσεις των συστημάτων των οποίων οι απαιτήσεις αναλύονται.
Ιόνιο Πανεπιστήμιο ΠΜΣ Επιστήμη της Πληροφορίας Διατύπωση Ερωτημάτων σε XML τεκμήρια με τη γλώσσα XQuery Εργασία για το μάθημα Ηλεκτρονική Δημοσίευση Υπεύθυνος.
1 HMMY Τεχνολογία Λογισμικού Διδάσκων Κώστας Κοντογιάννης Αναπλ. Καθηγητής, Ε.Μ.Π.
Ημέρα 1η.
ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ Information Extraction.
Εξόρυξη Δεδομένων και Αλγόριθμοι Μάθησης. K-means k-windows k-means: 2 φάσεις 1. Μια διαμέριση των στοιχείων σε k clusters 2. Η ποιότητα της διαμέρισης.
ΕΝΟΤΗΤΑ 2 – Κεφάλαιο 5: To λογισμικό του υπολογιστή
Ροές Δεδομένων (1). “πλημμύρα” από δεδομένα Παράγονται όλο και περισσότερα δεδομένα: Τραπεζικά, τηλεπικοινωνιακά,... Επιστημονικά δεδομένα: αστρονομικά,
Advanced Data Indexing (Προηγμένη ευρετηρίαση δεδομένων) Κατακερματισμός – Hashing (1 ο Μέρος)
Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1 Εισαγωγή στην Επεξεργασία Ερωτήσεων.
Network Inference Μπαλάφα Κασιανή - Αδριανή Πλασταρά Κατερίνα.
Μικροεπεξεργαστές Λειτουργία - Εξέλιξη
XML Parsing Γιώργος Θάνος Παρασκευή 14 Νοεμβρίου 2008.
1 Διαχείριση Γνώσης Μ. Γεργατσούλης Χ. Παπαθεοδώρου.
Advanced Data Indexing (Προηγμένη ευρετηρίαση δεδομένων) Ροές Δεδομένων (3 ο Μέρος)
Σχεδιασμός διαδικασιών
Ορισμός Έργου Δρ. Α. Ραφαηλίδης Τμ. Διοίκησης Επιχειρήσεων (Πάτρα) ΤΕΙ Δυτ. Ελλάδας.
Δρ. Αλέξανδρος Βακαλούδης.  Εξόρυξη δεδομένων (Data Mining)  Association Rules  Clustering  Classification  Στάδια για εξόρυξη δεδομένων  Επανάληψη.
Εισαγωγή Στις Τηλεπικοινωνίες Τμήμα Πληροφορικής και Τηλεματικής Χαροκόπειο Πανεπιστήμιο Αθηνών Διδάσκων: Χρήστος Μιχαλακέλης Ενότητα.
PLC Ζούπας Χρυσοβαλάντης.
Στατιστικές Υποθέσεις
ΤΙΤΛΟΣ ΕΡΓΑΣΙΑΣ ΒΑΣΕΙΣ ΔΕΔΟΜΕΝΩΝ Ανδρέου Βασίλης.
Cloud Computing Το cloud computing παρέχει υπηρεσίες υπολογισμού, λογισμικού, πρόσβασης σε δεδομένα και αποθήκευσης που δεν απαιτούν ο τελικός χρήστης.
Βάσεις Δεδομένων Ι Εισαγωγή
Εισαγωγή στις βάσεις δεδομένων ISBN
Μοντελοποίηση υπολογισμού
Πρόγραμμα Προπτυχιακών Σπουδών Ροή Λ: Λογισμικό
Αρχές Διοίκησης και Διαχείρισης Έργων
DREMEL: Interactive Analysis of Web-Scale Datasets
ΤΟΠΟΛΟΓΙΕΣ KAI ΜΟΝΑΔΕΣ ΔΙΑΣΥΝΔΕΣΗΣ ΤΟΠΙΚΩΝ ΔΙΚΤΥΩΝ ΥΠΟΛΟΓΙΣΤΩΝ
Κεφάλαιο 7: Διαδικτύωση-Internet
Εισαγωγή στη VHDL 5/8/2018 Εισαγωγή στη VHDL.
Δίκτυα Ι Βπ - 2ο ΕΠΑΛ ΝΕΑΣ ΣΜΥΡΝΗΣ 2011.
Ανάπτυξη Εφαρμογών σε Προγραμματιστικό Περιβάλλον ΑΕΠΠ
Σχεσιακεσ βασεισ δεδομενων
Πληροφοριακά Συστήματα
DATA MINING ΕΞΑΜΗΝΙΑΙΟ ΘΕΜΑ ΣΤΟ ΜΑΘΗΜΑ ‘ΕΙΔΙΚΑ ΘΕΜΑΤΑ ΒΑΣΕΩΝ ΧΩΡΙΚΩΝ ΔΕΔΟΜΕΝΩΝ ΚΑΙ ΘΕΩΡΙΑ ΣΥΣΤΗΜΑΤΩΝ’
Ερωτήματα Επιλογής σε ACCESS
Μεταγράφημα παρουσίασης:

Ροές Δεδομένων

“πλημμύρα” από δεδομένα   Παράγονται όλο και περισσότερα δεδομένα:   Τραπεζικά, τηλεπικοινωνιακά,  ...   Επιστημονικά δεδομένα: αστρονομικά, βιολογικά κλπ.   Κείμενα στο web κ.α.   Αποθηκεύονται όλο και περισσότερα δεδομένα:   Γρήγορη και φθηνή τεχνολογία αποθήκευσης   Ικανά ΣΔΒΔ για μεγάλες ΒΔ

Παραδείγματα   Το ευρωπαϊκό Very Long Baseline Interferometry (VLBI) διαθέτει 16 τηλεσκόπια, καθένα από τα οποία παράγει 1 Gigabit/second αστρονομικά δεδομένα σε συνόδους παρατήρησης των 25 ημερών   η αποθήκευση και ανάλυση τέτοιου όγκου δεδομένων είναι πρόβλημα   Ο τηλεπικοινωνιακός κολοσός AT&T χειρίζεται δισεκατομμύρια κλήσεις/ μέρα   τόσο μεγάλος είναι ο όγκος των δεδομένων που αυτά δεν αποθηκεύονται – η ανάλυση γίνεται «στον αέρα» (on the fly)   Η ΒΔ της επιχείρησης λιανεμπορίου Wal-Mart είναι της τάξης των 24 Tbytes   Το UC Berkeley έκανε την εκτίμηση ότι μέσα στο 2002 παρήχθησαν 5 Exa-bytes (5 εκατομμύρια TBytes) δεδομένων !!!

Τάσεις ανάπτυξης   Ο νόμος του Moore   Η ταχύτητα των υπολογιστών διπλασιάζεται κάθε 18 μήνες   Ο νόμος της αποθήκευσης   Τα δεδομένα που αποθηκεύονται διπλασιάζονται κάθε 9 μήνες   Κατά συνέπεια...   πολύ λίγα από αυτά τα δεδομένα μπορεί να κοιτάξει (και να αναλύσει) ο άνθρωπος   Άρα χρειάζεται η ανακάλυψη γνώσης μέσα από τα δεδομένα (Knowledge Discovery in Data - KDD) για να δώσει νόημα και χρήση στα δεδομένα

Εφαρμογές Data Mining   Market analysis and management   target marketing, customer relation management, market basket analysis, cross selling, market segmentation   Risk analysis and management   Forecasting, customer retention, improved underwriting, quality control, competitive analysis   Fraud detection (attacks) and management   αλλά και...   Intelligent query answering   Text / Web mining (news group, , documents)

Γενικά  Μια ροή δεδομένων είναι μια ακολουθία απο ψηφιακά κρυπτογραφημένα σήματα που χρησιμοποιούνται για αναπαραστήσουν την πληροφορία που μεταδίδεται (με γρήγορο ρυθμό)  Γρήγορος ρυθμός σημαίνει πως είναι δύσκολο να:  Μεταδοθεί (T) η είσοδος στο πρόγραμμα  Υπολογιστούν (C) συναρτήσεις και διεργασίες σε μεγάλο όγκο δεδομένων εισόδου σε γρήγορο ρυθμό και να  Αποθηκευθούν (S)  Είναι αναγκαίες λοιπόν οι λεγόμενες TCS απαιτήσεις

Παραδείγματα  Transactional data streams: log interactions between entities  Credit card: purchases by consumers from merchants  Telecommunications: phone calls by callers to dialed parties  Web: accesses by clients of resources at servers  Measurement data streams: monitor evolution of entity states  IP network: traffic at router interfaces  Sensor networks: physical phenomena, road traffic  Earth climate: temperature, moisture at weather stations

Βάσεις δεδομένων και Ροές Δεδομένων Συστήματα βάσεων δεδομένων  Μοντέλο: μόνιμες αλληλεξαρτήσεις  Ανανέωση δεδομένων: τροποποιήσεις  Ερωτήματα: προσωρινά  Απαντήσεις ερωτήσεων: ακριβείς  Αποτίμηση ερωτήσεων: αυθαίρετη  Πλάνο ερωτημάτων: αμετάβλητο Συστήματα ροών δεδομένων  Μοντέλο: προσωρινές transient αλληλεξαρτήσεις  Ανανέωση δεδομένων: συμπληρώματα  Ερωτήματα: μόνιμα  Απαντήσεις ερωτήσεων : προσεγγιστικές  Αποτίμηση ερωτήσεων: ενός περάσματος  Πλάνο ερωτημάτων: προσαρμοστικό

Μια νέα ομάδα εφαρμογών  Ένα λογισμικό που λειτουργεί σαν ενδιάμεσο μέσο (middleware) υποστηρίζοντας αποτελεσματικά εξόρυξη δεδομένων από ροές δεδομένων, και επιτρέπει πολύπλοκα ερωτήματα μειώνοντας την επιβάρυνση σε χρόνο.

Η βασική ιδέα Ροές Δεδομένων ΕπεξεργασίαΡοών Σύνοψη στη μνήμη (κατά προσέγγιση) Απαντήσεις

Δυο πεδία ανάπτυξης  Ability to generate automatic, highly detailed data feeds comprising continuous updates  Αυτό έχει ξεκινήσει τις τελευταίες δεκαετίες με πρώτο αντικείμενο δίκτυα τα οποία καταμετρούσαν τις τραπεζικές συναλλαγές και αυτές των καρτών.  Το ιντερνετ είναι και αυτό ένα μεγάλο δίκτυο το οποίο έχει κατανεμημένα τόσο τις πηγές δεδομένων όσο και τους πελάτες του.Γενικά συμπεραίνουμε πως από τις διάφορες συναλλαγές δημιουργούνται πολλαπλά stream δεδομένων.

Δυο πεδία ανάπτυξης  Need to do sophisticated analyses of update streams in near-real time manner  Η ανάλυση με μια κλασική μέθοδο ανανέωσης δεδομένων είναι απλή γιατί με εφαρμογή ενός ερωτήματος πολύ απλά παίρνουμε την νέα τιμή, αυτό είναι εφαρμόσιμο ειδικά σε τραπεζικές συναλλαγές και αυτές των καρτών.  Σε πιο πολύπλοκες αναλύσεις όπως είναι trend analysis, forecasting κ.τ.λ. η ανάλυση γίνεται offline σε warehouses.  Σήμερα όμως δεν μας αρκεί αυτό γιατί υπάρχει πληθώρα από αυτόματα data feeds σε πολλούς τομείς.  Απαιτείται ειδική ανάλυση και πολύπλοκες εργασίες πρέπει να γίνουν. Αυτές εξαρτώνται άμεσα από το χρόνο και απαιτούν ανάλυση πραγματικού χρόνου.

Μοντέλα ροών δεδομένων  Input stream a 1,a 2,… arrives sequentially, item by item, and describes an underlying signal A, a one-dimensional function A: [1…..N] -> R 2. Models differ on how a i ’s describe A.  Time series Model  Cash register Model  Turnstile Model

Συστήματα ροών δεδομένων  Hands-on systems approach to data streams  Το σύστημα αυτό κρατά τμήματα κάθε φορά από τη ροή δεδομένων και συνήθως χρησιμοποιεί γλώσσες προγραμματισμού όπως η C για να διαχειριστεί την πληροφορία

Συστήματα ροών δεδομένων  Systems that let a high performance process updates using standard technology  Εδώ έχουμε εφαρμογές φτιαγμένες πάνω από μια βάση δεδομένων η οποία βάση διαχειρίζεται τα δεδομένα (SNPM logs – συνάθροιση δεδομένων από bytes που στάλθηκαν σε κάθε link σε ορισμένα λεπτά) και δίνει στην εφαρμογή τη δυνατότητα για δημιουργία traffic patterns σε links μεταξύ των IP routers.

Συστήματα ροών δεδομένων  Database systems where the internals are directly modified to deal with data streams  Εδώ ερευνητικά το θέμα είναι ανοιχτό και μιλάμε για νέους stream operators, SQL extensions, μεθόδους δρομολόγησης. Εδώ έχουμε εξ ολοκλήρου ενα σύστημα διαχείρισης ροών δεδομένων.

Μέθοδοι σε ροές δεδομένων  Όταν θέλουμε να αναφερθούμε σε εξόρυξη γνώσης μέσα από data streams τότε υπάρχουν πολλές μέθοδοι που χρησιμοποιούνται γι αυτό το σκοπό.  Κατηγοριοποίηση  Classic operation in machine learning and data mining  Συσταδοποίηση (Clustering)  Classic area of machine learning and pattern recognition  Πρότυπα ακολουθιών (Sequential Patterns)  Μείωση διαστάσεων (Reduction of Dimensions)

Μέθοδοι σε ροές δεδομένων  Κατηγοριοποίηση  Βασίζεται στην εξέταση των χαρακτηριστικών ενός νέου αντικειμένου το οποίο με βάση τα χαρακτηριστικά αυτά αντιστοιχίζεται σε ένα προκαθορισμένο σύνολο κλάσεων. Συνήθως υπάρχει περιορισμός στον αριθμό των κατηγοριών γι αυτό το σκοπό χρησιμοποιούνται κάποιες τεχνικές τις οποίες κατατάσσουμε σε 2 κατηγορίες  δέντρα αποφάσεων  νευρωνικά δίκτυα  Και οι δύο βασίζονται στην ιδέα της εκπαίδευσης με τη βοήθεια ενός υποσυνόλου δεδομένων που ονομάζεται σύνολο εκπαίδευσης. Έτσι με την εφαρμογή της διαδικασίας εκπαίδευσης καθορίζονται κάποια πρότυπα για τις κατηγορίες δεδομένων.

Μέθοδοι σε ροές δεδομένων  Συσταδοποίηση  Εδώ μιλάμε για την εργασία καταμερισμού ενός ετερογενούς πληθυσμού σε ένα σύνολο περισσότερων ετερογενών συστάδων. Εδώ δεν έχουμε προκαθορισμένες κατηγορίες. Οι εγγραφές ομαδοποιούνται σε σύνολα με βάση την ομοιότητα που παρουσιάζουν μεταξύ τους.

Μέθοδοι σε ροές δεδομένων  Πρότυπα ακολουθιών  Εδώ έχουμε εξόρυξη των συχνά εμφανιζόμενων προτύπων σχετικών με το χρόνο ή άλλες ακολουθίες.  Μείωση διαστάσεων  Οι τεχνικές αυτές υπολογίζουν μια μικρότερη αντιπροσώπευση του αρχικού συνόλου δεδομένων. Εδώ γίνεται προσπάθεια να διατηρηθεί όσο το δυνατόν η αρχική δομή.

Συμπεράσματα  We need the TCS infrastructure to manage and process them. This means challenges to:  Algorithms  Databases  Networking  Systems  Languages This means new methods in Mathematics