Ροές Δεδομένων (1). “πλημμύρα” από δεδομένα Παράγονται όλο και περισσότερα δεδομένα: Τραπεζικά, τηλεπικοινωνιακά,... Επιστημονικά δεδομένα: αστρονομικά,

Slides:



Advertisements
Παρόμοιες παρουσιάσεις
ΗΜΥ 100 Εισαγωγή στην Τεχνολογία
Advertisements

Indexing.
Δομές Δεδομένων και Αλγόριθμοι
7.3.8 Μεταφραστές Ελληνογαλλική Σχολή Καλαμαρί - Τίκβα Χριστίνα.
Βάσεις Δεδομένων ΕΙΣΑΓΩΓΗ.
Ιστορία του Ιντερνετ.
ΑΛΛΑΓΕΣ ΣΤΗΝ ΕΠΙΚΟΙΝΩΝΙΑ
Ροές Δεδομένων. “πλημμύρα” από δεδομένα   Παράγονται όλο και περισσότερα δεδομένα:   Τραπεζικά, τηλεπικοινωνιακά,  ...   Επιστημονικά δεδομένα:
A Peer-to-peer Framework for Caching Range Queries O. D. Sahin A. Gupta D. Agrawal A. El Abbadi Παρουσίαση: Καραγιάννης Τάσος, Κρεμμυδάς Νίκος, Μαργαρίτη.
Διαχείριση Έργου Οργάνωση, σχεδιασμός και προγραμματισμός έργων ανάπτυξης λογισμικού.
ΠΜΣ ΠΡΟΗΓΜΕΝΑ ΣΥΣΤΗΜΑΤΑ ΠΛΗΡΟΦΟΡΙΚΗΣ Κατεύθυνση ΤΕΔΑ Τεχνολογίες Διαχείρισης Ασφάλειας Security Management Engineering Τμήμα Πληροφορικής ΠΑΝΕΠΙΣΤΗΜΙΟ.
Κεφάλαιο 1ο: ΒΑΣΙΚΕΣ ΕΝΝΟΙΕΣ ΤΩΝ ΛΕΙΤΟΥΡΓΙΚΩΝ ΣΥΣΤΗΜΑΤΩΝ
Βάσεις Δεδομένων 1 T.Manavis– N.Kyritsis.
Κεφάλαιο 6 Υλοποίηση Γλωσσών Προγραμματισμού
 Αυδίκου Χριστίνα  Γιουμούκης Παναγιώτης  Κιντσάκης Θάνος  Πάπιστας Γιάννης.
Κατεύθυνση Τεχνολογιών Ηλεκτρονικών και Κινητών Υπηρεσιών
1 Εισαγωγή στις Βάσεις Δεδομένων  Ανάγκη Αποθήκευσης και Διαχείρισης Δεδομένων  Συστήματα Αρχείων  Συστήματα Βάσεων Δεδομένων  Παραδοσιακές και Σύγχρονες.
Εργασία Η υλοποίηση του αλγορίθμου συγχώνευσης θα πρέπει να χρησιμοποιεί την ιδέα των ροών (streams). Θα πρέπει να υπάρχουν δύο διαφορετικά είδη.
Αναγνώριση Προτύπων.
An Assessment on Experimental Timeseries Analysis of Multipoint Videoconference Traffic in IP Networks Σ. Κουρεμένος 2, Σ. Νικολόπουλος 1, Ι. Μπακόπουλος.
ΠΡΟΗΓΜΕΝΑ ΣΥΣΤΗΜΑΤΑ ΠΛΗΡΟΦΟΡΙΚΗΣ
Υπηρεσίες δικτύων επικοινωνίας
Εξόρυξη Δεδομένων και Τεχνητά Νευρωνικά Δίκτυα
ΠΛΗΡΟΦΟΡΙΑΚΑ ΣΥΣΤΗΜΑΤΑ
ΚΕΦΑΛΑΙΟ 3 ΒΑΣΙΚΕΣ ΕΝΝΟΙΕΣ ΤΩΝ Γ.Σ.Π.. ΟΡΙΣΜΟΙ Ένα σύστημα για τακτικό και συνηθισμένο τρόπο επεξεργασίας δεδομένων και για απάντηση προκαθορισμένων και.
Τεχνολογίες και Εφαρμογές Πολυμέσων
Δεδομένα, Πληροφορίες και Ηλεκτρονικοί Υπολογιστές
ΕΙΣΑΓΩΓΗ ΜΑΘΗΜΑ 1.
ΣΥΣΤΗΜΑΤΑ ΑΝΑΜΟΝΗΣ Queuing Systems
Δίκτυα Ι Βπ - 2ο ΕΠΑΛ ΝΕΑΣ ΣΜΥΡΝΗΣ 2011.
Computers: Information Technology in Perspective By Long and Long Copyright 2002 Prentice Hall, Inc. Δίκτυα & Ε π ικοινωνία Υ π ολογιστών Διάλεξη 7 η -
ΜΑΘΗΜΑ: ΔΙΑΧΕΙΡΗΣΗ ΕΦΟΔΙΑΤΙΚΗΣ ΑΛΥΣΙΔΑΣ.  E.R.P μπορούμε να πούμε ότι είναι ένα επιχειρησιακό εργαλείο ελέγχου, παρακολούθησης και συντονισμού των διαδικασιών.
ΕΝΟΤΗΤΑ 2: ΤΟ ΛΟΓΙΣΜΙΚΟ ΤΟΥ ΥΠΟΛΟΓΙΣΤΗ
Μοντέλα Συστημάτων Παρουσιάσεις των συστημάτων των οποίων οι απαιτήσεις αναλύονται.
Ιόνιο Πανεπιστήμιο ΠΜΣ Επιστήμη της Πληροφορίας Διατύπωση Ερωτημάτων σε XML τεκμήρια με τη γλώσσα XQuery Εργασία για το μάθημα Ηλεκτρονική Δημοσίευση Υπεύθυνος.
1 HMMY Τεχνολογία Λογισμικού Διδάσκων Κώστας Κοντογιάννης Αναπλ. Καθηγητής, Ε.Μ.Π.
Ημέρα 1η.
ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ Information Extraction.
Εξόρυξη Δεδομένων και Αλγόριθμοι Μάθησης. K-means k-windows k-means: 2 φάσεις 1. Μια διαμέριση των στοιχείων σε k clusters 2. Η ποιότητα της διαμέρισης.
ΕΝΟΤΗΤΑ 2 – Κεφάλαιο 5: To λογισμικό του υπολογιστή
Advanced Data Indexing (Προηγμένη ευρετηρίαση δεδομένων) Κατακερματισμός – Hashing (1 ο Μέρος)
Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1 Εισαγωγή στην Επεξεργασία Ερωτήσεων.
Network Inference Μπαλάφα Κασιανή - Αδριανή Πλασταρά Κατερίνα.
Μικροεπεξεργαστές Λειτουργία - Εξέλιξη
XML Parsing Γιώργος Θάνος Παρασκευή 14 Νοεμβρίου 2008.
1 Διαχείριση Γνώσης Μ. Γεργατσούλης Χ. Παπαθεοδώρου.
Advanced Data Indexing (Προηγμένη ευρετηρίαση δεδομένων) Ροές Δεδομένων (3 ο Μέρος)
Ορισμός Έργου Δρ. Α. Ραφαηλίδης Τμ. Διοίκησης Επιχειρήσεων (Πάτρα) ΤΕΙ Δυτ. Ελλάδας.
Δρ. Αλέξανδρος Βακαλούδης.  Εξόρυξη δεδομένων (Data Mining)  Association Rules  Clustering  Classification  Στάδια για εξόρυξη δεδομένων  Επανάληψη.
Γλώσσες Προγραμματισμού Μεταγλωττιστές Πίνακας Συμβόλων Πανεπιστήμιο Μακεδονίας Τμήμα Εφαρμοσμένης Πληροφορικής Ηλίας Σακελλαρίου.
Εισαγωγή Στις Τηλεπικοινωνίες Τμήμα Πληροφορικής και Τηλεματικής Χαροκόπειο Πανεπιστήμιο Αθηνών Διδάσκων: Χρήστος Μιχαλακέλης Ενότητα.
PLC Ζούπας Χρυσοβαλάντης.
Στατιστικές Υποθέσεις
ΤΙΤΛΟΣ ΕΡΓΑΣΙΑΣ ΒΑΣΕΙΣ ΔΕΔΟΜΕΝΩΝ Ανδρέου Βασίλης.
Cloud Computing Το cloud computing παρέχει υπηρεσίες υπολογισμού, λογισμικού, πρόσβασης σε δεδομένα και αποθήκευσης που δεν απαιτούν ο τελικός χρήστης.
Βάσεις Δεδομένων Ι Εισαγωγή
Εισαγωγή στις βάσεις δεδομένων ISBN
Μοντελοποίηση υπολογισμού
Πρόγραμμα Προπτυχιακών Σπουδών Ροή Λ: Λογισμικό
Αρχές Διοίκησης και Διαχείρισης Έργων
DREMEL: Interactive Analysis of Web-Scale Datasets
ΤΟΠΟΛΟΓΙΕΣ KAI ΜΟΝΑΔΕΣ ΔΙΑΣΥΝΔΕΣΗΣ ΤΟΠΙΚΩΝ ΔΙΚΤΥΩΝ ΥΠΟΛΟΓΙΣΤΩΝ
Κεφάλαιο 7: Διαδικτύωση-Internet
Εισαγωγή στη VHDL 5/8/2018 Εισαγωγή στη VHDL.
Δίκτυα Ι Βπ - 2ο ΕΠΑΛ ΝΕΑΣ ΣΜΥΡΝΗΣ 2011.
Ανάπτυξη Εφαρμογών σε Προγραμματιστικό Περιβάλλον ΑΕΠΠ
Σχεσιακεσ βασεισ δεδομενων
Πληροφοριακά Συστήματα
DATA MINING ΕΞΑΜΗΝΙΑΙΟ ΘΕΜΑ ΣΤΟ ΜΑΘΗΜΑ ‘ΕΙΔΙΚΑ ΘΕΜΑΤΑ ΒΑΣΕΩΝ ΧΩΡΙΚΩΝ ΔΕΔΟΜΕΝΩΝ ΚΑΙ ΘΕΩΡΙΑ ΣΥΣΤΗΜΑΤΩΝ’
Ερωτήματα Επιλογής σε ACCESS
Μεταγράφημα παρουσίασης:

Ροές Δεδομένων (1)

“πλημμύρα” από δεδομένα Παράγονται όλο και περισσότερα δεδομένα: Τραπεζικά, τηλεπικοινωνιακά,... Επιστημονικά δεδομένα: αστρονομικά, βιολογικά κλπ. Κείμενα στο web κ.α. Αποθηκεύονται όλο και περισσότερα δεδομένα: Γρήγορη και φθηνή τεχνολογία αποθήκευσης Ικανά ΣΔΒΔ για μεγάλες ΒΔ

Παραδείγματα Το ευρωπαϊκό Very Long Baseline Interferometry (VLBI) διαθέτει 16 τηλεσκόπια, καθένα από τα οποία παράγει 1 Gigabit/second αστρονομικά δεδομένα σε συνόδους παρατήρησης των 25 ημερών η αποθήκευση και ανάλυση τέτοιου όγκου δεδομένων είναι πρόβλημα Ο τηλεπικοινωνιακός κολοσός AT&T χειρίζεται δισεκατομμύρια κλήσεις/ μέρα τόσο μεγάλος είναι ο όγκος των δεδομένων που αυτά δεν αποθηκεύονται – η ανάλυση γίνεται «στον αέρα» (on the fly) Η ΒΔ της επιχείρησης λιανεμπορίου Wal-Mart είναι της τάξης των 24 Tbytes Το UC Berkeley έκανε την εκτίμηση ότι μέσα στο 2002 παρήχθησαν 5 Exa-bytes (5 εκατομμύρια TBytes) δεδομένων !!!

Τάσεις ανάπτυξης Ο νόμος του Moore Η ταχύτητα των υπολογιστών διπλασιάζεται κάθε 18 μήνες Ο νόμος της αποθήκευσης Τα δεδομένα που αποθηκεύονται διπλασιάζονται κάθε 9 μήνες Κατά συνέπεια... πολύ λίγα από αυτά τα δεδομένα μπορεί να κοιτάξει (και να αναλύσει) ο άνθρωπος Άρα χρειάζεται η ανακάλυψη γνώσης μέσα από τα δεδομένα (Knowledge Discovery in Data - KDD) για να δώσει νόημα και χρήση στα δεδομένα

Εφαρμογές Data Mining Market analysis and management target marketing, customer relation management, market basket analysis, cross selling, market segmentation Risk analysis and management Forecasting, customer retention, improved underwriting, quality control, competitive analysis Fraud detection (attacks) and management αλλά και... Intelligent query answering Text / Web mining (news group, , documents)

Γενικά Μια ροή δεδομένων είναι μια ακολουθία απο ψηφιακά κρυπτογραφημένα σήματα που χρησιμοποιούνται για αναπαραστίσουν την πληροφορία που μεταδίδεται (με γρήγορο ρυθμό) Μια ροή δεδομένων είναι μια ακολουθία απο ψηφιακά κρυπτογραφημένα σήματα που χρησιμοποιούνται για αναπαραστίσουν την πληροφορία που μεταδίδεται (με γρήγορο ρυθμό) Γρήγορος ρυθμός σημαίνει πως είναι δύσκολο να: Γρήγορος ρυθμός σημαίνει πως είναι δύσκολο να: Μεταδοθεί (T) η είσοδος στο πρόγραμμα Μεταδοθεί (T) η είσοδος στο πρόγραμμα Υπολογιστούν (C) συναρτήσεις και διεργασίες σε μεγάλο όγκο δεδομένων εισόδου σε γρήγορο ρυθμό και να Υπολογιστούν (C) συναρτήσεις και διεργασίες σε μεγάλο όγκο δεδομένων εισόδου σε γρήγορο ρυθμό και να Αποθηκευθούν (S) Αποθηκευθούν (S) Είναι αναγκαίες λοιπόν οι λεγόμενες TCS απαιτήσεις Είναι αναγκαίες λοιπόν οι λεγόμενες TCS απαιτήσεις

Παραδείγματα Transactional data streams: log interactions between entities Transactional data streams: log interactions between entities Credit card: purchases by consumers from merchants Credit card: purchases by consumers from merchants Telecommunications: phone calls by callers to dialed parties Telecommunications: phone calls by callers to dialed parties Web: accesses by clients of resources at servers Web: accesses by clients of resources at servers Measurement data streams: monitor evolution of entity states Measurement data streams: monitor evolution of entity states IP network: traffic at router interfaces IP network: traffic at router interfaces Sensor networks: physical phenomena, road traffic Sensor networks: physical phenomena, road traffic Earth climate: temperature, moisture at weather stations Earth climate: temperature, moisture at weather stations

Βάσεις δεδομένων και Ροές Δεδομένων Συστήματα βάσεων δεδομένων Μοντέλο: μόνιμες αλληλεξαρτήσεις Μοντέλο: μόνιμες αλληλεξαρτήσεις Ανανέωση δεδομένων: τροποποιήσεις Ανανέωση δεδομένων: τροποποιήσεις Ερωτήματα: προσωρινά Ερωτήματα: προσωρινά Απαντήσεις ερωτήσεων: ακριβείς Απαντήσεις ερωτήσεων: ακριβείς Αποτίμηση ερωτήσεων: αυθαίρετη Αποτίμηση ερωτήσεων: αυθαίρετη Πλάνο ερωτημάτων: αμετάβλητο Πλάνο ερωτημάτων: αμετάβλητο Συστήματα ροών δεδομένων Μοντέλο: προσωρινές transient αλληλεξαρτήσεις Μοντέλο: προσωρινές transient αλληλεξαρτήσεις Ανανέωση δεδομένων: συμπληρώματα Ανανέωση δεδομένων: συμπληρώματα Ερωτήματα: μόνιμα Ερωτήματα: μόνιμα Απαντήσεις ερωτήσεων : προσεγγιστικές Απαντήσεις ερωτήσεων : προσεγγιστικές Αποτίμηση ερωτήσεων: ενός περάσματος Αποτίμηση ερωτήσεων: ενός περάσματος Πλάνο ερωτημάτων: προσαρμοστικό Πλάνο ερωτημάτων: προσαρμοστικό

Μια νέα ομάδα εφαρμογών Ένα λογισμικό που λειτουργεί σαν ενδιάμεσο μέσο (middleware) υποστηρίζοντας αποτελεσματικά εξόρυξη δεδομένων από ροές δεδομένων, και επιτρέπει πολύπλοκα ερωτήματα μειώνοντας την επιβάρυνση σε χρόνο. Ένα λογισμικό που λειτουργεί σαν ενδιάμεσο μέσο (middleware) υποστηρίζοντας αποτελεσματικά εξόρυξη δεδομένων από ροές δεδομένων, και επιτρέπει πολύπλοκα ερωτήματα μειώνοντας την επιβάρυνση σε χρόνο.

Η βασική ιδέα Ροές Δεδομένων ΕπεξεργασίαΡοών Σύνοψη στη μνήμη (κατά προσέγγιση) Απαντήσεις

Δυο πεδία ανάπτυξης Ability to generate automatic, highly detailed data feeds comprising continuous updates Ability to generate automatic, highly detailed data feeds comprising continuous updates Αυτό έχει ξεκινήσει τις τελευταίες δεκαετίες με πρώτο αντικείμενο δίκτυα τα οποία καταμετρούσαν τις τραπεζικές συναλλαγές και αυτές των καρτών. Αυτό έχει ξεκινήσει τις τελευταίες δεκαετίες με πρώτο αντικείμενο δίκτυα τα οποία καταμετρούσαν τις τραπεζικές συναλλαγές και αυτές των καρτών. Το ιντερνετ είναι και αυτό ένα μεγάλο δίκτυο το οποίο έχει κατανεμημένα τόσο τις πηγές δεδομένων όσο και τους πελάτες του.Γενικά συμπεραίνουμε πως από τις διάφορες συναλλαγές δημιουργούνται πολλαπλά stream δεδομένων. Το ιντερνετ είναι και αυτό ένα μεγάλο δίκτυο το οποίο έχει κατανεμημένα τόσο τις πηγές δεδομένων όσο και τους πελάτες του.Γενικά συμπεραίνουμε πως από τις διάφορες συναλλαγές δημιουργούνται πολλαπλά stream δεδομένων.

Δυο πεδία ανάπτυξης Need to do sophisticated analyses of update streams in near-real time manner Need to do sophisticated analyses of update streams in near-real time manner Η ανάλυση με μια κλασική μέθοδο ανανέωσης δεδομένων είναι απλή γιατί με εφαρμογή ενός ερωτήματος πολύ απλά παίρνουμε την νέα τιμή, αυτό είναι εφαρμόσιμο ειδικά σε τραπεζικές συναλλαγές και αυτές των καρτών. Η ανάλυση με μια κλασική μέθοδο ανανέωσης δεδομένων είναι απλή γιατί με εφαρμογή ενός ερωτήματος πολύ απλά παίρνουμε την νέα τιμή, αυτό είναι εφαρμόσιμο ειδικά σε τραπεζικές συναλλαγές και αυτές των καρτών. Σε πιο πολύπλοκες αναλύσεις όπως είναι trend analysis, forecasting κ.τ.λ. η ανάλυση γίνεται offline σε warehouses. Σε πιο πολύπλοκες αναλύσεις όπως είναι trend analysis, forecasting κ.τ.λ. η ανάλυση γίνεται offline σε warehouses. Σήμερα όμως δεν μας αρκεί αυτό γιατί υπάρχει πληθώρα από αυτόματα data feeds σε πολλούς τομείς. Σήμερα όμως δεν μας αρκεί αυτό γιατί υπάρχει πληθώρα από αυτόματα data feeds σε πολλούς τομείς. Απαιτείται ειδική ανάλυση και πολύπλοκες εργασίες πρέπει να γίνουν. Αυτές εξαρτώνται άμεσα από το χρόνο και απαιτούν ανάλυση πραγματικού χρόνου. Απαιτείται ειδική ανάλυση και πολύπλοκες εργασίες πρέπει να γίνουν. Αυτές εξαρτώνται άμεσα από το χρόνο και απαιτούν ανάλυση πραγματικού χρόνου.

Μοντέλα ροών δεδομένων Input stream a 1,a 2,… arrives sequentially, item by item, and describes an underlying signal A, a one-dimensional function A: [1…..N] -> R 2. Models differ on how a i ’s describe A. Input stream a 1,a 2,… arrives sequentially, item by item, and describes an underlying signal A, a one-dimensional function A: [1…..N] -> R 2. Models differ on how a i ’s describe A. Time series Model Time series Model Cash register Model Cash register Model Turnstile Model Turnstile Model

Συστήματα ροών δεδομένων Hands-on systems approach to data streams Hands-on systems approach to data streams Το σύστημα αυτό κρατά τμήματα κάθε φορά από τη ροή δεδομένων και συνήθως χρησιμοποιεί γλώσσες προγραμματισμού όπως η C για να διαχειριστεί την πληροφορία Το σύστημα αυτό κρατά τμήματα κάθε φορά από τη ροή δεδομένων και συνήθως χρησιμοποιεί γλώσσες προγραμματισμού όπως η C για να διαχειριστεί την πληροφορία

Συστήματα ροών δεδομένων Systems that let a high performance process updates using standard technology Systems that let a high performance process updates using standard technology Εδώ έχουμε εφαρμογές φτιαγμένες πάνω από μια βάση δεδομένων η οποία βάση διαχειρίζεται τα δεδομένα (SNPM logs – συνάθροιση δεδομένων από bytes που στάλθηκαν σε κάθε link σε ορισμένα λεπτά) και δίνει στην εφαρμογή τη δυνατότητα για δημιουργία traffic patterns σε links μεταξύ των IP routers. Εδώ έχουμε εφαρμογές φτιαγμένες πάνω από μια βάση δεδομένων η οποία βάση διαχειρίζεται τα δεδομένα (SNPM logs – συνάθροιση δεδομένων από bytes που στάλθηκαν σε κάθε link σε ορισμένα λεπτά) και δίνει στην εφαρμογή τη δυνατότητα για δημιουργία traffic patterns σε links μεταξύ των IP routers.

Συστήματα ροών δεδομένων Database systems where the internals are directly modified to deal with data streams Database systems where the internals are directly modified to deal with data streams Εδώ ερευνητικά το θέμα είναι ανοιχτό και μιλάμε για νέους stream operators, SQL extensions, μεθόδους δρομολόγησης. Εδώ έχουμε εξ ολοκλήρου ενα σύστημα διαχείρισης ροών δεδομένων. Εδώ ερευνητικά το θέμα είναι ανοιχτό και μιλάμε για νέους stream operators, SQL extensions, μεθόδους δρομολόγησης. Εδώ έχουμε εξ ολοκλήρου ενα σύστημα διαχείρισης ροών δεδομένων.

Μέθοδοι σε ροές δεδομένων Όταν θέλουμε να αναφερθούμε σε εξόρυξη γνώσης μέσα από data streams τότε υπάρχουν πολλές μέθοδοι που χρησιμοποιούνται γι αυτό το σκοπό. Όταν θέλουμε να αναφερθούμε σε εξόρυξη γνώσης μέσα από data streams τότε υπάρχουν πολλές μέθοδοι που χρησιμοποιούνται γι αυτό το σκοπό. Κατηγοριοποίηση Κατηγοριοποίηση Classic operation in machine learning and data mining Classic operation in machine learning and data mining Συσταδοποίηση (Clustering) Συσταδοποίηση (Clustering) Classic area of machine learning and pattern recognition Classic area of machine learning and pattern recognition Πρότυπα ακολουθιών (Sequential Patterns) Πρότυπα ακολουθιών (Sequential Patterns) Μείωση διαστάσεων (Reduction of Dimensions) Μείωση διαστάσεων (Reduction of Dimensions)

Μέθοδοι σε ροές δεδομένων Κατηγοριοποίηση Κατηγοριοποίηση Βασίζεται στην εξέταση των χαρακτηριστικών ενός νέου αντικειμένου το οποίο με βάση τα χαρακτηριστικά αυτά αντιστοιχίζεται σε ένα προκαθορισμένο σύνολο κλάσεων. Συνήθως υπάρχει περιορισμός στον αριθμό των κατηγοριών γι αυτό το σκοπό χρησιμοποιούνται κάποιες τεχνικές τις οποίες κατατάσσουμε σε 2 κατηγορίες Βασίζεται στην εξέταση των χαρακτηριστικών ενός νέου αντικειμένου το οποίο με βάση τα χαρακτηριστικά αυτά αντιστοιχίζεται σε ένα προκαθορισμένο σύνολο κλάσεων. Συνήθως υπάρχει περιορισμός στον αριθμό των κατηγοριών γι αυτό το σκοπό χρησιμοποιούνται κάποιες τεχνικές τις οποίες κατατάσσουμε σε 2 κατηγορίες δέντρα αποφάσεων δέντρα αποφάσεων νευρωνικά δίκτυα νευρωνικά δίκτυα Και οι δύο βασίζονται στην ιδέα της εκπαίδευσης με τη βοήθεια ενός υποσυνόλου δεδομένων που ονομάζεται σύνολο εκπαίδευσης. Έτσι με την εφαρμογή της διαδικασίας εκπαίδευσης καθορίζονται κάποια πρότυπα για τις κατηγορίες δεδομένων. Και οι δύο βασίζονται στην ιδέα της εκπαίδευσης με τη βοήθεια ενός υποσυνόλου δεδομένων που ονομάζεται σύνολο εκπαίδευσης. Έτσι με την εφαρμογή της διαδικασίας εκπαίδευσης καθορίζονται κάποια πρότυπα για τις κατηγορίες δεδομένων.

Μέθοδοι σε ροές δεδομένων Συσταδοποίηση Συσταδοποίηση Εδώ μιλάμε για την εργασία καταμερισμού ενός ετερογενούς πληθυσμού σε ένα σύνολο περισσότερων ετερογενών συστάδων. Εδώ δεν έχουμε προκαθορισμένες κατηγορίες. Οι εγγραφές ομαδοποιούνται σε σύνολα με βάση την ομοιότητα που παρουσιάζουν μεταξύ τους. Εδώ μιλάμε για την εργασία καταμερισμού ενός ετερογενούς πληθυσμού σε ένα σύνολο περισσότερων ετερογενών συστάδων. Εδώ δεν έχουμε προκαθορισμένες κατηγορίες. Οι εγγραφές ομαδοποιούνται σε σύνολα με βάση την ομοιότητα που παρουσιάζουν μεταξύ τους.

Μέθοδοι σε ροές δεδομένων Πρότυπα ακολουθιών Πρότυπα ακολουθιών Εδώ έχουμε εξόρυξη των συχνά εμφανιζόμενων προτύπων σχετικών με το χρόνο ή άλλες ακολουθίες. Εδώ έχουμε εξόρυξη των συχνά εμφανιζόμενων προτύπων σχετικών με το χρόνο ή άλλες ακολουθίες. Μείωση διαστάσεων Μείωση διαστάσεων Οι τεχνικές αυτές υπολογίζουν μια μικρότερη αντιπροσώπευση του αρχικού συνόλου δεδομένων. Εδώ γίνεται προσπάθεια να διατηρηθεί όσο το δυνατόν η αρχική δομή. Οι τεχνικές αυτές υπολογίζουν μια μικρότερη αντιπροσώπευση του αρχικού συνόλου δεδομένων. Εδώ γίνεται προσπάθεια να διατηρηθεί όσο το δυνατόν η αρχική δομή.

Συμπεράσματα We need the TCS infrastructure to manage and process them. This means challenges to: We need the TCS infrastructure to manage and process them. This means challenges to: Algorithms Algorithms Databases Databases Networking Networking Systems Systems Languages Languages This means new methods in Mathematics