Δεδομένα στα Σύνεφα Παναγιώτης Τριανταφύλλου Παν/μιο Πατρών
Τί είναι; Ένα νέο ‘παράδειγμα’ – cloud computing Κατανεμημένος υπολογισμός + Πλέγμα + Utility computing + IaaS + Soft as a Service + PaaS … 7/2/102HDMS2010
Τί είναι; Pay-as-you-go elasticity : Like App Service Providers, DaaS, etc BUT you own the sw – they own the hw 7/2/10HDMS20103
Αλήθειες (I) Ελαστικότητα: απαιτεί shared-nothing αρχιτεκτονικές πριμοδοτούνται εφαρμογές όπου δεδομένα + υπολογισμός μπορούν να τμηματοποιηθούν (partitioned) τα τμήματα να ανατεθούν σε διάφορους κόμβους που θα λειτουργήσουν παράλληλα Και απαιτούν μίνιμουμ συγχρονισμό/συντονισμό Δηλαδή read-only/mostly 7/2/10HDMS20104
Αλήθειες (II) Cloud DM = MapReduce + NoSQL (;;;;;) Προβλήματα απόδοσης, εκτός από “χαζο-scans” (== σάρωση ολόκληρων αδόμητων εγγράφων) , …., no-”schema”, no-index, no-joins, … 7/2/10HDMS20105
Ανοικτά ερευνητικά θέματα (Ι) Συνέπεια δεδομένων A C I D : ίσως μόνο το C είναι τo σίγουρo – τα άλλα ;;; Διπλότυπα: Η ύπαρξή τους είναι απαιτητή ! Αλλά με τί συνέπεια ; Συσχέτιση συνέπειας με φυσική απόσταση μεταξύ διπλοτύπων (in-rack, in-DC, across-DC, internet,..) Ανοχή σε σφάλματα/αστοχίες για ερωτήματα και ενημερώσεις Έξυπνη, όχι backup executions a la MapReduce 7/2/10HDMS20106
Ανοικτά ερευνητικά θέματα (Ι) θεμελιώδες: διαχείριση writes 7/2/10HDMS20107
Ανοικτά ερευνητικά θέματα (ΙI) Παρακολούθηση/επίβλεψη απόδοσης, συμπεριφοράς κόμβων, … αστοχίες, υποβαθμισμένη απόδοση (μερική αποτυχία), φόρτος εργασίας Στατιστικά για μεγέθη δεδομένων κλπ Με... MapReduce Με gossiping ; Ανάθεση κατάλληλων εργασιών σε ετερογενείς κόμβους με ελαστικότητα Βελτιστοποίηση επεξεργασίας ερωτημάτων 7/2/10HDMS20108
Ανοικτά ερευνητικά θέματα (ΙII) F*** NoSQL+ MapReduce Αλλάξτε το MapReduce Χτίστε δομές δεικτοδότησης Κάντε joins Τότε βέβαια δε θα διαφέρει και πολύ από SN-DB 7/2/109HDMS2010