Κωνσταντίνος Κώστα. , Γεώργιος Χατζημηλιούδης. , Δημήτρης Ζεϊναλιπούρ§

Slides:



Advertisements
Παρόμοιες παρουσιάσεις
Εταιρεία : Imagination Travel Κλάδος : Ταξιδιωτικό Γραφείο Αριθμός Εργαζομένων : 15
Advertisements

Indexing.
Δομές Δεδομένων και Αλγόριθμοι
Διάγραμμα Παρουσίασης
Client Access Internet Explorer. Εισαγωγή aXes Terminal Server είναι ένα πρωτοποριακό προϊόν το οποίο μετατρέπει μεταφέρει άμεσα τις οθόνες του iSeries.
Ανάπτυξη Μοντέλου Ρομποτικού Οχήματος Σταθερής Τροχιάς, για Αποθήκη Κέντρου Διανομής Λιανεμπορίου ή Υπηρεσιών Logistics Γκρέμος Αναστάσιος ΠΛΣ Διπλωματική.
ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ Εισαγωγή στις Βάσεις Δεδομένων για Μαθητές Λυκείων και Τεχνικών Σχολών Δημήτρης Ζεϊναλιπούρ Λέκτορας Τμήμα Πληροφορικής,
Real life testing με Lab Management Γιώργος Καρκαλής Testing Specialist 12/5/2011.
A Peer-to-peer Framework for Caching Range Queries O. D. Sahin A. Gupta D. Agrawal A. El Abbadi Παρουσίαση: Καραγιάννης Τάσος, Κρεμμυδάς Νίκος, Μαργαρίτη.
WIFI-Aσύρματα Δίκτυα.
ΨΗΦΙΟΠΟΙΗΣΗ ΚΑΙ ΠΟΛΙΤΙΣΤΙΚΑ ΜΕΣΑ
Ανακτηση Πληροφοριασ σε νεφη Υπολογιστων
Βάσεις Δεδομένων 1 T.Manavis– N.Kyritsis.
1 Συλλογικοί Κατάλογοι & Διαδίκτυο Μιχάλης Σφακάκης.
Dagstuhl Seminar 10042, Demetris Zeinalipour, University of Cyprus, 26/1/ η Ημερίδα Πληροφορικής για Μαθητές Λυκείων και Τεχνικών Σχολών, Σάββατο,
δφσδφ ΦΥΣΙΚΟ ΕΠΙΠΕΔΟ ΑΠΟΘΗΚΩΝ ΔΕΔΟΜΕΝΩΝ: ΜΕΡΟΣ Α’ 4/6/2017
Εισαγωγικές Έννοιες Διδάσκοντες: Σ. Ζάχος, Δ. Φωτάκης Επιμέλεια διαφανειών: Δ. Φωτάκης Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών Εθνικό Μετσόβιο.
Λειτουργικά συστήματα ΙΙ
1 Εισαγωγή στις Βάσεις Δεδομένων  Ανάγκη Αποθήκευσης και Διαχείρισης Δεδομένων  Συστήματα Αρχείων  Συστήματα Βάσεων Δεδομένων  Παραδοσιακές και Σύγχρονες.
Μοντέλο Διδασκαλίας Φυσικών Επιστήμων, για την Υποχρεωτική Εκπαίδευση, στην Κατεύθυνση της Ανάπτυξης Γνώσεων και Ικανοτήτων. Π. Κουμαράς.
ΕΡΩΤΗΜΑΤΑ ΕΠΙΛΟΓΗΣ ΜΕ ΣΥΖΕΥΞΗ ΠΙΝΑΚΩΝ
ΠΛΗΡΟΦΟΡΙΑΚΑ ΣΥΣΤΗΜΑΤΑ
ΣΥΣΤΗΜΑΤΑ ΑΝΑΜΟΝΗΣ Queuing Systems
ΛΑΜΠΡΟΣ ΓΑΤΣΩΡΗΣ BSc MBA DBA(cand)
1 Εισαγωγή στις Βάσεις Δεδομένων  Ανάγκη Αποθήκευσης και Διαχείρισης Δεδομένων  Συστήματα Αρχείων  Συστήματα Βάσεων Δεδομένων  Παραδοσιακές και Σύγχρονες.
Μοντέλα Συστημάτων Παρουσιάσεις των συστημάτων των οποίων οι απαιτήσεις αναλύονται.
Αξιολόγηση πληροφοριακών συστημάτων
Ημέρα 1η.
1 Βάσεις Δεδομένων ΙI Επιμέλεια: ΘΟΔΩΡΗΣ ΜΑΝΑΒΗΣ SQL (3 από 3) T Manavis.
Advanced Data Indexing (Προηγμένη ευρετηρίαση δεδομένων) Κατακερματισμός – Hashing (1 ο Μέρος)
IΟΝΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ ΣΤΗΝ ΕΠΙΣΤΗΜΗ ΤΗΣ ΠΛΗΡΟΦΟΡΙΑΣ: «ΔΙΟΙΚΗΣΗ & ΟΡΓΑΝΩΣΗ ΒΙΒΛΙΟΘΗΚΩΝ ΜΕ ΕΜΦΑΣΗ ΣΤΙΣ ΝΕΕΣ ΤΕΧΝΟΛΟΓΙΕΣ ΤΗΣ.
Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1 Εισαγωγή στην Επεξεργασία Ερωτήσεων.
ΠΑΡΟΥΣΙΑΣΗ ΤΟΥ COLLATE PROJECT COLLATE:Collaboratory for Annotaton,Indexing and Retrieval of Digitized Historical Archive Material(συνεργασία για σχολιασμό,
Network Inference Μπαλάφα Κασιανή - Αδριανή Πλασταρά Κατερίνα.
ΙΟΝΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΜΣ «ΕΠΙΣΤΗΜΗ ΤΗΣ ΠΛΗΡΟΦΟΡΗΣΗΣ» ΗΛΕΚΤΡΟΝΙΚΗ ΔΗΜΟΣΙΕΥΣΗ ΔΙΔΑΣΚΟΝΤΕΣ: ΚΑΠΙΔΑΚΗΣ ΣΑΡΑΝΤΟΣ ΓΕΡΓΑΤΣΟΥΛΗΣ ΕΜΜΑΝΟΥΗΛ Το DSpace ως ένα Ανοικτό.
ΙΟΝΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΤΜΗΜΑ ΑΡΧΕΙΟΝΟΜΙΑΣ & ΒΙΒΛΙΟΘΗΚΟΝΟΜΙΑΣ ΜΕΤΑΠΤΥΧΙΑΚΟ ΠΡΟΓΡΑΜΜΑ ΣΠΟΥΔΩΝ ΣΤΗΝ ΕΠΙΣΤΗΜΗ ΤΗΣ ΠΛΗΡΟΦΟΡΙΑΣ “ USING MILOS TO BUILD A MULTIMEDIA.
Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1 Επεξεργασία Ερωτήσεων.
Ε.Κ.Π.Α 1 Διάθεση αρχείων βίντεο στο Διαδίκτυο Δρ. Μιχάλης Γκατζώνης Κέντρο Λειτουργίας και Διαχείρισης Δικτύου Εθνικό και Καποδιστριακό Πανεπιστήμιο Αθηνών.
Αποδοτική Ισοστάθμιση Ασύρματων Τηλεπικοινωνιακών Διαύλων Βασισμένη σε Ομαδοποίηση Αποδοτική Ισοστάθμιση Ασύρματων Τηλεπικοινωνιακών Διαύλων Βασισμένη.
Ηλεκτρονική Δημοσίευση The Goddard Library Web Capture Project Χριστιανούδης Ιωάννης Π.Μ.Σ. Κέρκυρας Μάιος 2005.
Μοντέλα βελτιστοποίησης απόφασης στη διαδικασία της παραγγελιοδοσίας στο λιανεμπόριο Ομάδα εργασίας: Αρβανίτης Ηλίας Βολανάκης Ελευθέριος
1 Διαχείριση Γνώσης Μ. Γεργατσούλης Χ. Παπαθεοδώρου.
1ο Εργαστήριο Οργάνωση Παραγωγής I
Γνωριμία με το Λογισμικό του υπολογιστή Μια παρουσίαση για τους μαθητές της Α΄ Τάξης του 49ου Γυμνασίου Αθήνας Διδάσκων: Χ. Μοτσενίγος 49ο Γυμνάσιο Αθήνας.
Σχεδιασμός διαδικασιών
Ορισμός Έργου Δρ. Α. Ραφαηλίδης Τμ. Διοίκησης Επιχειρήσεων (Πάτρα) ΤΕΙ Δυτ. Ελλάδας.
Κρυφή μνήμη (cache memory) (1/2) Εισαγωγή στην Πληροφορκή1 Η κρυφή μνήμη είναι μία πολύ γρήγορη μνήμη – πιο γρήγορη από την κύρια μνήμη – αλλά πιο αργή.
Telco Churn Prediction with Big Data ΚΥΡΙΑΚΟΥ ΜΙΧΑΛΗΣ ΡΟΤΣΙΔΟΥ ΓΕΩΡΓΙΑ ΕΠΛ 646: Προχωρημένα Θέματα Βάσεων Δεδομένων Δεκέμβριος 2015.
2 Μικρές Επιχειρήσεις Μεσαίες Επιχειρήσεις Μεγάλες Επιχειρήσεις Καταναλωτές Κατηγορία Πελατών Ολοκληρωμένες Λύσεις Servers Γενικής Χρήσης Αριθμός Χρηστών.
Διεργασίες ψηφιακής επιμέλειας και το πρόγραμμα δράσης της Μονάδας Ψηφιακής Επιμέλειας Πάνος Κωνσταντόπουλος Μονάδα Ψηφιακής Επιμέλειας, Ερευνητικό Κέντρο.
Η ΕΠΑΝΑΣΤΑΣΗ ΣΤΗ ΔΙΑΧΕΙΡΙΣΗ ΑΣΦΑΛΙΣΤΙΚΟΥ ΠΡΑΚΤΟΡΕΙΟΥ.
Διδάσκοντας Συστημική Βιολογία: Μια Μέθοδος Ενεργούς Μάθησης (του Anuj Kumar,2005) Γιώτα Πασχαλίδου.
ΤΙΤΛΟΣ ΕΡΓΑΣΙΑΣ ΒΑΣΕΙΣ ΔΕΔΟΜΕΝΩΝ Ανδρέου Βασίλης.
Η πλατφόρμα Βασίλης Γαργανουράκης Υπεύθυνος 2ου ΕΚΦΕ Ηρακλείου
Θερινό Σχολείο, 14 – 20 Ιουλίου 2014
Εισαγωγή στις βάσεις δεδομένων ISBN
ΑΣΦΑΛΕΙΑ ΙΑΤΡΙΚΩΝ ΔΕΔΟΜΕΝΩΝ
Εφαρμογές Της Διαδικτυακής Πλατφόρμας Google Drive
DREMEL: Interactive Analysis of Web-Scale Datasets
MOODLE- assessment tools
Μεθοδολογία Έρευνας Διάλεξη 9η Σύνταξη Πτυχιακής Εργασίας
Εφαρμογές Νέφους ΚΕΦΑΛΑΙΟ 13.
Πληροφοριακό σύστημα Πληροφοριακό Σύστημα μιας επιχείρησης/οργανισμού είναι ένα σύστημα που αποτελείται από ανθρώπους, διαδικασίες και εξοπλισμό (Υλικό,
Εφαρμογές Νέφους ΚΕΦΑΛΑΙΟ 13.
Ο ορισμός του επιχειρηματικού μοντέλου
ΟΙΚΟΝΟΜΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΘΗΝΩΝ
Διαχειριση εργου μεσω κρισιμησ αλυσιδασ (;)
Σχεσιακεσ βασεισ δεδομενων
Ερωτήματα Επιλογής σε ACCESS
Αρχική Εκτίμηση Ετήσιου Οικονομικού Οφέλους Περιγραφή Δράσεων Βασικοί Στόχοι – Προσδοκώμενα Οφέλη Αρχική Εκτίμηση Ετήσιου.
Μεταγράφημα παρουσίασης:

Αποτελεσματική Διερευνητική Ανάλυση Μεγάλων Τηλεπικοινωνιακών Δεδομένων µε Συμπίεση και Αποσύνθεση Κωνσταντίνος Κώστα*, Γεώργιος Χατζημηλιούδης*, Δημήτρης Ζεϊναλιπούρ§* και Mohamed F. Mokbel‡ ∗ Πανεπιστήμιο Κύπρου, 1678 Λευκωσία, Κύπρος § Max Planck Institute for Informatics, 66123 Saarbrücken, Germany ‡ University of Minnesota Minneapolis, MN 55455, USA {costa.c, gchatzim, dzeina}@cs.ucy.ac.cy dzeinali@mpi-inf.mpg.de, mokbel@cs.umn.edu [ Άρθρο στο IEEE ICDE’17, April 19-22, 2017 San Diego, CA, USA ] 15o Ελληνικό Συμπόσιο Διαχείρισης Δεδομένων (ΕΣΔΔ’17)   24 Αυγούστου - 25 Αυγούστου 2017, Αθήνα, Ελλάδα

Παρακίνηση Η επέκταση των κινητών δικτύων και του IoT (υλικό με δυνατότητα IP) συνέβαλε στην έκρηξη δεδομένων εντός των τηλεπικοινωνιακών εταιρειών (Telcos)

Telco Big Data (TBD) Telco Data: Παραδοσιακή πηγή για αποθήκες δεδομένων OLAP και αναλύσεων. Π.χ., λογιστικοί υπολογισμοί για πλάνα πελατών, λήψη αποφάσεων για εγκατάσταση κεραιών, κτλ. Πρόβλημα: Ανεπαρκής ευκρίνεια δεδομένων για την αντιμετώπιση των μεγαλύτερων προκλήσεων: Π.χ., πρόβλεψη απώλειας πελάτη  (churn prediction), βελτιστοποίηση δικτύου 5G, αξιολόγηση εμπειρίας χρήστη, χαρτογράφηση κυκλοφορίας. Telco Big Data (TBD): Δεδομένα ταχύτητας που παράγονται στις κεραίες. Π.χ., ισχύ του σήματος, αποτυχίες κλήσεων, κτλ. Μέγεθος: 5TBs/μέρα για 10M πελάτες (2PB/year). RDBMS Data Store

Βιομηχανική προοπτική Οι TBD επενδύσεις αναμένεται να αυξηθούν 50% των Telcos θα επενδύσει σε TBD (μόνο το 30% το έχει πράξει μέχρι τα μέσα του 2016) Source: McKinsey & Company Telecommunications “Telcos: The untapped promise of big data”, June 2016, https://goo.gl/mAHXib Η υπόσχεση της εξαγωγής της αξίας των TBD δεν έχει πραγματοποιηθεί μέχρι σήμερα! Απλώς επικεντρώνεται σε επιχειρηματικές/δικτυακές υποθέσεις: Source: Key Big Data Use Cases for Telcos, Cloudera, 2015

Πρόκληση Η εποχή των μεγάλων δεδομένων μας οδηγεί σε ένα σημείο όπου οι οργανισμοί συλλέγουν περισσότερα από όσα μπορούν! Ο συνολικός όγκος αποθηκευμένων δεδομένων διπλασιάζεται κάθε 2 χρόνια. Το κόστος αποθήκευσης δεδομένων μειώνεται μόνο με ρυθμό μικρότερο από 1/5 το χρόνο. Datacenter Journal, https://goo.gl/o4MnJp Τα TBD τροφοδοτούν τα κέντρα δεδομένων των Telcos που δεν μπορούν να επωφεληθούν από οικονομιών κλίμακας που είναι διαθέσιμες στα δημόσια σύννεφα (λόγω εμπιστευτικότητας / ασφάλειας). Η δική μας προσέγγιση: Εισαγωγή μιας πλήρους αναλυτικής στοίβας TBD που έχει προτεραιότητα την Συμπίεση και τη Φθορά.

Περίληψη Παρουσίασης Εισαγωγή Υπόβαθρο Το Πλαίσιο SPATE Πειράματα Επίπεδο Αποθήκευσης Επίπεδο Ευρετηρίου Επίπεδο Εφαρμογής Πειράματα Συμπεράσματα

TBD Δίκτυο Radio & Core Δίκτυο Δημιουργία ροών πακέτων IP από τις GSM/GPRS (2G), UMTS (3G), LTE (4G) κεραίες.

Ροές TBD Telco Big Data (TBD) Call Quality Data quality (web speed, connection success rate) Measurement Reports (can be used to localize users with triangulation ~50 meters) Telco Big Data (TBD) Business Supporting Systems (BSS) δεδομένα Tens of GB/day for a xM+ city Operating Supporting Systems (OSS) δεδομένα Tens of TB/day for a xM+ city

TBD Σχεσιακό Διάγραμμα Εκατοντάδες Χαρακτηριστικά (π.χ., 200) & Εκατομμύρια εγγραφές Τα ξένα κλειδιά συνενώνουν τους πίνακες για να δώσουν απαντήσεις σε πιο σύνθετα ερωτήματα Η τοποθεσία των χρηστών δεν βρίσκεται στα TBD (αλλά μπορεί να προσδιοριστεί από τα δεδομένα MR ~ περίπου 50 μέτρα ακρίβεια) Ιδιόκτητες μορφές δεδομένων καθιστούν δύσκολο να επεκταθεί το σχήμα TBD (π.χ., μοντέλα ραδιοδιάδοσης)

Περίληψη Παρουσίασης Εισαγωγή Υπόβαθρο Το Πλαίσιο SPATE Πειράματα Επίπεδο Αποθήκευσης Επίπεδο Ευρετηρίου Επίπεδο Εφαρμογής Πειράματα Συμπεράσματα

SPATE: Επισκόπηση Το SPATE έχει 3 επίπεδα: Επίπεδο Αποθήκευσης Λογική συμπίεσης Επίπεδο Ευρετηρίου Ελαχιστοποίηση του χρόνου απόκρισης ερωτήματος για ερωτήματα αναζήτησης Σταδιακή φθορά των δεδομένων Επίπεδο Εφαρμογής Μονάδα Επερωτήσεων Διεπαφή χρήστη

Επίπεδο Αποθήκευσης: Συμπίεση Συμπίεση αναφέρεται στην κωδικοποίηση δεδομένων χρησιμοποιώντας λιγότερα bits από την αρχική αναπαράσταση Οφέλη: Μετατοπίζει τα σημεία συμφόρησης των πόρων από storage- και network-I/O σε CPU. Τεράστια εξοικονόμηση σε αποθηκευτικό χώρο και Ι/Ο σε επόμενες αναλυτικές εργασίες! Στόχοι: Λαμβάνοντας υπόψη ένα περιβάλλον όπου τα TBD φτάνει περιοδικά σε παρτίδες, θέλουμε: Ελαχιστοποίηση του χώρου που απαιτείται για την αποθήκευση / αρχειοθέτηση δεδομένων Ελαχιστοποίηση του χρόνου απόκρισης για ερωτήματα διερεύνησης χωροχρονικών δεδομένων

Επίπεδο Αποθήκευσης: Συμπίεση Αναλύσαμε ένα ανώνυμο πραγματικό κατάστιχο δεδομένων TBD για να κατανοήσουμε τις αναλογίες συμπίεσης που μπορούν να επιτευχθούν. Dataset: 1 εβδομάδα, 1.7M CDR, 21M NMS, 300K χρήστες Tool: Shannon’s entropy (τυπικό μέτρο για τη μέγιστη εφικτή συμπίεση ενός συνόλου δεδομένων) Observation: TBD περιέχει σημαντική επανάληψη (Entropy κοντά στο 0)!

Επίπεδο Αποθήκευσης: Συμπίεση Ο επόμενος στόχος μας ήταν να προσδιορίσουμε εμπειρικά τις κατάλληλες βιβλιοθήκες συμπίεσης για το TBD. Το microbenchmark μας εκτελέστηκε: Dataset: 200 στιγμιότυπα από το ανώνυμο και μη συμπιεσμένο σύνολο δεδομένων TBD 5GB που παρουσιάστηκε νωρίτερα. Filesystem: Πάνω από HDFS v2.5.2 Τρεις σημαντικές μετρικές στη συμπίεση: compression ratio rc compression time Tc1 decompression time Tc2

Επίπεδο Αποθήκευσης: Συμπίεση Βιβλιοθήκες συμπίεσης χωρίς απώλειες: GZIP με βαση DEFLATE algorithm (Lempel-Ziv and Huffman) – rc, Tc1, Tc2 , compat.  7z είναι εργαλείο συμπίεσης με βάση το LZMA and LZMA2 – rc, Tc1, Tc2 , compat.  SNAPPY, by Google, επιδιώκει τη μέγιστη ταχύτητα συμπίεσης – rc, Tc1, Tc2 , compat.  ZSTD, by Facebook, χρησιμοποιεί νέους κωδικοποιητές HUFF0 (Huffman) and FSE (Fine State Entropy) – rc, Tc1, Tc2 , compat. 

Επίπεδο Αποθήκευσης: Συμπίεση Libraries\ Objectives GZIP 7z SNAPPY ZSTD Compression Ratio (rc) 9.06 11.75 4.94 9.72 Compression Time (Tc1) in sec 21.37 20.99 21.39 21.07 Decompr. Time (Tc2) in sec 0.11 0.12 0.13 * GZIP also readily available by most Stream I/O libraries & application layer (e.g., HIVE, HUE)

Επιπέδου Ευρετηρίου: Ενότητες Το χωροχρονικό ευρετήριο μας έχει 4 επίπεδα χρονικών αναλύσεων εποχή (30 λεπτά), ημέρα, μήνα, έτος. A) Incremence Module Προσθέτει συμπιεσμένα στιγμιότυπα στο δεξιό μονοπάτι

Επιπέδου Ευρετηρίου: Ενότητες B) Highlights Module υλοποιημένες όψεις σε μακροχρόνιες ερωτήσεις χρηστών (π.χ. μετρητές απώλειας κλήσης, στατιστικά εύρους ζώνης κλπ.) απαραίτητο για πολλαπλού επιπέδου οπτική ανάλυση!

Επιπέδου Ευρετηρίου: Φθορά Φθορά αναφέρεται στην “προοδευτική απώλεια της λεπτομέρειας στις πληροφορίες καθώς τα δεδομένα γηραίνουν με το χρόνο μέχρι να εξαφανιστούν εντελώς”. M. L. Kersten, “Big data space fungus,” in CIDR’15 Οφέλη: Διατηρεί τις ικανότητες συλλογικής διερεύνησης των δεδομένων. Εξοικονομεί μεγάλα ποσά αποθήκευσης και I/O. Υπάρχει εναλλακτικός ορισμός σχετικά με την Φθορά του Σχήματος ΒΔ, αλλά δεν ισχύει εδώ. M. Stonebraker, R. Castro, F. Dong Deng, and M. Brodie, “Database decay and what to do about it.” 2016. [Online]. BLOG@CACM: https://goo.gl/tJNa9m.

Επιπέδου Ευρετηρίου: Ενότητες C) Decaying Module Μύκητας δεδομένων (Data Fungus): “Evict Oldest Individuals” Περισσότερο Data Fungus θα διερευνηθεί στο μέλλον

Επίπεδο Εφαρμογής: SPATE-UI Video! Ελπίζω να ήρθατε στο DEMO!

Περίληψη Παρουσίασης Εισαγωγή Υπόβαθρο Το Πλαίσιο SPATE Επίπεδο Αποθήκευσης Επίπεδο Ευρετηρίου Επίπεδο Εφαρμογής Πειράματα Συμπεράσματα

Πειραματική Μεθοδολογία Για να αξιολογήσουμε το SPATE, εφαρμόσαμε μια ιχνο-οδηγούµενη (trace-driven) πειραματική προσέγγιση: Συγκρινόμενα Πλαίσια: RAW: αποθηκεύει το στιγμιότυπο στο δίσκο χωρίς συμπίεση ή ευρετηρίαση SHAHED: αποθηκεύει το στιγμιότυπο χρησιμοποιώντας ένα ευρετήριο quad-tree (part of SpatialHadoop 2.4 @ ICDE’15) . SPATE: το προτεινόμενο πλαίσιο σε αυτό το έργο. Μετρικές: Ingestion Time (sec): κόστος χρόνου να αποθηκεύσει μια 30-λεπτών TBD στιγμιότυπο Space (MB): κόστος χώρου για την αποθήκευση ενός 30-λεπτών TBD στιγμιότυπο Response Time (sec): χρόνο για να απαντηθεί ένα ερώτημα.

Πειραματική δοκιμή Δομή λειτουργικού συστήματος TBD Δομή πλαισίου TBD Datacenter: VMWare ESXi 5.0.0 Hosts VMs: 4 Ubuntu 14.04 server images, each featuring: 8GB of RAM with 2 virtual CPUs (2.40GHz) Storage Element: Slow 7.2K RPM RAID-5 SAS, 6 Gbps disks. Each disk formatted in VMFS 5.54 (1MB block) Δομή πλαισίου TBD Hadoop Distributed File System (HDFS) v2.5.2 Apache Hive 2.0 (online querying) Apache Spark 1.6.0 (offline data processing) Μεμονωμένα προγράμματα Scala υποβλήθηκαν απευθείας στον Spark master Apache HIVE Warehouse Apache HDFS Filesystem SPARK Jobs

Ingestion Time and Space Ingestion time (left) and Space (right) των μεθόδων σε διαφορετικά χρονικά παράθυρα εντός μιας ημέρας. Observation: SPATE 1,25 φορές αργότερα κατά την εισαγωγή αλλά χρειάζεται 1 τάξη μεγέθους λιγότερο αποθηκευτικό χώρο! Οι εισαγωγές διαχωρίζονται από παράθυρα 30 λεπτών, επομένως αυτό είναι αποδεκτό

(Βασικές) Εργασίες Διερεύνησης Δεδομένων T1. Equality SELECT upfx,downfx FROM CDR WHERE ts=‘‘201601221530’’; T2. Range SELECT upfx, downfx FROM CDR WHERE ts>=‘‘2015’’ AND ts<=‘‘2016’’; T3. Aggregate SELECT cellid, SUM(val) FROM NMS WHERE …GROUP BY cellid; T4. Join Self-join on CDR table T5. Privacy K-anonymity obfuscation using the ARX Java library Παρατηρήσεις: Για τα μοναδικά ερωτήματα σάρωσης T1-T3 & T5 SPATE μόνο ελαφρώς αργότερα από SHAHED (λόγω αποσυμπίεσης) Για τον ενσωματωμένο βρόχο T4, το SPATE είναι πιο γρήγορο, καθώς οι ροές εισόδου συμπιέζονται

Εργασίες Διερεύνησης Δεδομένων Παρατήρηση: CPU intensive εργασίες: SPATE = RAW = SHAHED ακόμα και αν χρησιμοποιούμε 1 τάξη μεγέθους λιγότερο χώρο στο δίσκο! Multivariate Statistics (SparkML) Kmeans clustering (SparkML) Linear Regression (SparkML)

Συμπεράσματα & Μέλλον Συμπεράσματα: Μελλοντική εργασία: Το SPATE επιτρέπει τη χρήση 1 τάξης μεγέθους λιγότερο χώρο Το SPATE διατηρεί τον χρόνο απόκρισης ερωτήματος για μια ποικιλία ερωτημάτων αναζήτησης δεδομένων Μελλοντική εργασία: Εφαρμογές για έξυπνες πόλεις με το SPATE: αυτοματοποιημένο σύστημα χαρτογράφησης της κυκλοφορίας οχημάτων σε πόλεις. σύστημα έκτακτης ανάγκης μετά από φυσικές καταστροφές

SPATE: Συμπίεση και Διερεύνηση Μεγάλων Τηλεπικοινωνιακών Δεδομένων Ευχαριστώ! Ερωτήσεις; Κωνσταντίνος Κώστα*, Γεώργιος Χατζημηλιούδης*, Δημήτρης Ζεϊναλιπούρ§* και Mohamed F. Mokbel‡ ∗ Πανεπιστήμιο Κύπρου, 1678 Λευκωσία, Κύπρος § Max Planck Institute for Informatics, 66123 Saarbrücken, Germany ‡ University of Minnesota Minneapolis, MN 55455, USA {costa.c, gchatzim, dzeina}@cs.ucy.ac.cy dzeinali@mpi-inf.mpg.de, mokbel@cs.umn.edu 15o Ελληνικό Συμπόσιο Διαχείρισης Δεδομένων (ΕΣΔΔ’17)   24 Αυγούστου - 25 Αυγούστου 2017, Αθήνα, Ελλάδα

Related Work Telco Big Data Research Real-time Analytics and Detection OceanRT: Real time telco big data analytic system (Zhang et al. SIGMOD’14) OceanST: Loading mechanism and spatiotemporal index (Yuan et al. VLDB’14, vol. 7) CellIQ: Cellular network as graphs (Iyer et al. NSDI’15) Predicting User Behavior Customer churn prediction (Huang et al. SIGMOD’15) User activity prediction Luo et al. TIST’16, vol. 7 Privacy Differential privacy Hu et al. VLDB’15, vol. 8

Related Work Compressing Incremental Archives Domain-specific compression techniques Bicer et al. IPDPS’13, Yan et al. WWW ’09, Ross at al. ECPP’11, Schendel et al. ICDE’12, Jenkis et al. LNCS’13, Soroush et al. ICDE’13, Burscher et al. ITC’09 Differential compression techniques Douglis et al. ATC’13 Bhagwat at al. MASCOTS’09 You et al. TOS’11 Bhattacherjee et al. VLDB’15, vol. 8