Η παρουσίαση φορτώνεται. Παρακαλείστε να περιμένετε

Η παρουσίαση φορτώνεται. Παρακαλείστε να περιμένετε

Π. Βασιλειάδης 2010-09-09 ( βασισμένο στις διαφάνειες της Α. Πιλαλίδου ) Ιδιωτικότητα και διαχείριση δεδομένων.

Παρόμοιες παρουσιάσεις


Παρουσίαση με θέμα: "Π. Βασιλειάδης 2010-09-09 ( βασισμένο στις διαφάνειες της Α. Πιλαλίδου ) Ιδιωτικότητα και διαχείριση δεδομένων."— Μεταγράφημα παρουσίασης:

1 Π. Βασιλειάδης ( βασισμένο στις διαφάνειες της Α. Πιλαλίδου ) Ιδιωτικότητα και διαχείριση δεδομένων

2 Γιατί είναι σημαντική η ιδιωτικότητα των δεδομένων ? Διάφοροι οργανισμοί ( νοσοκομεία, δημόσιοι οργανισμοί,…) δημοσιεύουν δεδομένα με σκοπό να εξυπηρετήσουν αναλυτές που μπορεί να εξάγουν χρήσιμα συμπεράσματα ( π. χ., « σε ποιες περιοχές έχουμε αυξημένο ποσοστό καρκίνου του δέρματος ?» Επειδή τα δεδομένα περιέχουν προσωπικές πληροφορίες, συνήθως οι πληροφορίες αυτές αποκρύβονται. Είναι εφικτό όμως, κάποιος « επιτιθέμενος » να μπορέσει να συνδυάσει δημοσιευμένα δεδομένα από διάφορες πηγές, καθώς και δική του πληροφόρηση για να σπάσει την ανωνυμοποίηση των δεδομένων 2

3 Ο κυβερνήτης της Μασαχουσέτης Η πιο διάσημη περίπτωση είναι ο συνδυασμός δημοσίων εκλογικών καταλόγων και δημοσιευθέντων ιατρικών δεδομένων για να ανευρεθεί ο ιατρικός φάκελος του κυβ. της Μασαχουσέτης Προσέξτε πώς υπάρχει μόνο μία εγγραφή με ημ. γέννησης 1/21/76, zipcode και φύλο Male. Επειδή τα στοιχεία αυτά του κυβερνήτη ήταν γνωστά από τους εκλογικούς καταλόγους + Ήταν γνωστό ότι μπήκε στο νοσοκομείο => Μπορεί κανείς να συνάγει την πάθησή του 3

4 Δημοσιοποίηση δεδομένων με απόκρυψη ευαίσθητων πληροφοριών Detailed microdata T Anonymized public data T* Bob (the victim) to be hidden Ben, the benevolent data miner Alice, the external attacker 4

5 Βασικοί Ορισμοί ‏ Quasi-Identifier: Πεδία τα οποία αν συνδυαστούν με κάποιες εξωτερικές πληροφορίες μπορούν να προσδιορίσουν μοναδικά μια εγγραφή ενός πίνακα (zip code, birth date, sex,…). Συχνά συνοδεύουμε τους quasi-identifiers με ιεραρχίες γενίκευσης Sensitive Attributes: Είναι πεδία των οποίων την πληροφορία θέλουμε να αποκρύψουμε (disease, salary,…) Identifiers: Είναι πεδία που αποκαλύπτουν απ ’ ευθείας την ταυτότητα ενός ατόμου (name, SNN,..). 5

6 6

7 Γενίκευση και ανωνυμία Για να διατηρηθεί η ιδιωτικότητα των δεδομένων πρέπει : Να αφαιρεθούν από τα δεδομένα τα πεδία εκείνα που απ ’ ευθείας δηλώνουν σε ποιο πρόσωπο ανήκει μια εγγραφή Οι εγγραφές και οι τιμές των πεδίων του να μετασχηματιστούν / οργανωθούν σε ομάδες / … με τέτοιο τρόπο ώστε : Οι στατιστικές ιδιότητες του συνόλου των δεδομένων να διατηρηθούν Ο κακόβουλος επιτιθέμενος να μη μπορεί να « μαντέψει » σε ποιον ανήκει μια εγγραφή με στατιστικά σημαντική πιθανότητα 7

8 k-anonymity Ένας πίνακας Τ είναι k-anonymous όταν κάθε εγγραφή του πίνακα είναι ίδια ως προς τα Quasi-Identifier πεδία του με k-1 άλλες εγγραφές. 8

9 l-diversity Ένας πίνακας T ικανοποιεί την ιδιότητα του l-diversity όταν κάθε group του πίνακα έχει τουλάχιστον l διαφορετικές τιμές στα sensitive πεδία. 9

10 Παράμετροι του προβλήματος Υπάρχουν 3 παράμετροι του προβλήματος Suppression: πόσες εγγραφές αφαιρούνται από τα δεδομένα στη διαδικασία της ανωνυμοποίησης Generalization: πόση πληροφορία χάνεται γενικεύοντας τα δεδομένα σε κάποιο επίπεδο γενίκευσης Anonymity: ποιο είναι το ελάχιστο ανεκτό μέγεθος k για κάθε group ( παρόμοια : ποιο είναι το ελάχιστο ανεκτό μέγεθος l για τη διαφοροποίηση των ευαίσθητων τιμών σε ένα group) οι οποίες είναι ανταγωνιστικές στο πόσο χρήσιμη πληροφορία έχω 10

11 Κατηγορίες γενίκευσης Global recoding Όλες οι εμφανίσεις ενός πεδίου γενικεύονται στο ίδιο level στην ιεραρχία του [Swee02a] [Sama01] [LeDR05]. Multidimensional Οι τιμές ενός χαρ / κου σε διαφορετικά groups μπορούν να γενικεύονται σε διαφορετικά επίπεδα. Αλλά η εμφάνιση ενός QI- value γενικεύεται στην ίδια τιμή [LeDR06]. Local recoding Οι εμφανίσεις ενός χαρ / κου σε διαφορετικά groups μπορούν να γενικεύονται σε διαφορετικές τιμές. Οι εμφανίσεις ενός QI-value μπορεί να γενικευτούν σε διαφορετική τιμή [Xu+06]. 11

12 Αναφορές (1) [Sama01] P. Samarati. Protecting respondents’ identities in microdata release. IEEE Trans. Knowl. Data Eng. (TKDE), 13(6):1010–1027, [Swee02a] Latanya Sweeney. k-Anonymity: A Model for Protecting Privacy. International Journal of Uncertainty, Fuzziness and Knowledge-Based Systems 10(5): (2002) [Swee02b] Latanya Sweeney. Achieving k-Anonymity Privacy Protection Using Generalization and Suppression. International Journal of Uncertainty, Fuzziness and Knowledge-Based Systems 10(5): (2002) [LeDR05] K. LeFevre, D. J. DeWitt, and R. Ramakrishnan. Incognito: Efficient full-domain k- anonymity. In SIGMOD, pages 49–60, [LeDR06] Kristen LeFevre, David J. DeWitt, Raghu Ramakrishnan. Mondrian Multidimensional K-Anonymity. ICDE 2006: 25 [MaGK06] A. Machanavajjhala, J. Gehrke, and D. Kifer. l-diversity: Privacy beyond k-anonymity. ICDE,

13 Αναφορές (2) [Xu+06] Jian Xu, Wei Wang, Jian Pei, Xiaoyuan Wang, Baile Shi, Ada Wai-Chee Fu. Utility-based anonymization using local recoding. KDD 2006: [Agg05] Charu C.Aggarwal. On k-anonymity an the curse of Dimensionality. VLDB [PaSh07] Hyoungmin Park, Kyuseok Shim. Approximate Algorithms for k-anonymity. SIGMOD [UCI] U.C. Irvine Repository of Machine Learning Databases [IPUMS] Data set obtained from the web site of Y. Tao for the [XiTa07] paper 13


Κατέβασμα ppt "Π. Βασιλειάδης 2010-09-09 ( βασισμένο στις διαφάνειες της Α. Πιλαλίδου ) Ιδιωτικότητα και διαχείριση δεδομένων."

Παρόμοιες παρουσιάσεις


Διαφημίσεις Google