Κανόνες Συσχέτισης Σκοπός: Σύνοψη βασικών τεχνικών παραγωγής Κανόνων Συσχέτισης Σύνοψη Προβλημάτων Κανόνων Συσχέτισης Αλγόριθμοι Κανόνων Συσχέτισης Apriori.

Slides:



Advertisements
Παρόμοιες παρουσιάσεις
ΣΧΕΣΙΑΚΗ ΑΛΓΕΒΡΑ 2 ΜΑΘΗΜΑ 4.
Advertisements

Δένδρα van Emde Boas TexPoint fonts used in EMF. Read the TexPoint manual before you delete this box.: AA A A A Μελετάμε την περίπτωση όπου αποθηκεύουμε.
Αλγόριθμοι Αναζήτησης
Εξόρυξη Δεδομένων.
PROLOG.
Άμεσοι Αλγόριθμοι: Προσπέλαση Λίστας (list access) TexPoint fonts used in EMF. Read the TexPoint manual before you delete this box.: AA A A A Έχουμε αποθηκεύσει.
Τ.Ε.Ι. ΣΕΡΡΩΝ ΣΧΟΛΗ ΤΕΧΝΟΛΟΓΙΚΩΝ ΕΦΑΡΜΟΓΩΝ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ & ΕΠΙΚΟΙΝΩΝΙΩΝ Επιβλέπων καθηγητής: Βακαλούδης Αλέξανδρος Σπουδαστής: Τσιαουσίδης Δημήτριος.
ΣΤΟΙΧΕΙΑ ΨΕΥΔΟΚΩΔΙΚΑ ΒΑΣΙΚΕΣ ΔΟΜΕΣ ΒΑΣΙΚΟΙ ΑΛΓΟΡΙΘΜΟΙ ΠΙΝΑΚΩΝ
Διακριτά Μαθηματικά ΙI Δέντρα
 Αυδίκου Χριστίνα  Γιουμούκης Παναγιώτης  Κιντσάκης Θάνος  Πάπιστας Γιάννης.
Ο Αλγόριθμος FP-Growth. Αλγόριθμος FP-Growth Ο αλγόριθμος χρησιμοποιεί μια συμπιεσμένη αναπαράσταση της βάσης των συναλλαγών με τη μορφή ενός FP-δέντρου.
Μια Μπεϋζιανή Μέθοδος για την Επαγωγή Πιθανοτικών Δικτύων από Δεδομένα ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΑΤΡΩΝ ΤΜΗΜΑ ΜΗΧ/ΚΩΝ Η/Υ & ΠΛΗΡΟΦΟΡΙΚΗΣ B. Μεγαλοοικονόμου, Χ. Μακρής.
Εισαγωγικές Έννοιες Διδάσκοντες: Σ. Ζάχος, Δ. Φωτάκης Επιμέλεια διαφανειών: Δ. Φωτάκης Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών Εθνικό Μετσόβιο.
Κοντινότεροι Κοινοί Πρόγονοι α βγ θ δεζ η π ν ι κλμ ρσ τ κκπ(λ,ι)=α, κκπ(τ,σ)=ν, κκπ(λ,π)=η κκπ(π,σ)=γ, κκπ(ξ,ο)=κ ξο κκπ(ι,ξ)=β, κκπ(τ,θ)=θ, κκπ(ο,μ)=α.
Προσεγγιστικοί Αλγόριθμοι
Ανάλυση Συσχέτισης Ι Οι διαφάνειες στηρίζονται στο P.-N. Tan, M.Steinbach, V. Kumar, «Introduction to Data Mining», Addison Wesley, 2006.
ΘΠ06 - Μεταγλωττιστές Πίνακας Συμβόλων. Πίνακας Συμβόλων (Symbol Table) (Ι)  Είναι μια δομή στην οποία αποθηκεύονται τα ονόματα ενός προγράμματος και.
Δομές Αναζήτησης TexPoint fonts used in EMF. Read the TexPoint manual before you delete this box.: AA A A A Χειριζόμαστε ένα σύνολο στοιχείων όπου το κάθε.
Διαχείριση μνήμης Υπόβαθρο Εναλλαγή Συνεχής κατανομή Σελιδοποίηση
ΜΑΘΗΜΑ: ΣΧΕΔΙΑΣΗ ΑΛΓΟΡΙΘΜΩΝ ΔΙΔΑΣΚΩΝ: Π. ΚΑΤΣΑΡΟΣ Δευτέρα, 12 Ιανουαρίου 2015Δευτέρα, 12 Ιανουαρίου 2015Δευτέρα, 12 Ιανουαρίου 2015Δευτέρα, 12 Ιανουαρίου.
ΕΠΛ 231 – Δομές Δεδομένων και Αλγόριθμοι12-1 Στην ενότητα αυτή θα μελετηθούν τα εξής επιμέρους θέματα: Ο αλγόριθμος του Prim και ο αλγόριθμος του Kruskal.
Θεωρία Γράφων Θεμελιώσεις-Αλγόριθμοι-Εφαρμογές
Lists– Λίστες 1. Αυτό-αναφορικές δομές Τα μέλη μίας δομής μπορεί να είναι οποιουδήποτε τύπου, ακόμα και δείκτες σε δομές του ίδιου τύπου. Χρησιμοποιώντας.
Ενεργή επιλογή αλγορίθμου, Active Algorithm Selection, Feilong Chen and Rong Jin Εύα Σιταρίδη.
Βασικές Αρχές Μέτρησης
Διδάσκοντες: Σ. Ζάχος, Δ. Φωτάκης
Γιάννης Σταματίου Αναδρομή και αναδρομικές σχέσεις
Εξόρυξη Δεδομένων και Αλγόριθμοι Μάθησης. K-means k-windows k-means: 2 φάσεις 1. Μια διαμέριση των στοιχείων σε k clusters 2. Η ποιότητα της διαμέρισης.
Διαφάνειες παρουσίασης Πίνακες (συνέχεια) Αριθμητικοί υπολογισμοί Αναδρομή.
Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1 Σχεσιακό Μοντέλο.
Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1 Σχεσιακό Μοντέλο.
Αναζήτηση – Δέντρα (2 ο Μέρος) Advanced Data Indexing (Προηγμένη ευρετηρίαση δεδομένων)
ΜΑΘΗΜΑ: ΣΧΕΔΙΑΣΗ ΑΛΓΟΡΙΘΜΩΝ ΔΙΔΑΣΚΩΝ: Π. ΚΑΤΣΑΡΟΣ Παρασκευή, 3 Απριλίου 2015Παρασκευή, 3 Απριλίου 2015Παρασκευή, 3 Απριλίου 2015Παρασκευή, 3 Απριλίου 2015Τμ.
Ελάχιστο Συνδετικό Δέντρο
Δομές Αναζήτησης TexPoint fonts used in EMF. Read the TexPoint manual before you delete this box.: AA A A A Θέλουμε να υποστηρίξουμε δύο βασικές λειτουργίες:
1 Βάσεις Δεδομένων ΙI Επιμέλεια: ΘΟΔΩΡΗΣ ΜΑΝΑΒΗΣ SQL (3 από 3) T Manavis.
Θεωρία Γράφων Θεμελιώσεις-Αλγόριθμοι-Εφαρμογές Κεφάλαιο 4: Συνδεσμικότητα Data Engineering Lab 1.
Γιώργος Γεωργιάδης (σύμφωνα με τις παραδόσεις του Λευτέρη Κυρούση)
ΘΕΜΑΤΙΚΗ ΕΝΟΤΗΤΑ 2: ΘΕΜΑΤΑ ΘΕΩΡΗΤΙΚΗΣ ΕΠΙΣΤΗΜΗΣ Η/Υ
Λεξικό, Union – Find Διδάσκοντες: Σ. Ζάχος, Δ. Φωτάκης Επιμέλεια διαφανειών: Δ. Φωτάκης Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών Εθνικό Μετσόβιο.
Advanced Data Indexing (Προηγμένη ευρετηρίαση δεδομένων) Κατακερματισμός – Hashing (1 ο Μέρος)
Εθνικό και Καποδιστριακό Πανεπιστήμιο Αθηνών – Τμήμα Πληροφορικής και Τηλεπικοινωνιών 1 Κεφάλαιο 4 Σημασιολογία μιας Απλής Προστακτικής Γλώσσας Προπτυχιακό.
Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1 Εισαγωγή στην Επεξεργασία Ερωτήσεων.
Αλγόριθμοι - Τμήμα Πληροφορικής ΑΠΘ - 4ο εξάμηνο1 Ανάλυση Αλγορίθμων b Θέματα: Ορθότητα Χρονική αποδοτικότητα Χωρική αποδοτικότητα Βελτιστότητα b Προσεγγίσεις:
Μέγιστη ροή TexPoint fonts used in EMF. Read the TexPoint manual before you delete this box.: AA A AA A A Συνάρτηση χωρητικότητας Κατευθυνόμενο γράφημα.
ΕΠΛ 231 – Δομές Δεδομένων και Αλγόριθμοι13-1 Στην ενότητα αυτή θα μελετηθούν τα εξής επιμέρους θέματα: Ο αλγόριθμος Dijkstra για εύρεση βραχυτέρων μονοπατιών.
1 ΤΜΗΜΑ ΜΠΕΣ Αλγόριθμοι Αναζήτησης Εργασία 1 Τυφλή Αναζήτηση.
Δομές Δεδομένων 1 Θέματα Απόδοσης. Δομές Δεδομένων 2 Οργανώνοντας τα Δεδομένα  Η επιλογή της δομής δεδομένων και του αλγορίθμου επηρεάζουν το χρόνο εκτέλεσης.
Θεωρία Γράφων Θεμελιώσεις-Αλγόριθμοι-Εφαρμογές TSP, Μέτρα κεντρικότητας, Dijkstra Data Engineering Lab.
Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1 Σχεσιακό Μοντέλο.
Θεωρία Γραφημάτων Θεμελιώσεις-Αλγόριθμοι-Εφαρμογές
Συνδετικότητα γραφήματος (graph connectivity). α β Υπάρχει μονοπάτι μεταξύ α και β; Παραδείγματα: υπολογιστές ενός δικτύου ιστοσελίδες ισοδύναμες μεταβλητές.
ΤΕΙ ΙΟΝΙΩΝ ΝΗΣΩΝ ΤΜΗΜΑ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ ΠΑΡΆΡΤΗΜΑ ΛΕΥΚΑΔΑΣ ΥΠΕΥΘΥΝΗ ΚΑΘΗΓΉΤΡΙΑ Δρ. ΤΣΙΝΤΖΑ ΠΑΝΑΓΙΩΤΑ Οι παρουσιάσεις του μαθήματος βασίζονται στο.
ΤΕΙ ΙΟΝΙΩΝ ΝΗΣΩΝ ΤΜΗΜΑ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ ΠΑΡΆΡΤΗΜΑ ΛΕΥΚΑΔΑΣ ΥΠΕΥΘΥΝΗ ΚΑΘΗΓΉΤΡΙΑ Δρ. ΤΣΙΝΤΖΑ ΠΑΝΑΓΙΩΤΑ Οι παρουσιάσεις του μαθήματος βασίζονται στο.
ΤΕΙ ΙΟΝΙΩΝ ΝΗΣΩΝ ΤΜΗΜΑ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ ΠΑΡΆΡΤΗΜΑ ΛΕΥΚΑΔΑΣ ΥΠΕΥΘΥΝΗ ΚΑΘΗΓΉΤΡΙΑ Δρ. ΤΣΙΝΤΖΑ ΠΑΝΑΓΙΩΤΑ Οι παρουσιάσεις του μαθήματος βασίζονται στο.
Σήματα και Συστήματα 11 10η διάλεξη. Σήματα και Συστήματα 12 Εισαγωγικά (1) Έστω γραμμικό σύστημα που περιγράφεται από τη σχέση: Αν η είσοδος είναι γραμμικός.
ΣΗΜΑΤΑ ΚΑΙ ΣΥΣΤΗΜΑΤΑ II Καθ. Πέτρος Π. Γρουμπός Διάλεξη 8η Στοχαστικά Σήματα - 1.
Το Σχεσιακό Μοντέλο Βάσεις Δεδομένων Ευαγγελία Πιτουρά.
Δυναμικός Κατακερματισμός
Επίλυση Προβλημάτων με Αναζήτηση
Διδάσκων: Δρ. Τσίντζα Παναγιώτα
Το Σχεσιακό Μοντέλο Βάσεις Δεδομένων Ευαγγελία Πιτουρά.
Ασκήσεις WEKA Κανόνες συσχέτισης.
Μέγιστη ροή Κατευθυνόμενο γράφημα 12 Συνάρτηση χωρητικότητας
Δυναμικός Προγραμματισμός
(2,4) Trees 11/15/2018 8:56 PM (2,4) Δέντρα (2,4) Δέντρα.
Το Σχεσιακό Μοντέλο Βάσεις Δεδομένων Ευαγγελία Πιτουρά.
Εξωτερική Αναζήτηση Ιεραρχία Μνήμης Υπολογιστή Εξωτερική Μνήμη
Δυναμικός Κατακερματισμός
Μεταγράφημα παρουσίασης:

Κανόνες Συσχέτισης Σκοπός: Σύνοψη βασικών τεχνικών παραγωγής Κανόνων Συσχέτισης Σύνοψη Προβλημάτων Κανόνων Συσχέτισης Αλγόριθμοι Κανόνων Συσχέτισης Apriori Sampling Partitioning Parallel Algorithms Τεχνικές Σύγκρισης Αυξητικοί Αλγόριθμοι Προχωρημένες AR Τεχνικές

Ανάλυση Καλαθιού Αγορών Καταγραφή αντικειμένων που αγοράζονται μαζί Χρήσεις –Τοποθέτηση προϊόντων –Προώθηση προϊόντων –Διαχείριση αποθεμάτων Αντικειμενικός σκοπός: αύξηση πωλήσεων, μείωση κόστους Πολλές άλλες εφαρμογές: ρομποτική, διαδίκτυο.

Ορισμοί Κανόνων Συσχέτισης Σύνολo αντικειμένων: I={I 1,I 2,…,I m } Συναλλαγές: D={t 1,t 2, …, t n }, t j  I Συνολοστοιχεία: {I i1,I i2, …, I ik }  I Υποστήριξη συνολοστοιχείου: ποσοστό συναλλαγών που περιέχουν συνολοστοιχείο. Μεγάλα (Συχνά) συνολοστοιχεία: συνολοστοιχεία ο αριθμός εμφανίσεων των οποίων είναι πάνω από κάποιο όριο.

Παράδειγμα Κανόνων Συσχέτισης I = { Beer, Bread, Jelly, Milk, PeanutButter} Υποστήριξη {Bread,PeanutButter} is 60%

Ορισμοί Κανόνων Συσχέτισης Κανόνας Συσχέτισης: συνεπαγωγή X  Y όπου X,Y  I και X  Y =  Υποστήριξη Κ.Σ. X  Y: ποσοστό συναλλαγών που περιέχουν το σύνολο X  Y, δηλαδή ίσο με P(X  Y) Εμπιστοσύνη Κ.Σ. X  Y: πηλίκο του αριθμού των συναλλαγών που περιέχουν το X  Y προς αυτά που περιέχουν το X, δηλαδή ίσο με P(Υ/Χ) ‘Aξιο αναφοράς ότι δε ισχύει η μεταβατική ιδιότητα.

Παράδειγμα Κανόνων Συσχέτισης

Πρόβλημα Κανόνα Συσχέτισης Δοθέντος συνόλου αντικειμένων I={I 1,I 2,…,I m } και μίας Βάσεως Δεδομένων συναλλαγών D={t 1,t 2, …, t n } όπου t i ={I i1,I i2, …, I ik } and I ij  I, το Πρόβλημα Κανόνων Συσχέτισης είναι η ταυτοποίηση όλων των κανόνων συσχέτισης X  Y με μία ελάχιστη υποστήριξη και εμπιστοσύνη. Παρατήρηση: Υποστήριξη X  Y είναι ίδια με τη υποστήριξη Y  X.

Γενικό Αλγοριθμικό Πλαίσιο 1.Εύρεση Μεγάλων Συνολοστοιχείων (με βάση κάποιο ελάχιστο support) 2.Παραγωγή Κανόνων από Συνολοστοιχεία (με βάση κάποιο ελάχιστο confidence) Γενικά, για κάθε συχνό υποσύνολο l εντόπισε όλα τα μη κενά υποσύνολά του α, και για κάθε τέτοιο υποσύνολο, παρουσίασε τον κανόνα α  l-α, αν sup(l)/sup(α), μεγαλύτερο από κάποια τιμή.

Αλγόριθμος Παραγωγής Κ.Σ.

Apriori Εκτελεί τόσο αριθμό περασμάτων όσο (το πολύ) το πλήθος των διαφορετικών αντικειμένων. Ιδιότητα Τερματισμού Υποσυνόλου: Κάθε υποσύνολο ενός συχνού συνολοστοιχείου είναι επίσης συχνό. Σε κάθε διαδοχική προσπέλαση χρησιμοποιούνται τα (συχνά) συνολοστοιχεία του προηγούμενου περάσματος με στόχο να δημιουργηθούν καινούργια συνολοστοιχεία

Large Itemset Property

Πίνακας Παραμέτρων

Αλγόριθμος

Η Συνάρτηση Apriori Candidate Generation Η συνάρτηση αποτελείται από δύο βήματα, το join-step (ένωση) και το prune-step (αποκοπή): C k ={X  Y | X,Y  L k-1, |X  Y|=k-2} (στάδιο ένωσης) Το στάδιο αποκοπής δίνεται παρακάτω:

Μέτρηση Εμφανίσεων Τα υποψήφια συνολοστοιχεία C k αποθηκεύονται σε ένα hash-tree (δέντρο κατακερματισμού). Ένας κόμβος του δέντρου αυτού περιέχει είτε μια λίστα από συνολοστοιχεία, αν είναι κόμβος φύλλο, είτε έναν πίνακα κατακερματισμού (hash-table) αν πρόκειται για εσωτερικό κόμβο. Κάθε κουβάς (bucket) του πίνακα κατακερματισμού ενός εσωτερικού κόμβου δείχνει σε έναν άλλο κόμβο. Θεωρώντας ότι η ρίζα του hash-tree έχει βάθος 1, τότε ένας εσωτερικός κόμβος βάθους d δείχνει σε κόμβους βάθους d+1. Τα συνολοστοιχεία επομένως αποθηκεύονται μόνο στα φύλλα, ενώ οι υπόλοιποι κόμβοι περιέχουν πληροφορία για το πώς θα αναζητηθούν τα συνολοστοιχεία.

Apriori Πλεονεκτήματα/Μειονεκτήματα Πλεονεκτήματα: –Αξιοποίηση ιδιότητας τερματισμού υποσυνόλου –Εύκολα παραλληλοποιήσιμη –Εύκολα υλοποιήσιμη Μειονεκτήματα: –Υποθέτει ότι η Βάση Δεδομένων συναλλαγών είναι αποθηκευμένη στη μνήμη transaction. –Απαιτεί πολλά σαρώματα στη Β.Δ.

Μέσω ενός παραδείγματος γίνεται περισσότερο κατανοητή η λειτουργία του αλγορίθμου AprioriTID. Τα ενδιάμεσα καθώς και τα τελικά σύνολα συνολοστοιχείων που προκύπτουν από την εφαρμογή του αλγορίθμου παρουσιάζονται στο Σχήμα 2-6. Η σειρά με την οποία δημιουργούνται τα παρακάτω σύνολα είναι D  Ĉ1  L1  C2  Ĉ2  L2  C3  Ĉ3  L3.

Αλγόριθμος Δειγματοληψίας D s = Sample drawn from D; PL=Apriory(I,D S, smalls); C=PL  BD - (PL); L=  ; for each I i  C do C i =0; for each t j  D do for each I i  C do if I i  t j then c i =c i +1; Check if I i large and set L=L  I i ; ML={x| x  BD - (PL)  x  L} If ML  then C=L; Repeat C=C  BD - ( C ) until no new items are added to C; Check C for large itemsets.

Πλεονεκτήματα/Μειονεκτήματα Πλεονεκτήματα: –Μείωση αριθμού σαρωμάτων σε ένα (στην καλύτερη περίπτωση) και δύο (στη χειρότερη) –Κλιμακώνεται καλύτερα από Apriori. Μειονεκτήματα: –Πιθανή παραγωγή μεγάλου αριθμού υποψηφίων στη δεύτερη φάση.

Διαμέριση Διαμέρισε τη Βάση Δεδομένων σε διαμερίσεις D 1,D 2,…,D p Εφάρμοσε Apriori σε κάθε διαμέριση Κάθε μεγάλο συνολοστοιχείο πρέπει να είναι μεγάλο σε μία τουλάχιστον διαμέριση.

Αλγόριθμος Διαμέρισης 1. Διαμέρισε D σε ομάδες D 1,D 2,…,D p; 2. For i = 1 to p do 3. L i = Apriori(D i ); 4. C = L 1  …  L p ; 5. Καταμέτρησε C στο D για παραγωγή L;

Partitioning Πλεονεκτήματα/Μειονεκτήματα Πλεονεκτήματα: –Προσαρμόσιμο στη διαθέσιμη κύρια μνήμη –Εύκολα παραλληλοποιήσιμο –Μέγιστος αριθμός σαρωμάτων:2 Μειονεκτήματα: –Παραγωγή πολλών υποψηφίων στο δεύτερο σάρωμα. Χρήση για Δυναμοποίηση

Αυξητικοί Κανόνες Συσχέτισης Σκοπός: Με γνώση μεγάλων συνολοστοιχείων στο D Εντόπισε μεγάλα συνολοστοιχεία στο D  {Δ D} Πρέπει να είναι μεγάλα στο D ή στο Δ D Αποθήκευσε L i και πληθικότητες εμφάνισης συνολοστοιχείων και στη συνέχεια μέτρησε μόνο στο ΔD.

Παραλληλοποίηση AR Αλγορίθμων Βασίζεται στον Apriori Οι τεχνικές διαφοροποιούνται στο: – τι προσμετρά κάθε κόμβος – πως τα δεδομένα (συναλλαγές) κατανέμονται Παραλληλοποίηση Δεδομένων –Κατανέμονται τα δεδομένα –Count Distribution Algorithm Παραλληλοποίηση Εργασιών –Διαμερίζονται δεδομένα και υποψήφια συνολοστοιχεία –Data Distribution Algorithm

Count Distribution Algorithm(CDA) 1. Place data partition at each site. 2. In parallel at each site do 3. C 1 = itemsets of size one in i; 4. Count C 1 ; 5. Broadcast counts to all sites; 6. Determine global large itemsets of size 1, L 1 ; 7. i = 1; 8. Repeat 9. i = i + 1; 10. C i = Apriori-Gen(L i-1 ); 11. Count C i ; 12. Broadcast counts to all sites; 13. Determine global large itemsets of size i, L i ; 14. until no more large itemsets found;

CDA Παράδειγμα

Κατάταξη Αλγορίθμων Παραγωγής Κ.Σ.

Κατάταξη Αλγορίθμων Οι αλγόριθμοι εύρεσης των συχνών συνολοστοιχείων χρησιμοποιούν δύο κυρίως μεθόδους επίσκεψης του παραπάνω δέντρου, την κατά πλάτος αναζήτηση (Breadth- First Search, BFS) και την κατά βάθος αναζήτηση (Depth-First Search, DFS). Με την πρώτη μέθοδο υπολογίζεται η υποστήριξη όλων των (k-1)-συνολοστοιχείων πριν υπολογιστεί η υποστήριξη των k-συνολοστοιχείων. Αντίθετα η δεύτερη μέθοδος χρησιμοποιεί αναδρομική επίσκεψη στο δέντρο μέχρι να βρεθεί κάποιο φύλλο. Ένας άλλος διαχωρισμός των αλγορίθμων είναι με βάση τον τρόπο με τον οποίο υπολογίζεται η υποστήριξη των υποψήφιων συνολοστοιχείων. Η μία μέθοδος είναι να μετριέται απευθείας από τον πίνακα δοσοληψιών πόσες φορές εμφανίζεται ένα συγκεκριμένο συνολοστοιχείο. Για το σκοπό αυτό, χρησιμοποιείται ένας μετρητής και δομές δεδομένων όπως αυτές στον αλγόριθμο Apriori (hash-trees), για να αποθηκεύονται τα υποψήφια συνολοστοιχεία. Η άλλη μέθοδος στηρίζεται στις τομές συνόλων (set intersections).

Ποσοτικοί Κανόνες Συσχέτισης Μια λύση είναι η κατάτμηση του συνόλου τιμών των ποσοτικών γνωρισμάτων σε διαστήματα και η δημιουργία λογικών γνωρισμάτων που να έχουν την μορφή. Το πρόβλημα συνεπώς ανάγεται στην εύρεση της κατάλληλης κατάτμησης. Υπάρχουν δυο θέματα για τα οποία πρέπει να δοθεί η βέλτιστη λύση.  «Minsup». Αν ο αριθμός των διαστημάτων για ένα ποσοτικό γνώρισμα είναι μεγάλος, τότε η υποστήριξη ενός διαστήματος μπορεί να είναι μικρή. Κατά συνέπεια αν δεν χρησιμοποιηθούν μεγαλύτερα διαστήματα μπορεί να μην παραχθούν κάποιοι κανόνες για αυτό το γνώρισμα καθώς δεν θα έχουν την ελάχιστη υποστήριξη.  «Minconf». Υπάρχει κόστος που συνεπάγεται ο χωρισμός των τιμών σε διαστήματα. Πληροφορία χάνεται όσο το μέγεθος των διαστημάτων μεγαλώνει καθώς μερικοί κανόνες μπορεί να έχουν ελάχιστη εμπιστοσύνη (minimum confidence) μόνο όταν το πρώτο μέλος αποτελείται από μικρό διάστημα (μικρή εμπιστοσύνη). Η λύση που προτάθηκε είναι η κατάτμηση να δημιουργήσει μικρά διαστήματα τα οποία στη συνέχεια ενώνονται για να φτιάξουν καινούρια, μεγαλύτερα και με μεγαλύτερη υποστήριξη.

Αντιπροσωπευτικοί Κ.Σ. Το σύνολο όλων των κανόνων συσχέτισης που ικανοποιούν τις απαιτήσεις για ελάχιστη υποστήριξη s και ελάχιστη εμπιστοσύνη c θα το αποκαλούμε εν συντομία AR(s,c). Εάν τα s και c εννοούνται τότε μπορούμε να γράφουμε απλά AR. Η κάλυψη C ενός κανόνα Χ  Υ, ορίζεται ως εξής:

Ιδιότητες (1) Ιδιότητα 1 Έστω r ένας κανόνας συσχέτισης με υποστήριξη s και εμπιστοσύνη c. Κάθε κανόνας r΄ που ανήκει στην κάλυψη C(r) είναι ένας κανόνας συσχέτισης που έχει υποστήριξη όχι μικρότερη από s και εμπιστοσύνη όχι μικρότερη από c. Η άμεση συνέπεια της ιδιότητας αυτής είναι ότι αν ένας κανόνας r ανήκει στο AR(s,c), τότε κάθε κανόνας r΄από το C(r) θα ανήκει επίσης στο AR(s,c). Ιδιότητα 2 Έστω δύο κανόνες συσχέτισης r : X  Y και r΄= (Χ΄  Υ΄). Τότε ο r θα ανήκει στην κάλυψη του r΄ C(r΄) αν και μόνο αν X  Y  Χ΄  Υ΄ και Χ  Χ΄. Δηλαδή r  C(r΄)  X  Y  Χ΄  Υ΄  Χ  Χ΄.

Ιδιότητα 3 (i) Αν ένας κανόνας συσχέτισης r είναι μεγαλύτερος (περιέχει περισσότερα αντικείμενα) από έναν κανόνα συσχέτισης r΄ τότε r  C(r΄). (ii) Αν ένας κανόνας συσχέτισης r : (X  Y) είναι μικρότερος από έναν κανόνα συσχέτισης r΄: (Χ΄  Υ΄) τότε r  C(r΄) αν και μόνο αν X  Y  Χ΄  Υ΄ και Χ  Χ΄. (iii) Αν r : (X  Y) και r΄: (Χ΄  Υ΄) είναι διαφορετικοί κανόνες συσχέτισης με το ίδιο μήκος (ίδιο αριθμό από αντικείμενα) τότε r  C(r΄) αν και μόνο αν X  Y = Χ΄  Υ΄ και Χ  Χ΄. Αντιπροσωπευτικοί Κανόνες Συσχέτισης Ιδιότητα 1 Εάν r  RR(s, c) τότε C(r)  AR(s, c). Ιδιότητα 2  r  AR(s, c)  r΄  RR(s, c) : r  C(r’).

Παραγωγή Αντιπροσωπευτικών Κ.Σ. Ιδιότητα 1 Έστω   X  Z  I και r είναι ένας κανόνας της μορφής r : (X  Y)  AR(s, c). Τότε ο κανόνας αυτός θα ανήκει στο RR(s,c), αν ισχύουν οι δυο επόμενες προϋποθέσεις. (i) maxSup  s ή maxSup|sup(X) < c, όπου sup maxSup = max({sup(Z΄) | Z  Z΄ (I}  {0}) (ii)  Χ΄,   Χ΄  X τέτοιο ώστε (Χ΄  Ζ\Χ΄)  AR(s,c) Η πρώτη συνθήκη εξασφαλίζει ότι ο κανόνας r δεν βρίσκεται στην κάλυψη κάποιου κανόνα μεγαλύτερου από τον r. Η δεύτερη συνθήκη εξασφαλίζει ότι ο κανόνας r δεν βρίσκεται στην κάλυψη κάποιου κανόνα με μήκος ίσο με τον r. Ιδιότητα 2 Έστω   Z  Z΄  I. Αν sup(Z) = sup(Z΄)τότε κανένας κανόνας της μορφής (Χ  Ζ\Χ)  AR(s,c) με   X  Z δεν ανήκει στο RR (s,c).

Σύγκριση Τεχνικών Κ.Σ.

Παρατηρήσεις Πολλές εφαρμογές εκτός ανάλυσης καλαθιού αγορών Πρόβλεψη (telecom switch failure) Web usage mining Πολλοί διαφορετικοί τύποι Κ.Σ. Χρονικοί Χωρικοί

Μέτρα Ενδιαφέροντος Κανόνων Συσχέτισης Έστω ο κανόνας LHS -> RHS. Ορίζουμε: --Κάλυψη=n(LHS)/N=P(LHS) -- Leverage=p(RHS/LHS)-[p(LHS)p(RHS)] To leverage παίρνει τις τιμές στο διάστημα [-1, 1]. Οι τιμές κάτω από το 0 δείχνουν ισχυρή ανεξαρτησία LHS, και RHS. -- Lift= = Lift->1, τα RHS, LHS είναι ανεξάρτητα. Lift ->0, o κανόνας δεν είναι σημαντικός Lift ->  ενδεχομένως ο κανόνας είναι ενδιαφέρων -- conviction= (1->A,B δεν σχετίζονται,  αν ισχύουν)

Προχωρημένες Τεχνικές Κ.Σ. Γενικευμένοι Κ.Σ. Χρησιμοποιώντας πολλαπλά minimum supports Correlation Rules (επιτρέπονται και αρνητικές συσχετίσεις)