Ανάλυση Συσχέτισης IΙ Οι διαφάνειες στηρίζονται στο P.-N. Tan, M.Steinbach, V. Kumar, «Introduction to Data Mining», Addison Wesley, 2006.

Slides:



Advertisements
Παρόμοιες παρουσιάσεις
Indexing.
Advertisements

Δένδρα van Emde Boas TexPoint fonts used in EMF. Read the TexPoint manual before you delete this box.: AA A A A Μελετάμε την περίπτωση όπου αποθηκεύουμε.
ΓΡΑΜΜΑΤΙΚΕΣ ΧΩΡΙΣ ΣΥΜΦΡΑΖΟΜΕΝΑ I
Ανακτηση Πληροφοριασ σε νεφη Υπολογιστων
Εισαγωγή στη Βιοπληροφορική 3η διάλεξη Μάθημα Ελεύθερης Επιλογής Τομέα Λογικού των Υπολογιστών Εαρινό Εξάμηνο Ακαδ. Έτους Χ. Mακρης- Α. Περδικούρη.
Κανόνες Συσχέτισης IΙ Οι διαφάνειες στηρίζονται στο P.-N. Tan, M.Steinbach, V. Kumar, «Introduction to Data Mining», Addison Wesley, 2006.
Κανόνες Συσχέτισης IIΙ
Διακριτά Μαθηματικά ΙI Δέντρα
Γιάννης Σταματίου Μη αποδοτική αναδρομή και η δυναμική προσέγγιση Webcast 8.
Ο αλγόριθμος του Ukkonen Βεργούλης Θανάσης Το suffix trie Το suffix trie του string D=“book” b o o k o o k k k $ $ $ $
Ο Αλγόριθμος FP-Growth. Αλγόριθμος FP-Growth Ο αλγόριθμος χρησιμοποιεί μια συμπιεσμένη αναπαράσταση της βάσης των συναλλαγών με τη μορφή ενός FP-δέντρου.
Ψηφιακά Δένδρα TexPoint fonts used in EMF. Read the TexPoint manual before you delete this box.: AA A A A Μπορούμε να χρησιμοποιήσουμε την παραπάνω αναπαράσταση.
Δομές Δεικτοδότησης Δέντρο Επιθεμάτων- Suffix Tree
Αλγόριθμοι και Πολυπλοκότητα
Κεφάλαιο 2ο Πεπερασμένα αυτόματα.
Γραφήματα & Επίπεδα Γραφήματα
Διαίρει και Βασίλευε πρόβλημα μεγέθους Ν διάσπαση πρόβλημα μεγέθους Ν-k πρόβλημα μεγέθους k.
Κοντινότεροι Κοινοί Πρόγονοι α βγ θ δεζ η π ν ι κλμ ρσ τ κκπ(λ,ι)=α, κκπ(τ,σ)=ν, κκπ(λ,π)=η κκπ(π,σ)=γ, κκπ(ξ,ο)=κ ξο κκπ(ι,ξ)=β, κκπ(τ,θ)=θ, κκπ(ο,μ)=α.
Διαίρει-και-Βασίλευε
Δυναμικός Προγραμματισμός
Προσεγγιστικοί Αλγόριθμοι
Ανάλυση Συσχέτισης Ι Οι διαφάνειες στηρίζονται στο P.-N. Tan, M.Steinbach, V. Kumar, «Introduction to Data Mining», Addison Wesley, 2006.
Κανόνες Συσχέτισης Ι Οι διαφάνειες στηρίζονται στο P.-N. Tan, M.Steinbach, V. Kumar, «Introduction to Data Mining», Addison Wesley, 2006.
Ψηφιακά Δένδρα TexPoint fonts used in EMF. Read the TexPoint manual before you delete this box.: AA A A A Μπορούμε να χρησιμοποιήσουμε την παραπάνω αναπαράσταση.
ΘΕΜΑΤΙΚΗ ΕΝΟΤΗΤΑ 2: ΘΕΜΑΤΑ ΘΕΩΡΗΤΙΚΗΣ ΕΠΙΣΤΗΜΗΣ Η/Υ
Θεωρία Γράφων Θεμελιώσεις-Αλγόριθμοι-Εφαρμογές
ΘΠ06 - Μεταγλωττιστές Πίνακας Συμβόλων Φροντιστήριο - 30/04/2009.
Συντομότερες Διαδρομές
Διδάσκοντες: Σ. Ζάχος, Δ. Φωτάκης
ΒΕΣ 06: Προσαρμοστικά Συστήματα στις Τηλεπικοινωνίες © 2007 Nicolas Tsapatsoulis Προσαρμοστικοί Αλγόριθμοι Υλοποίησης Βέλτιστων Ψηφιακών Φίλτρων: Ο αναδρομικός.
Ο αλγόριθμος Bellman-Ford (επανεξετάζεται)
Θεωρία Γράφων Θεμελιώσεις-Αλγόριθμοι-Εφαρμογές Κεφάλαιο 4: Συνδεσμικότητα Data Engineering Lab 1.
ΘΕΜΑΤΙΚΗ ΕΝΟΤΗΤΑ 2: ΘΕΜΑΤΑ ΘΕΩΡΗΤΙΚΗΣ ΕΠΙΣΤΗΜΗΣ Η/Υ
Διερεύνηση γραφήματος. Ένας αλγόριθμος διερεύνησης γραφήματος επισκέπτεται τους κόμβους του γραφήματος με μια καθορισμένη στρατηγική, π.χ. κατά εύρος.
Quicksort Διδάσκοντες: Σ. Ζάχος, Δ. Φωτάκης Επιμέλεια διαφανειών: Δ. Φωτάκης Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών Εθνικό Μετσόβιο Πολυτεχνείο.
Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1 Εισαγωγή στην Επεξεργασία Ερωτήσεων.
ΕΠΛ 231 – Δομές Δεδομένων και Αλγόριθμοι 8-1 Στην ενότητα αυτή θα μελετηθούν τα εξής επιμέρους θέματα: 2-3 Δένδρα, Υλοποίηση και πράξεις Β-δένδρα B-Δένδρα.
ΧΡΗΣΗ ΤΟΥ ΛΟΓΙΣΜΙΚΟΥ PERIOD04 ΓΙΑ ΤΗΝ ΕΥΡΕΣΗ ΣΥΧΝΟΤΗΤΩΝ ΑΝΑΠΑΛΣΗΣ ΠΑΛΛΟΜΕΝΩΝ ΑΣΤΕΡΩΝ Αλέξιος Λιάκος, M.Sc.
ΕΠΛ 231 – Δομές Δεδομένων και Αλγόριθμοι13-1 Στην ενότητα αυτή θα μελετηθούν τα εξής επιμέρους θέματα: Ο αλγόριθμος Dijkstra για εύρεση βραχυτέρων μονοπατιών.
Παράδειγμα B + -Tree Υποθέτουμε B + -Tree τάξης 3 (α=2, b=3)  Κάθε φύλλο θα έχει 2 ως 3 το πολύ στοιχεία  Κάθε εσωτερικός κόμβος θα έχει 2 ως 3 το πολύ.
Δομές Δεδομένων 1 Θέματα Απόδοσης. Δομές Δεδομένων 2 Οργανώνοντας τα Δεδομένα  Η επιλογή της δομής δεδομένων και του αλγορίθμου επηρεάζουν το χρόνο εκτέλεσης.
Θεωρία Γράφων Θεμελιώσεις-Αλγόριθμοι-Εφαρμογές TSP, Μέτρα κεντρικότητας, Dijkstra Data Engineering Lab.
Κανόνες Συσχέτισης IΙ Οι διαφάνειες στηρίζονται στο P.-N. Tan, M.Steinbach, V. Kumar, «Introduction to Data Mining», Addison Wesley, 2006.
Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1 Ευρετήρια.
Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1 Ευρετήρια.
Ενότητα 2.1 Αλγόριθμοι Ταξινόμησης O(n 2 ) & O(nlogn) Σχεδίαση & Ανάλυση Αλγορίθμων.
JPEG Μια τεχνική συμπίεσης ακίνητης εικόνας. Η Τεχνική JPEG Αφορά συμπίεση ακίνητων εικόνων Είναι τεχνική συμπίεσης με απώλειες Το πρόβλημα είναι η εκάστοτε.
Συνδετικότητα γραφήματος (graph connectivity). α β Υπάρχει μονοπάτι μεταξύ α και β; Παραδείγματα: υπολογιστές ενός δικτύου ιστοσελίδες ισοδύναμες μεταβλητές.
ΤΕΙ ΙΟΝΙΩΝ ΝΗΣΩΝ ΤΜΗΜΑ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ ΠΑΡΆΡΤΗΜΑ ΛΕΥΚΑΔΑΣ ΥΠΕΥΘΥΝΗ ΚΑΘΗΓΉΤΡΙΑ Δρ. ΤΣΙΝΤΖΑ ΠΑΝΑΓΙΩΤΑ Οι παρουσιάσεις του μαθήματος βασίζονται στο.
Για μτ από ατ μέχρι ττ [με_βήμα β] εντολές Τέλος_επανάληψης : περιοχή εντολών μτ : η μεταβλητή της οποίας η τιμή θα περάσει από την αρχική.
ΣΥΣΤΗΜΑΤΑ ΑΥΤΟΜΑΤΟΥ ΕΛΕΓΧΟΥ Ι 7 η Διάλεξη Η ΜΕΘΟΔΟΣ ΤΟΥ ΓΕΩΜΕΤΡΙΚΟΥ ΤΟΠΟΥ ΡΙΖΩΝ  Ορισμός του γεωμετρικού τόπου ριζών Αποτελεί μια συγκεκριμένη καμπύλη,
Φυσική για Επιστήμονες και Μηχανικούς Εισαγωγή – Φυσική και μετρήσεις.
ΔΥΑΔΙΚΗ ΑΝΑΖΗΤΗΣΗ & ΤΑΞΙΝΟΜΗΣΗ ΜΕ ΣΥΓΧΩΝΕΥΣΗ. Δυαδική αναζήτηση (Binary search) ΔΕΔΟΜΕΝΟ: ένα μεγάλο αρχείο που περιέχει τιμές z [0,1,…,n-1] ταξινομημένες.
Γράφημα Συνδυαστικό αντικείμενο που αποτελείται από 2 σύνολα:
Ευρετήρια Βάσεις Δεδομένων Ευαγγελία Πιτουρά.
Μέτρα μεταβλητότητας ή διασποράς
Δυναμικός Κατακερματισμός
Δομές Δεδομένων 2η Διάλεξη Αλγόριθμοι Ένωσης-Εύρεσης (Union-Find)
Διδάσκων: Δρ. Τσίντζα Παναγιώτα
Ασκήσεις WEKA Κανόνες συσχέτισης.
Μέγιστη ροή Κατευθυνόμενο γράφημα 12 Συνάρτηση χωρητικότητας
Ισοδυναμία ΜΠΑ με ΠΑ Για κάθε ΜΠΑ Μ υπάρχει αλγόριθμος ο οποίος κατασκευάζει ΠΑ Μ’ αιτιοκρατικό ώστε να αναγνωρίζουν την ίδια ακριβώς γλώσσα. Καθώς το.
ΠΟΛΛΑΠΛΑΣΙΑΣΜΟΣ (συνέχεια)
Δυναμικός Προγραμματισμός
Εισαγωγή στις Αρχές της Επιστήμης των Η/Υ
Εξωτερική Αναζήτηση Ιεραρχία Μνήμης Υπολογιστή Εξωτερική Μνήμη
Διαχρονικές Δομές Δεδομένων
Δυναμικός Κατακερματισμός
Αναδρομή Στην ενότητα αυτή θα μελετηθούν τα εξής επιμέρους θέματα:
Μεταγράφημα παρουσίασης:

Ανάλυση Συσχέτισης IΙ Οι διαφάνειες στηρίζονται στο P.-N. Tan, M.Steinbach, V. Kumar, «Introduction to Data Mining», Addison Wesley, 2006

Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ ΙI2 Ο Αλγόριθμος FP-Growth

Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ ΙI3 Αλγόριθμος FP-Growth Ο αλγόριθμος χρησιμοποιεί μια συμπιεσμένη αναπαράσταση της βάσης των συναλλαγών με τη μορφή ενός FP-δέντρου  Το δέντρο μοιάζει με προθεματικό δέντρο - prefix tree (trie)  Ο αλγόριθμος κατασκευής διαβάζει μια συναλλαγή τη φορά, απεικονίζει τη συναλλαγή σε ένα μονοπάτι του FP-δέντρου  Μερικά μονοπάτια μπορεί να επικαλύπτονται: όσο περισσότερα μονοπάτια επικαλύπτονται, τόσο καλύτερη συμπίεση Μόλις κατασκευαστεί το FP-δέντρο, ο αλγόριθμος χρησιμοποιεί μια αναδρομική διαίρει-και-βασίλευε (divide-and-conquer) προσέγγιση για την εξόρυξη των συχνών στοιχειοσυνόλων Με λίγα λόγια:

Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ ΙI4 null Κατασκευή FP-δέντρου Αλγόριθμος FP-Growth To FP-δέντρο είναι ένα προθεματικό δέντρο Επειδή έχουμε σύνολα, κάπως πρέπει να τα διατάξουμε ώστε να βρίσκουμε προθέματα Δηλαδή δε μπορεί το ένα σύνολο να είναι {Α, Β} και το άλλο {Β, C, A} γιατί χάνουμε το κοινό πρόθεμα ΑΒ (ή ΒΑ) Άρα τα στοιχεία σε κάθε σύνολο πρέπει να ακολουθούν κάποια διάταξη, έστω τη λεξικογραφική (θα δούμε αργότερα αν κάτι άλλο συμφέρει καλύτερα) Αρχικά, το δέντρο κενό

Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ ΙI5 null A:1 B:1 Διάβασμα TID=1: Κατασκευή FP- δέντρου Αλγόριθμος FP-Growth Κάθε κόμβος έχει μια ετικέτα: ποιο στοιχείο και τη συχνότητα εμφάνισης (υποστήριξη) – πόσες δοσοληψίες φτάνουν σε αυτόν Ετικέτα κόμβου

Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ ΙI6 null A:1 B:1 C:1 D:1 Διάβασμα TID=1: Διάβασμα TID=2: Κατασκευή FP-δέντρου Αλγόριθμος FP-Growth Κάθε κόμβος ετικέτα, ποιο στοιχείο και τη συχνότητα εμφάνισης (υποστήριξη) – πόσες συναλλαγές φτάνουν σε αυτόν Επίσης, δείκτες μεταξύ των κόμβων που αναφέρονται στο ίδιο στοιχείο

Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ ΙI7 null A:1 B:1 C:1 D:1 Διάβασμα TID=1, 2: Κατασκευή FP-δέντρου Αλγόριθμος FP-Growth Επίσης, κρατάμε πίνακα δεικτών για να βοηθήσουν στον υπολογισμό των συχνών στοιχειοσυνόλων Πίνακας Δεικτών

Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ ΙI8 null A:1 B:1 C:1 D:1 Διάβασμα TID=1, 2: Κατασκευή FP-δέντρου Αλγόριθμος FP-Growth Πίνακας Δεικτών Διάβασμα TID=3 A:1

Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ ΙI9 null B:1 C:1 D:1 Διάβασμα TID=1, 2: Κατασκευή FP-δέντρου Αλγόριθμος FP-Growth Πίνακας Δεικτών Διάβασμα TID=3 A:2 C:1 D:1 E:1

Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ ΙI10 null B:1 C:1 D:1 Διάβασμα TID=1, 2: Κατασκευή FP-δέντρου Αλγόριθμος FP-Growth Πίνακας Δεικτών Διάβασμα TID=3 A:2 C:1 D:1 E:1

Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ ΙI11 null A:7 B:5 B:3 C:3 D:1 C:1 D:1 C:3 D:1 E:1 D:1 E:1 Πίνακας Δεικτών Αλγόριθμος FP-Growth Κατασκευή FP-δέντρου

Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ ΙI12 Μέγεθος FP-δέντρου Αλγόριθμος FP-Growth  Κάθε συναλλαγή αντιστοιχεί σε ένα μονοπάτι από τη ρίζα  Το μέγεθος του δέντρου συνήθως μικρότερο των δεδομένων, αν υπάρχουν κοινά προθέματα  Αν όλες οι συναλλαγές τα ίδια στοιχεία, μόνο ένα κλαδί  Αν όλες διαφορετικές, ο χώρος μεγαλύτερος (γιατί αποθηκεύεται περισσότερη πληροφορία, όπως δείκτες μεταξύ των κόμβων αλλά και συχνότητες εμφάνισης)

Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ ΙI13 Κατασκευή FP-δέντρου Αλγόριθμος FP-Growth Το τελικό δέντρο, εξαρτάται από τη διάταξη: άλλη διάταξη -> άλλα προθέματα (Συνήθως) μικρότερο δέντρο, αν όχι λεξικογραφικά, αλλά με βάση τη συχνότητα εμφάνισης -> Αρχικά, διαβάζουμε όλα τα δεδομένα μια φορά ώστε να υπολογιστεί ο μετρητής υποστήριξης κάθε στοιχείου, και διατάσουμε τα στοιχεία με βάση αυτό Για τo παράδειγμα, σ(Α)=7, σ(Β)=8, σ(C)=7, σ(D)=5, σ(Ε)=3 Άρα, διάταξη Β,Α,C,D,E  Επίσης, αγνοούμε όσα στοιχεία είναι μη συχνά

Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ ΙI14 Αλγόριθμος εύρεσης συχνών στοιχειοσυνόλων Αλγόριθμος FP-Growth Είσοδος: FP-δέντρο Έξοδος: Συχνά στοιχειοσύνολα και η υποστήριξη τους Μέθοδος:  Διαίρει-και-Βασίλευε o Χωρίζουμε τα στοιχειοσύνολα σε αυτά που τελειώνουν σε E, D, C, B, A o Μετά αυτά που τελειώνουν σε E σε αυτά σε DE, CE, BE, AE κοκ

Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ ΙI15 Αλγόριθμος εύρεσης συχνών στοιχειοσυνόλων Αλγόριθμος FP-Growth Όλα τα στοιχειοσύνολα Ε D CB A DE CE BE AECD BD ADBC ACAB CDE BDE ADEBCE ACEABEBCD ACDABDABC ACDE BCDEABDEABCEABCD ABCDE Όλα τα δυνατά στοιχειοσύνολα!

Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ ΙI16 Αλγόριθμος εύρεσης συχνών στοιχειοσυνόλων Αλγόριθμος FP-Growth Όλα τα στοιχειοσύνολα Ε D CB A DE CE BE AE CD BD ADBC ACAB CDE BDE ADE BCE ACEABEBCD ACDABDABC ACDE BCDE ABDEABCEABCD ABCDE Όλα τα δυνατά στοιχειοσύνολα! συχνό;

Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ ΙI17 Αλγόριθμος εύρεσης συχνών στοιχειοσυνόλων Αλγόριθμος FP-Growth Όλα τα στοιχειοσύνολα Ε D CB A DE CE BE AE CD BD ADBC ACAB CDE BDE ADE BCE ACEABEBCD ACDABDABC ACDE BCDE ABDEABCEABCD ABCDE Όλα τα δυνατά στοιχειοσύνολα! συχνό;

Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ ΙI18 Αλγόριθμος εύρεσης συχνών στοιχειοσυνόλων Αλγόριθμος FP-Growth Όλα τα στοιχειοσύνολα Ε D CB A DE CE BE AE CD BD ADBC ACAB CDE BDE ADE BCE ACEABEBCD ACDABDABC ACDE BCDE ABDEABCEABCD ABCDE Όλα τα δυνατά στοιχειοσύνολα! Στο δέντρο μπορεί να υπάρχουν λιγότερα! συχνό;

Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ ΙI19 null A:7 B:5 B:3 C:3 D:1 C:1 D:1 C:3 D:1 E:1 D:1 E:1 Header table Αλγόριθμος FP-Growth Χρήση FP-δέντρου για εύρεση συχνών στοιχειοσυνόλων Πως; Bottom-up traversal του δέντρου Αυτά που τελειώνουν σε E, μετά αυτά που τελειώνουν σε D, C, B και τέλος Α – suffix-based classes (επίθεμα – κατάληξη)

Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ ΙI20 null A:7 B:5 B:3 C:3 D:1 C:1 D:1 C:3 D:1 E:1 D:1 E:1 Header table Αλγόριθμος FP-Growth Υποπρόβλημα: Βρες συχνά στοιχειοσύνολα που τελειώνουν σε E  Θα δούμε στη συνέχεια πως υπολογίζεται η υποστήριξη για τα πιθανά στοιχειοσύνολα

Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ ΙI21 null A:7 B:5 B:3 C:3 D:1 C:1 D:1 C:3 D:1 E:1 D:1 E:1 Header table Αλγόριθμος FP-Growth Για το D

Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ ΙI22 null A:7 B:5 B:3 C:3 D:1 C:1 D:1 C:3 D:1 E:1 D:1 E:1 Header table Αλγόριθμος FP-Growth Για το C

Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ ΙI23 null A:7 B:5 B:3 C:3 D:1 C:1 D:1 C:3 D:1 E:1 D:1 E:1 Header table Αλγόριθμος FP-Growth Για το B

Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ ΙI24 null A:7 B:5 B:3 C:3 D:1 C:1 D:1 C:3 D:1 E:1 D:1 E:1 Header table Αλγόριθμος FP-Growth Για το Α

Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ ΙI25 Συνοπτικά Αλγόριθμος FP-Growth Σε κάθε βήμα, για το suffix (επίθεμα) Χ  Φάση 1  Κατασκευάζουμε το προθεματικό δέντρο για το Χ και υπολογίζουμε την υποστήριξη χρησιμοποιώντας τον πίνακα  Φάση 2  Αν είναι συχνό, κατασκευάζουμε το υπο-συνθήκη δέντρο για το Χ, σε βήματα  επανα-υπολογισμός υποστήριξης  περικοπή κόμβων με μικρή υποστήριξη  περικοπή φύλλων

Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ ΙI26 null A:7 B:5 B:3 C:3 D:1 C:1 D:1 C:3 D:1 E:1 D:1 E:1 Header table Αλγόριθμος FP-Growth Φάση 1 – κατασκευή προθεματικού δέντρου Όλα τα μονοπάτια που περιέχουν το E Προθεματικά Μονοπάτια (prefix paths) Προθεματικά μονοπάτια του Ε: {E}, {D,E}, {C,D,E}, {A,D,Ε}, {A,C,D,E}, {C,E}, {B,C,E}

Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ ΙI27 null A:7 B:3 C:3 C:1 D:1 E:1 Αλγόριθμος FP-Growth Φάση 1 Όλα τα μονοπάτια που περιέχουν το E Προθεματικά Μονοπάτια (prefix paths) Προθεματικά μονοπάτια του Ε: {E}, {D,E}, {C,D,E}, {A,D,Ε}, {A,C,D,E}, {C,E}, {B,C,E}

Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ ΙI28 null A:7 B:3 C:3 C:1 D:1 E:1 Αλγόριθμος FP-Growth Βρες την υποστήριξη του {E} Πως; Ακολούθησε τους συνδέσμους αθροίζοντας 1+1+1=3>2 Οπότε {Ε} συχνό {E} συχνό άρα προχωράμε για DE, CE, BE, AE Έστω minsup = 2

Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ ΙI29 null A:7 B:3 C:3 C:1 D:1 E:1 Αλγόριθμος FP-Growth Φάση 2 Μετατροπή των προθεματικών δέντρων σε FP-δέντρο υπό συνθήκες (conditional FP-tree) Δύο αλλαγές (1) Αλλαγή των μετρητών (2) Περικοπή {E} συχνό άρα προχωράμε για DE, CE, BE, AE

Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ ΙI30 null A:7 B:3 C:3 C:1 D:1 E:1 Αλγόριθμος FP-Growth Αλλαγή μετρητών Οι μετρητές σε κάποιους κόμβους περιλαμβάνουν συναλλαγές που δεν έχουν το Ε Πχ στο null->B->C->E μετράμε και την {B, C}

Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ ΙI31 null B:3 C:3 C:1 D:1 E:1 Αλγόριθμος FP-Growth A:7

Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ ΙI32 null B:3 C:1 D:1 E:1 Αλγόριθμος FP-Growth A:7

Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ ΙI33 null A:7 B:1 C:1 D:1 E:1 Αλγόριθμος FP-Growth

Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ ΙI34 null A:7 B:1 C:1 D:1 E:1 Αλγόριθμος FP-Growth

Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ ΙI35 null A:7 B:1 C:1 D:1 E:1 Αλγόριθμος FP-Growth

Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ ΙI36 null A:2 B:1 C:1 D:1 E:1 Αλγόριθμος FP-Growth

Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ ΙI37 null A:2 B:1 C:1 D:1 E:1 Αλγόριθμος FP-Growth

Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ ΙI38 null A:2 B:1 C:1 D:1 E:1 Αλγόριθμος FP-Growth Περικοπή (truncate) Σβήσε τους κόμβους του Ε

Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ ΙI39 null A:2 B:1 C:1 D:1 E:1 Αλγόριθμος FP-Growth Περικοπή (truncate) Σβήσε τους κόμβους του Ε

Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ ΙI40 null A:2 B:1 C:1 D:1 Αλγόριθμος FP-Growth Περικοπή (truncate) Σβήσε τους κόμβους του Ε

Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ ΙI41 null A:2 B:1 C:1 D:1 Αλγόριθμος FP-Growth Πιθανή περαιτέρω περικοπή Κάποια στοιχεία μπορεί να έχουν υποστήριξη μικρότερη της ελάχιστης Πχ το Β -> περικοπή Αυτό σημαίνει ότι το Β εμφανίζεται μαζί με το E λιγότερο από minsup φορές

Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ ΙI42 null A:2 B:1 C:1 D:1 Αλγόριθμος FP-Growth

Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ ΙI43 null A:2 C:1 D:1 Αλγόριθμος FP-Growth

Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ ΙI44 null A:2 C:1 D:1 Αλγόριθμος FP-Growth Υπο-συνθήκη FP-δέντρο για το Ε Ο αλγόριθμος επαναλαμβάνεται για το {D, E}, {C, E}, {A, E}

Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ ΙI45 null A:2 C:1 D:1 Αλγόριθμος FP-Growth Φάση 1 Όλα τα μονοπάτια που περιέχουν το D (DE) Προθεματικά Μονοπάτια (prefix paths)

Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ ΙI46 null A:2 C:1 D:1 Αλγόριθμος FP-Growth Φάση 1 Όλα τα μονοπάτια που περιέχουν το D (DE) Προθεματικά Μονοπάτια (prefix paths)

Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ ΙI47 null A:2 C:1 D:1 Αλγόριθμος FP-Growth Βρες την υποστήριξη του {D, E} Πως; Ακολούθησε τους συνδέσμους αθροίζοντας 1+1=2  2 Οπότε {D, Ε} συχνό

Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ ΙI48 null A:2 C:1 D:1 Αλγόριθμος FP-Growth Φάση 2 Κατασκεύασε το υπο-συνθήκη FP-δέντρο για το {D, E} 1. Αλλαγή υποστήριξης 2. Περικοπές κόμβων

Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ ΙI49 null A:2 C:1 D:1 Αλγόριθμος FP-Growth 1. Αλλαγή υποστήριξης

Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ ΙI50 null A:2 C:1 D:1 Αλγόριθμος FP-Growth 2. Περικοπές κόμβων

Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ ΙI51 null A:2 C:1 Αλγόριθμος FP-Growth 2. Περικοπές κόμβων

Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ ΙI52 null A:2 C:1 Αλγόριθμος FP-Growth 2. Περικοπές κόμβων Μικρή υποστήριξη

Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ ΙI53 null A:2 Αλγόριθμος FP-Growth Τελικό υπο-συνθήκη FP-δέντρο για το {D, E} Υποστήριξη του Α είναι  minsup -> {Α, D, E} συχνό Αφού μόνο έναν κόμβο, επιστροφή στο επόμενο υποπρόβλημα

Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ ΙI54 null A:2 C:1 D:1 Αλγόριθμος FP-Growth Υπο-συνθήκη FP-δέντρο για το Ε Ο αλγόριθμος επαναλαμβάνεται για το {D, E}, {C, E}, {A, E}

Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ ΙI55 null A:2 C:1 D:1 Αλγόριθμος FP-Growth Φάση 1 Όλα τα μονοπάτια που περιέχουν το C (CE) Προθεματικά Μονοπάτια (prefix paths)

Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ ΙI56 null A:2 C:1 Αλγόριθμος FP-Growth Φάση 1 Όλα τα μονοπάτια που περιέχουν το C (CE) Προθεματικά Μονοπάτια (prefix paths)

Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ ΙI57 null A:2 C:1 Αλγόριθμος FP-Growth Βρες την υποστήριξη του {C, E} Πως; Ακολούθησε τους συνδέσμους αθροίζοντας 1+1=2  2 Οπότε {C, Ε} συχνό

Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ ΙI58 null A:2 C:1 Αλγόριθμος FP-Growth Κατασκεύασε το υπο-συνθήκη FP-δέντρο για το {C, E} 1. Αλλαγή υποστήριξης 2. Περικοπές κόμβων

Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ ΙI59 null A:1 C:1 Αλγόριθμος FP-Growth 1. Αλλαγή υποστήριξης

Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ ΙI60 null A:1 C:1 Αλγόριθμος FP-Growth 2. Περικοπή Κόμβων

Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ ΙI61 null A:1 Αλγόριθμος FP-Growth 2. Περικοπή Κόμβων

Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ ΙI62 null A:1 Αλγόριθμος FP-Growth 2. Περικοπή Κόμβων

Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ ΙI63 null Αλγόριθμος FP-Growth 2. Περικοπή Κόμβων Άρα, επιστροφή στο επόμενο υποπρόβλημα

Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ ΙI64 null A:2 C:1 D:1 Αλγόριθμος FP-Growth Υπο-συνθήκη FP-δέντρο για το Ε Ο αλγόριθμος επαναλαμβάνεται για το {D, E}, {C, E}, {A, E}

Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ ΙI65 null A:2 C:1 D:1 Αλγόριθμος FP-Growth Φάση 1 Όλα τα μονοπάτια που περιέχουν το Α (AE) Προθεματικά Μονοπάτια (prefix paths)

Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ ΙI66 null A:2 Αλγόριθμος FP-Growth Φάση 1 Όλα τα μονοπάτια που περιέχουν το Α (AE) Προθεματικά Μονοπάτια (prefix paths)

Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ ΙI67 null A:2 Αλγόριθμος FP-Growth Βρες την υποστήριξη του {Α, E} Οπότε {Α, Ε} συχνό Δε χρειάζεται να φτιάξουμε υπο-συνθήκη FP-δέντρο για το {Α, Ε}

Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ ΙI68 Αλγόριθμος FP-Growth Άρα για το Ε Έχουμε τα εξής συχνά στοιχειοσύνολα {Ε} {D, E} {A, D, E} {C, E} {A, E} Συνεχίζουμε για το D

Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ ΙI69 null A:7 B:5 B:3 C:3 D:1 C:1 D:1 C:3 D:1 E:1 D:1 E:1 Header table Αλγόριθμος FP-Growth Για το D

Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ ΙI70 null A:7 B:5 B:3 C:3 D:1 C:1 D:1 C:3 D:1 Αλγόριθμος FP-Growth Φάση 1 Όλα τα προθεματικά μονοπάτια που περιέχουν το D Υποστήριξη 5>2 -> άρα συχνό Μετατροπή του προθεματικού δέντρου σε FP-δέντρο υπό συνθήκη

Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ ΙI71 null A:7 B:5 B:3 C:3 D:1 C:1 D:1 C:1 D:1 Αλγόριθμος FP-Growth 1. Αλλαγή υποστήριξης

Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ ΙI72 null A:7 B:2 B:3 C:3 D:1 C:1 D:1 C:1 D:1 Αλγόριθμος FP-Growth 1. Αλλαγή υποστήριξης

Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ ΙI73 null A:3 B:2 B:3 C:3 D:1 C:1 D:1 C:1 D:1 Αλγόριθμος FP-Growth 1. Αλλαγή υποστήριξης

Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ ΙI74 null A:3 B:2 B:3 C:1 D:1 C:1 D:1 C:1 D:1 Αλγόριθμος FP-Growth 1. Αλλαγή υποστήριξης

Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ ΙI75 null A:3 B:2 B:1 C:1 D:1 C:1 D:1 C:1 D:1 Αλγόριθμος FP-Growth 1. Αλλαγή υποστήριξης

Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ ΙI76 null A:3 B:2 B:1 C:1 D:1 C:1 D:1 C:1 D:1 Αλγόριθμος FP-Growth 2. Περικοπή Κόμβων

Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ ΙI77 null A:3 B:2 B:1 C:1 Αλγόριθμος FP-Growth 2. Περικοπή Κόμβων

Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ ΙI78 null A:3 B:2 B:1 C:1 Αλγόριθμος FP-Growth Προθεματικά δέντρα και υποσυνθήκη δέντρα Για τα ΑD, ΒD και CD κοκ

Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ ΙI79 Αλγόριθμος FP-Growth  Παράδειγμα τεχνικής διαίρει-και-βασίλευε Σε κάθε αναδρομικό βήμα, λύνεται και ένα υπο-πρόβλημα:  Κατασκευάζεται το προθεματικό δέντρο  Υπολογίζεται η νέα υποστήριξη για τους κόμβους του  Περικόβονται οι κόμβοι με μικρή υποστήριξη Επειδή τα υποπροβλήματα είναι ξένα μεταξύ τους, δεν δημιουργούνται τα ίδια συχνά στοιχειοσύνολα δυο φορές  Ο υπολογισμός της υποστήριξης είναι αποδοτικός – γίνεται ταυτόχρονα με τη δημιουργία των συχνών στοιχειοσυνόλων Παρατηρήσεις

Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ ΙI80 Αλγόριθμος FP-Growth Η απόδοση του FP-Growth εξαρτάται από τον παράγοντα συμπίεσης του συνόλου των δεδομένων (compaction factor) Αν τα τελικά δέντρα είναι «θαμνώδη» (bushy) τότε δε δουλεύει καλά, αυξάνεται ο αριθμός των υποπροβλημάτων (οι αναδρομικές κλήσεις) Παρατηρήσεις