Katedra štatistiky FHI EU v Bratislave Zhluková analýza Cluster Analysis (CA) Mária Vojtková Katedra štatistiky FHI EU v Bratislave február 2008
Zhluková analýza Charakteristika CA rozklad súboru na niekoľko homogénnych podsúborov štatistické jednotky v jednom zhluku sú čo najpodobnejšie, najbližšie štatistické jednotky rôznych zhlukov sú navzájom čo najodlišnejšie, najvzdialenejšie zoskupiť Xi i=(1, ....n) do zhlukov c1,....cq (2 < q < n)
Zhluková analýza Postup CA výber miery podobnosti (resp. nepodobnosti) výber druhu zhlukovacieho postupu výber zhlukovacej metódy určenie počtu významných zhlukov interpretácia zhlukov
Zhluková analýza - výber miery podobnosti koeficienty asociácie koeficienty korelácie pravdepodobnostné miery miery nepodobnosti vzdialenosti – nezáporné reálne funkcie d(XY)
Zhluková analýza - vlastnosti miery vzdialenosti
Euklidovská vzdialenosť Obrázok 1: Grafické znázornenie výpočtu Euklidovskej vzdialenosti
Hammingova vzdialenosť (city-block distance) Obrázok 2: Grafické znázornenie výpočtu Hammingovej vzdialenosti
Prehľad mier vzdialenosti Euklidovská vzdialenosť Dij= (xik- xjk)2 Hammingova vzdialenosť Dij= |xik- xjk| Minkovskeho vzdialenosť Dij= (|xik- xjk|r ) 1/r Mahalanobisova vzdialenosť Dij= (Xi – Xj)' .S-1.(Xi – Xj)
Zhluková analýza výber druhu zhlukovacieho postupu hierarchický postup úplná analýza štatistického súboru výsledok možno zobraziť pomocou hierarchického grafu - dendrogramu aglomeratívny v prvom kroku je každá jednotka samostatným zhlukom v poslednom kroku sú všetky jednotky v jednom zhluku divízny v prvom kroku sú všetky jednotky v jednom zhluku v poslednom kroku každá jednotka predstavuje zhluk
Zhluková analýza výber druhu zhlukovacieho postupu nehierarchický postup vopred určený počet zhlukov iteratívny postup určenia ich stredov postupné zaraďovanie jednotiek k vybraným stredom
Všeobecný hierarchický zhlukovací postup
Zhluková analýza výber zhlukovacej metódy hierarchické – aglomeratívne metóda najbližšieho suseda (nearest-neighbor) poznáme maticu euklidovských vzdialeností vyberieme spojenie na základe min vzdialenosti nové spojenie = min dij tzv. reťaziaci efekt Grafické znázornenie vzdialenosti medzi novými zhlukmi pri metóde najbližšieho suseda
Zhluková analýza výber zhlukovacej metódy hierarchické – aglomeratívne metóda najvzdialenejšieho suseda (furthest-neighbor) poznáme maticu euklidovských vzdialeností nové spojenie = max dij vyberieme spojenie, prepočítame, atď. konzistentné, izolované zhluky Grafické znázornenie vzdialenosti medzi novými zhlukmi pri metóde najvzdialenejšieho suseda
Zhluková analýza výber zhlukovacej metódy hierarchické – aglomeratívne metóda priemernej väzby (group average) poznáme maticu euklidovských vzdialeností vzdialenosť medzi dvomi zhlukmi je vypočítaná ako priemerná min vzdialenosť prvkov
Zhluková analýza výber zhlukovacej metódy hierarchické – aglomeratívne centroidná metóda (centroid method) poznáme maticu euklidovských vzdialeností každý novovytvorený zhluk je nahradený priemerným prvkom = centroidom nové spojenie = štvorec euklidovskej vzdialenosti nevýhodou sú inverzie mediánová metóda (median method) reprezentantom zhluku je jeho medián vylepšenie centroidnej metódy
Zhluková analýza výber zhlukovacej metódy hierarchické – aglomeratívne Wardova metóda (Ward method) nepočítame maticu vzdialeností kritérium spojenia = max vnútrozhlukovej homogenity mierou homogenity ESS inicializačné spojenie znamená minimálny prírastok ESS = ΣΣ(Xij – priemXtj) 2 zhluky rovnakej veľkosti a tvaru
Zhluková analýza výber zhlukovacej metódy nehierarchické Metóda typických bodov (seeded) seed = typický predstaviteľ zhluku ostatné objekty rozdelené podľa euklidovskej vzdialenosti od seed Metóda k-priemerov celý rad modifikácii Metóda optimálnych stredov alebo medoidov medoid – optimálny stred zhluku jeho priemerná vzdialenosť k ostatným objektom v zhluku je minimálna Fuzzy zhlukovanie umožňuje zaradenie jedného objektu do viacerých zhlukov prítomnosť objektu v zhluku je daná pravdepodobnosťou, ktorá je medzi 0 a 1 – tzv. fuzifikácia zhlukovej konfigurácie väčší počet prijateľných riešení
Zhluková analýza Nehierarchické zhlukovanie využíva tri postupy: sekvenčný: najprv sa určí prvý predstaviteľ zhluku, ku ktorému sa na základe špecifikovanej vzdialenosti priradia objekty, potom sa určí druhý predstaviteľ a proces sa opakuje, paralelný: na začiatku sa určí niekoľko predstaviteľov, ku ktorým sú jednotlivé objekty priraďované paralelne, optimalizačný: podobný predchádzajúcemu postupu avšak umožňuje znovuzaradenie objektu.
Porovnanie zhlukovacích metód Hierarchické metódy: v minulosti populárnejšie (za najlepšie metódy považované Wardová, metóda priemernej väzby a centroidná metóda) rýchle, menšia spotreba stojového času a jednoduché poskytujú podrobnú štruktúru dát, nie je potrebné poznať počet zhlukov na začiatku analýzy na ich výsledky majú vplyv odľahlé pozorovania nevhodné na analýzu veľmi veľkých súborov
Porovnanie zhlukovacích metód Nehierarchické metódy: v poslednom čase sa využívajú viac vyžadujú zadanie počtu zhlukov na začiatku analýzy výsledky sú ovplyvnené praktickými znalosťami užívateľa a objektívnou teóriou, ako stanoviť predstaviteľov zhlukov nie sú natoľko ovplyvnené odľahlými pozorovaniami poskytujú viacero prijateľných alternatív štruktúry dát
Zhluková analýza určenie počtu významných zhlukov heuristický prístup ukazovatele kvality zhlukovania Štandardná odchýlka premenných tvoriacich zhluk (RMSSTD), Koeficient determinácie (RSQ), Semiparciálny koeficient determinácie (SPRSQ), Vzdialenosť zhlukov (CD).
Zhluková analýza určenie počtu významných zhlukov RMSSTD - homogenita nového zhluku malé SPRSQ – homogenita spojených zhlukov RSQ – heterogenita zhlukov vysoké CD – homogenita spojených zhlukov
Zhluková analýza určenie počtu významných zhlukov v SASe cubic clustering criterion (CCC) Vhodný počet zhlukov indikuje CCC>3, vo všeobecnosti, čím vyššie je CCC, tým lepší počet zhlukov získame. Pri hierarchickom postupe zhlukovania možno pozorovať niekoľko lokálnych, vysokých hodnôt CCC. Pri nehierarchickom zhlukovaní je pozorované veľmi odlišné globálne maximum CCC v závislosti od počiatočného určenia počtu zhlukov. Pri zošikmených rozdeleniach môže hodnota CCC nadobúdať zápornú hodnotu, pričom s počtom zhlukov jej hodnota ešte klesá. Ak CCC neustále rastie, s počtom zhlukov je možná prítomnosť reťazenia, t.j. objekty vo vnútri zhluku sú pospájané z niekoľkých zhlukov, pričom jednotlivé objekty vytvárajú medzi nimi reťaz. Pre dáta s nepravidelným tvarom alebo pre predĺžené skupiny objektov, CCC nie je vhodným kritériom na stanovenie počtu zhlukov.
Zhluková analýza interpretácia zhlukov dendrogram grafická analýza popisná štatistika hodnotiaca miera je zhlukový centroid (ťažisko zhluku) podľa jednotlivých premenných popis každého zhluku na základe sledovaných vlastností napr. podľa metód viackriteriálneho hodnotenia
Bližšie pozri: Stankovičová, Vojtková: Viacrozmerné štatistické metódy s aplikáciami, Bratislava: Iura edition, 2007, ISBN 978-80-8078-152-1