Η παρουσίαση φορτώνεται. Παρακαλείστε να περιμένετε

Η παρουσίαση φορτώνεται. Παρακαλείστε να περιμένετε

Katedra štatistiky FHI EU v Bratislave

Παρόμοιες παρουσιάσεις


Παρουσίαση με θέμα: "Katedra štatistiky FHI EU v Bratislave"— Μεταγράφημα παρουσίασης:

1 Katedra štatistiky FHI EU v Bratislave
Zhluková analýza Cluster Analysis (CA) Mária Vojtková Katedra štatistiky FHI EU v Bratislave február 2008

2 Zhluková analýza Charakteristika CA
rozklad súboru na niekoľko homogénnych podsúborov štatistické jednotky v jednom zhluku sú čo najpodobnejšie, najbližšie štatistické jednotky rôznych zhlukov sú navzájom čo najodlišnejšie, najvzdialenejšie zoskupiť Xi i=(1, ....n) do zhlukov c1,....cq (2 < q < n)

3 Zhluková analýza Postup CA výber miery podobnosti (resp. nepodobnosti)
výber druhu zhlukovacieho postupu výber zhlukovacej metódy určenie počtu významných zhlukov interpretácia zhlukov

4 Zhluková analýza - výber miery podobnosti
koeficienty asociácie koeficienty korelácie pravdepodobnostné miery miery nepodobnosti vzdialenosti – nezáporné reálne funkcie d(XY)

5 Zhluková analýza - vlastnosti miery vzdialenosti

6 Euklidovská vzdialenosť
Obrázok 1: Grafické znázornenie výpočtu Euklidovskej vzdialenosti

7 Hammingova vzdialenosť (city-block distance)
Obrázok 2: Grafické znázornenie výpočtu Hammingovej vzdialenosti

8 Prehľad mier vzdialenosti
Euklidovská vzdialenosť Dij= (xik- xjk)2 Hammingova vzdialenosť Dij= |xik- xjk| Minkovskeho vzdialenosť Dij= (|xik- xjk|r ) 1/r Mahalanobisova vzdialenosť Dij= (Xi – Xj)' .S-1.(Xi – Xj)

9 Zhluková analýza výber druhu zhlukovacieho postupu hierarchický postup
úplná analýza štatistického súboru výsledok možno zobraziť pomocou hierarchického grafu - dendrogramu aglomeratívny v prvom kroku je každá jednotka samostatným zhlukom v poslednom kroku sú všetky jednotky v jednom zhluku divízny v prvom kroku sú všetky jednotky v jednom zhluku v poslednom kroku každá jednotka predstavuje zhluk

10 Zhluková analýza výber druhu zhlukovacieho postupu
nehierarchický postup vopred určený počet zhlukov iteratívny postup určenia ich stredov postupné zaraďovanie jednotiek k vybraným stredom

11 Všeobecný hierarchický zhlukovací postup

12 Zhluková analýza výber zhlukovacej metódy hierarchické – aglomeratívne
metóda najbližšieho suseda (nearest-neighbor) poznáme maticu euklidovských vzdialeností vyberieme spojenie na základe min vzdialenosti nové spojenie = min dij tzv. reťaziaci efekt Grafické znázornenie vzdialenosti medzi novými zhlukmi pri metóde najbližšieho suseda

13 Zhluková analýza výber zhlukovacej metódy hierarchické – aglomeratívne
metóda najvzdialenejšieho suseda (furthest-neighbor) poznáme maticu euklidovských vzdialeností nové spojenie = max dij vyberieme spojenie, prepočítame, atď. konzistentné, izolované zhluky Grafické znázornenie vzdialenosti medzi novými zhlukmi pri metóde najvzdialenejšieho suseda

14 Zhluková analýza výber zhlukovacej metódy hierarchické – aglomeratívne
metóda priemernej väzby (group average) poznáme maticu euklidovských vzdialeností vzdialenosť medzi dvomi zhlukmi je vypočítaná ako priemerná min vzdialenosť prvkov

15 Zhluková analýza výber zhlukovacej metódy hierarchické – aglomeratívne
centroidná metóda (centroid method) poznáme maticu euklidovských vzdialeností každý novovytvorený zhluk je nahradený priemerným prvkom = centroidom nové spojenie = štvorec euklidovskej vzdialenosti nevýhodou sú inverzie mediánová metóda (median method) reprezentantom zhluku je jeho medián vylepšenie centroidnej metódy

16 Zhluková analýza výber zhlukovacej metódy hierarchické – aglomeratívne
Wardova metóda (Ward method) nepočítame maticu vzdialeností kritérium spojenia = max vnútrozhlukovej homogenity mierou homogenity ESS inicializačné spojenie znamená minimálny prírastok ESS = ΣΣ(Xij – priemXtj) 2 zhluky rovnakej veľkosti a tvaru

17 Zhluková analýza výber zhlukovacej metódy nehierarchické
Metóda typických bodov (seeded) seed = typický predstaviteľ zhluku ostatné objekty rozdelené podľa euklidovskej vzdialenosti od seed Metóda k-priemerov celý rad modifikácii Metóda optimálnych stredov alebo medoidov medoid – optimálny stred zhluku jeho priemerná vzdialenosť k ostatným objektom v zhluku je minimálna Fuzzy zhlukovanie umožňuje zaradenie jedného objektu do viacerých zhlukov prítomnosť objektu v zhluku je daná pravdepodobnosťou, ktorá je medzi 0 a 1 – tzv. fuzifikácia zhlukovej konfigurácie väčší počet prijateľných riešení

18 Zhluková analýza Nehierarchické zhlukovanie využíva tri postupy:
sekvenčný: najprv sa určí prvý predstaviteľ zhluku, ku ktorému sa na základe špecifikovanej vzdialenosti priradia objekty, potom sa určí druhý predstaviteľ a proces sa opakuje, paralelný: na začiatku sa určí niekoľko predstaviteľov, ku ktorým sú jednotlivé objekty priraďované paralelne, optimalizačný: podobný predchádzajúcemu postupu avšak umožňuje znovuzaradenie objektu.

19 Porovnanie zhlukovacích metód
Hierarchické metódy: v minulosti populárnejšie (za najlepšie metódy považované Wardová, metóda priemernej väzby a centroidná metóda) rýchle, menšia spotreba stojového času a jednoduché poskytujú podrobnú štruktúru dát, nie je potrebné poznať počet zhlukov na začiatku analýzy na ich výsledky majú vplyv odľahlé pozorovania nevhodné na analýzu veľmi veľkých súborov

20 Porovnanie zhlukovacích metód
Nehierarchické metódy: v poslednom čase sa využívajú viac vyžadujú zadanie počtu zhlukov na začiatku analýzy výsledky sú ovplyvnené praktickými znalosťami užívateľa a objektívnou teóriou, ako stanoviť predstaviteľov zhlukov nie sú natoľko ovplyvnené odľahlými pozorovaniami poskytujú viacero prijateľných alternatív štruktúry dát

21 Zhluková analýza určenie počtu významných zhlukov heuristický prístup
ukazovatele kvality zhlukovania Štandardná odchýlka premenných tvoriacich zhluk (RMSSTD), Koeficient determinácie (RSQ), Semiparciálny koeficient determinácie (SPRSQ), Vzdialenosť zhlukov (CD).

22 Zhluková analýza určenie počtu významných zhlukov
RMSSTD - homogenita nového zhluku malé SPRSQ – homogenita spojených zhlukov RSQ – heterogenita zhlukov vysoké CD – homogenita spojených zhlukov

23 Zhluková analýza určenie počtu významných zhlukov
v SASe cubic clustering criterion (CCC) Vhodný počet zhlukov indikuje CCC>3, vo všeobecnosti, čím vyššie je CCC, tým lepší počet zhlukov získame. Pri hierarchickom postupe zhlukovania možno pozorovať niekoľko lokálnych, vysokých hodnôt CCC. Pri nehierarchickom zhlukovaní je pozorované veľmi odlišné globálne maximum CCC v závislosti od počiatočného určenia počtu zhlukov. Pri zošikmených rozdeleniach môže hodnota CCC nadobúdať zápornú hodnotu, pričom s počtom zhlukov jej hodnota ešte klesá. Ak CCC neustále rastie, s počtom zhlukov je možná prítomnosť reťazenia, t.j. objekty vo vnútri zhluku sú pospájané z niekoľkých zhlukov, pričom jednotlivé objekty vytvárajú medzi nimi reťaz. Pre dáta s nepravidelným tvarom alebo pre predĺžené skupiny objektov, CCC nie je vhodným kritériom na stanovenie počtu zhlukov.

24 Zhluková analýza interpretácia zhlukov dendrogram grafická analýza
popisná štatistika hodnotiaca miera je zhlukový centroid (ťažisko zhluku) podľa jednotlivých premenných popis každého zhluku na základe sledovaných vlastností napr. podľa metód viackriteriálneho hodnotenia

25 Bližšie pozri: Stankovičová, Vojtková: Viacrozmerné štatistické metódy s aplikáciami, Bratislava: Iura edition, 2007, ISBN


Κατέβασμα ppt "Katedra štatistiky FHI EU v Bratislave"

Παρόμοιες παρουσιάσεις


Διαφημίσεις Google