Katedra štatistiky FHI EU v Bratislave

Slides:



Advertisements
Παρόμοιες παρουσιάσεις
Bezkontaktné meranie teploty
Advertisements

Αγχολυτικά & Υπνωτικά φάρμακα. Το άγχος είναι μια δυσάρεστη κατάσταση έντασης και ανησυχίας. Tα συμπτώματα σοβαρού άγχους είναι παρόμοια με αυτά του.
Σαββίνα - Μανώλης Έτος Μάθημα Πληροφορικής Τάξη Δ΄
Fyzika a chemie společně CZ/FMP/17B/0456 SOUBOR VÝUKOVÝCH MATERIÁLŮ FYZIKA + CHEMIE ZŠ A MŠ KAŠAVA ZŠ A MŠ CEROVÁ.
Κατηγορίες εμφιαλωμένου νερού : Υπάρχουν τρεις κατηγορίες εμφιαλωμένου νερού, αναγνωρισμένες από την Ευρωπαϊκή Ένωση: το φυσικό μεταλλικό νερό, το επιτραπέζιο.
ΤΜΗΜΑ ΔΙΟΙΚΗΣΗΣ ΣΥΣΤΗΜΑΤΩΝ ΕΦΟΔΙΑΣΜΟΥ ΑΡΧΕΣ ΛΟΓΙΣΤΙΚΗΣ ΚΑΘΗΓΗΤΗΣ: Δρ ΠΑΝΑΓΙΩΤΗΣ ΚΩΤΣΙΟΣ ΑΚΑΔΗΜΑΪΚΟ ΕΤΟΣ 2015/2016.
Το Αντικείμενο του Λογικού Σχεδιασμού
Εισαγωγή στην Ανάλυση Γλωσσικών Δεδομένων
Ľubomír Šmidek 3.E Banská Bystrica
ΒΟΗΘΕΙΑ ΣΕ επεμβατικεσ πραξεισ
ΟΥΡΟΠΟΙΗΤΙΚΟ ΣΥΣΤΗΜΑ.
Εισαγωγή στις Πιθανότητες
VII. DVOJ VÝBEROVÉ TESTY
ΚΥΚΛΟΦΟΡΙΚΟ ΣΥΣΤΗΜΑ.
SNOWBOARDING & SKIING michaela krafčíková 1.D
PRÍLOHA I Kategórie hovädzieho dobytka vo veku maximálne dvanástich mesiacov Pri porážke sa hovädzí dobytok vo veku maximálne dvanástich mesiacov zaradí.
Skúmanie závislostí.
Epipolárna geometria v praxi
Výpočet ozubených kolies
UHOL - úvod Vypracovala: S. Vidová.
1. kozmická rýchlosť tiež Kruhová rýchlosť.
PODOBNOSŤ TROJUHOLNÍKOV
Zákon sily Kód ITMS projektu:
Ľudmila Komorová,Katedra chémie, TU v Košiciach
Medzinárodná sústava jednotiek SI
TESTOVANIE ŠTATISTICKÝCH HYPOTÉZ
Základné metódy práce s ľudskou DNA
Realitný trh na Slovensku z pohľadu NBS
Zhrnutie učiva o telesách pre žiakov ZŠ Mgr. Terézia Bertová
Mechanická práca Kód ITMS projektu:
LICHOBEŽNÍK 8. ročník.
Uhol a jeho veľkosť, operácie s uhlami
Rovnobežky, kolmice.
ΤΕΙ Σερρών Σχολή Διοίκησης & Οικονομίας Τμήμα Διοίκησης Επιχειρήσεων
Kλυτία, η νύμφη που έγινε ηλιοτρόπιο
Fyzika 6. ročník.
ΣΕΙΣΜΟΣ ΚΑΙ ΣΧΟΛΕΙΟ Για να αποφευχθούν ανθρώπινες απώλειες πρέπει προσεισμικά: Na εμπεδώσουμε την αντισεισμική συμπεριφορά Να γίνουν βίωμα κάποιοι βασικοί.
Štatistické metódy Ošetrovateľský výskum Mgr. Juraj Čáp, PhD.
OHMOV ZÁKON, ELEKTRICKÝ ODPOR VODIČA
Elektronické voltmetre
TLAK V KVAPALINÁCH A PLYNOCH
Stredové premietanie 2. časť - metrické úlohy Margita Vajsáblová
Príklad na pravidlový fuzzy systém
Ing. Matej Čopík Košice 2013 školiteľ: doc. Ing. Ján Jadlovský, CSc.
Ročník: ôsmy Typ školy: základná škola Autorka: Mgr. Katarína Kurucová
Prednášky z BIOŠTATISTIKY
Gymnázium sv. Jána Bosca Bardejov
Prehľad www prehliadačov
Návrh fuzzy regulátorov v prostredí Matlab
Metódy numerickej matematiky I
Názvy a značky chemických prvkov
EKONOMETRIA PREDNÁŠKA 10
SPOTREBA, ÚSPORY A INVESTÍCIE
Rovnoramenný trojuholník
Téma: Trenie Meno: František Karasz Trieda: 1.G.
ELEKTROMAGNETICKÁ INDUKCIA
Štatistická indukcia –
Združená stredná priemyselná škola Nové Mesto nad Váhom
Úvod do pravdepodobnosti
Analytická geometria kvadratických útvarov
DISPERZIA (ROZKLAD) SVETLA Dominik Sečka III. B.
Metóda ohybných plátov (thin plate spline)
VALEC Matematika Geometria Poledník Denis.
Heuristické optimalizačné procesy
Štatistika Mgr. Jozef Vozár 2007.
Alica Mariňaková a Anna Petrušková
Mgr. Jana Sabolová Elektrický prúd.
Σταθερά ΚΕΣΠΕΜ Κομοτηνής Εκπαιδευτικός: Κυριακή Ζαφείράκη Επιστημονική Υπεύθυνη: Μαρία Ζωγραφάκη Επόπτρια: Μαρία Γραμματίκα Τάξη: Στ Αριθμός Παιδιών:
τι σημαίνει να είσαι παντρεμένος
ΕΛΕΓΧΟΙ ΟΡΑΤΟΤΗΤΑΣ Επιμήκης αίθουσα με κλειστή σκηνή
Μεταγράφημα παρουσίασης:

Katedra štatistiky FHI EU v Bratislave Zhluková analýza Cluster Analysis (CA) Mária Vojtková Katedra štatistiky FHI EU v Bratislave február 2008

Zhluková analýza Charakteristika CA rozklad súboru na niekoľko homogénnych podsúborov štatistické jednotky v jednom zhluku sú čo najpodobnejšie, najbližšie štatistické jednotky rôznych zhlukov sú navzájom čo najodlišnejšie, najvzdialenejšie zoskupiť Xi i=(1, ....n) do zhlukov c1,....cq (2 < q < n)

Zhluková analýza Postup CA výber miery podobnosti (resp. nepodobnosti) výber druhu zhlukovacieho postupu výber zhlukovacej metódy určenie počtu významných zhlukov interpretácia zhlukov

Zhluková analýza - výber miery podobnosti koeficienty asociácie koeficienty korelácie pravdepodobnostné miery miery nepodobnosti vzdialenosti – nezáporné reálne funkcie d(XY)

Zhluková analýza - vlastnosti miery vzdialenosti

Euklidovská vzdialenosť Obrázok 1: Grafické znázornenie výpočtu Euklidovskej vzdialenosti

Hammingova vzdialenosť (city-block distance) Obrázok 2: Grafické znázornenie výpočtu Hammingovej vzdialenosti

Prehľad mier vzdialenosti Euklidovská vzdialenosť Dij= (xik- xjk)2 Hammingova vzdialenosť Dij= |xik- xjk| Minkovskeho vzdialenosť Dij= (|xik- xjk|r ) 1/r Mahalanobisova vzdialenosť Dij= (Xi – Xj)' .S-1.(Xi – Xj)

Zhluková analýza výber druhu zhlukovacieho postupu hierarchický postup úplná analýza štatistického súboru výsledok možno zobraziť pomocou hierarchického grafu - dendrogramu aglomeratívny v prvom kroku je každá jednotka samostatným zhlukom v poslednom kroku sú všetky jednotky v jednom zhluku divízny v prvom kroku sú všetky jednotky v jednom zhluku v poslednom kroku každá jednotka predstavuje zhluk

Zhluková analýza výber druhu zhlukovacieho postupu nehierarchický postup vopred určený počet zhlukov iteratívny postup určenia ich stredov postupné zaraďovanie jednotiek k vybraným stredom

Všeobecný hierarchický zhlukovací postup

Zhluková analýza výber zhlukovacej metódy hierarchické – aglomeratívne metóda najbližšieho suseda (nearest-neighbor) poznáme maticu euklidovských vzdialeností vyberieme spojenie na základe min vzdialenosti nové spojenie = min dij tzv. reťaziaci efekt Grafické znázornenie vzdialenosti medzi novými zhlukmi pri metóde najbližšieho suseda

Zhluková analýza výber zhlukovacej metódy hierarchické – aglomeratívne metóda najvzdialenejšieho suseda (furthest-neighbor) poznáme maticu euklidovských vzdialeností nové spojenie = max dij vyberieme spojenie, prepočítame, atď. konzistentné, izolované zhluky Grafické znázornenie vzdialenosti medzi novými zhlukmi pri metóde najvzdialenejšieho suseda

Zhluková analýza výber zhlukovacej metódy hierarchické – aglomeratívne metóda priemernej väzby (group average) poznáme maticu euklidovských vzdialeností vzdialenosť medzi dvomi zhlukmi je vypočítaná ako priemerná min vzdialenosť prvkov

Zhluková analýza výber zhlukovacej metódy hierarchické – aglomeratívne centroidná metóda (centroid method) poznáme maticu euklidovských vzdialeností každý novovytvorený zhluk je nahradený priemerným prvkom = centroidom nové spojenie = štvorec euklidovskej vzdialenosti nevýhodou sú inverzie mediánová metóda (median method) reprezentantom zhluku je jeho medián vylepšenie centroidnej metódy

Zhluková analýza výber zhlukovacej metódy hierarchické – aglomeratívne Wardova metóda (Ward method) nepočítame maticu vzdialeností kritérium spojenia = max vnútrozhlukovej homogenity mierou homogenity ESS inicializačné spojenie znamená minimálny prírastok ESS = ΣΣ(Xij – priemXtj) 2 zhluky rovnakej veľkosti a tvaru

Zhluková analýza výber zhlukovacej metódy nehierarchické Metóda typických bodov (seeded) seed = typický predstaviteľ zhluku ostatné objekty rozdelené podľa euklidovskej vzdialenosti od seed Metóda k-priemerov celý rad modifikácii Metóda optimálnych stredov alebo medoidov medoid – optimálny stred zhluku jeho priemerná vzdialenosť k ostatným objektom v zhluku je minimálna Fuzzy zhlukovanie umožňuje zaradenie jedného objektu do viacerých zhlukov prítomnosť objektu v zhluku je daná pravdepodobnosťou, ktorá je medzi 0 a 1 – tzv. fuzifikácia zhlukovej konfigurácie väčší počet prijateľných riešení

Zhluková analýza Nehierarchické zhlukovanie využíva tri postupy: sekvenčný: najprv sa určí prvý predstaviteľ zhluku, ku ktorému sa na základe špecifikovanej vzdialenosti priradia objekty, potom sa určí druhý predstaviteľ a proces sa opakuje, paralelný: na začiatku sa určí niekoľko predstaviteľov, ku ktorým sú jednotlivé objekty priraďované paralelne, optimalizačný: podobný predchádzajúcemu postupu avšak umožňuje znovuzaradenie objektu.

Porovnanie zhlukovacích metód Hierarchické metódy: v minulosti populárnejšie (za najlepšie metódy považované Wardová, metóda priemernej väzby a centroidná metóda) rýchle, menšia spotreba stojového času a jednoduché poskytujú podrobnú štruktúru dát, nie je potrebné poznať počet zhlukov na začiatku analýzy na ich výsledky majú vplyv odľahlé pozorovania nevhodné na analýzu veľmi veľkých súborov

Porovnanie zhlukovacích metód Nehierarchické metódy: v poslednom čase sa využívajú viac vyžadujú zadanie počtu zhlukov na začiatku analýzy výsledky sú ovplyvnené praktickými znalosťami užívateľa a objektívnou teóriou, ako stanoviť predstaviteľov zhlukov nie sú natoľko ovplyvnené odľahlými pozorovaniami poskytujú viacero prijateľných alternatív štruktúry dát

Zhluková analýza určenie počtu významných zhlukov heuristický prístup ukazovatele kvality zhlukovania Štandardná odchýlka premenných tvoriacich zhluk (RMSSTD), Koeficient determinácie (RSQ), Semiparciálny koeficient determinácie (SPRSQ), Vzdialenosť zhlukov (CD).

Zhluková analýza určenie počtu významných zhlukov RMSSTD - homogenita nového zhluku malé SPRSQ – homogenita spojených zhlukov RSQ – heterogenita zhlukov vysoké CD – homogenita spojených zhlukov

Zhluková analýza určenie počtu významných zhlukov v SASe cubic clustering criterion (CCC) Vhodný počet zhlukov indikuje CCC>3, vo všeobecnosti, čím vyššie je CCC, tým lepší počet zhlukov získame. Pri hierarchickom postupe zhlukovania možno pozorovať niekoľko lokálnych, vysokých hodnôt CCC. Pri nehierarchickom zhlukovaní je pozorované veľmi odlišné globálne maximum CCC v závislosti od počiatočného určenia počtu zhlukov. Pri zošikmených rozdeleniach môže hodnota CCC nadobúdať zápornú hodnotu, pričom s počtom zhlukov jej hodnota ešte klesá. Ak CCC neustále rastie, s počtom zhlukov je možná prítomnosť reťazenia, t.j. objekty vo vnútri zhluku sú pospájané z niekoľkých zhlukov, pričom jednotlivé objekty vytvárajú medzi nimi reťaz. Pre dáta s nepravidelným tvarom alebo pre predĺžené skupiny objektov, CCC nie je vhodným kritériom na stanovenie počtu zhlukov.

Zhluková analýza interpretácia zhlukov dendrogram grafická analýza popisná štatistika hodnotiaca miera je zhlukový centroid (ťažisko zhluku) podľa jednotlivých premenných popis každého zhluku na základe sledovaných vlastností napr. podľa metód viackriteriálneho hodnotenia

Bližšie pozri: Stankovičová, Vojtková: Viacrozmerné štatistické metódy s aplikáciami, Bratislava: Iura edition, 2007, ISBN 978-80-8078-152-1