Statistiniai modeliai

Statistiniai modeliai
Matematika geografijoje II dalis

Statistinė analizė Statistika yra duomenų rinkimo ir analizavimo mokslas Statistinė analizė Apibendrina sukauptus duomenis Leidžia nustatyti pagrindinius įtakos faktorius Leidžia nustatyti, ar imtys priklauso vienai populiacijai Apibrėžia, ar kintamieji tarpusavyje susiję Nustato faktorių tarpusavio įtaką Patikrina, ar analizės metodai pagrįsti ir patikimi. Statistinis modelis (pavyzdžiui, aptarnavimo srautai, gamyba) Grafikai Matematinės lygtys, kintamieji, koeficientų įverčiai Išvados apie modelio adekvatumą

Statistinių tyrimų etapai
Statistinis stebėjimas. Jo metu pagrįstai ir planingai renkami duomenys apie vienos rūšies tiriamuosius reiškinius ar objektus. Tyrimo duomenų statistinis tvarkymas: grupavimas, sisteminimas, aprašomoji statistika. Statistinė tyrimo duomenų analizė, statistinių išvadų formulavimas. Statistinės analizės rezultatai priklauso nuo pasirinktų metodų ir kriterijų. Duomenims, pasiskirsčiusiems ne pagal normalųjį dėsnį, pritaikomi specifiniai analizės metodai. Analizės tikslumą sąlygoja imčių dydžiai.

Statistinė analizė Skirstoma į dvi pagrindines šakas:
Aprašomąją statistiką, kuri Leidžia sutvarkyti ir apibendrinti tiriamas imtis Apibrėžia pagrindinius statistinius parametrus (vidurkį, dispersiją, modą, medianą, asimetriją ir ekscesą). Hipotezių analizę, priimančią ar atmetančią moksliškai pagrįstą spėjimą ar nuomonę.

Pagrindinės sąvokos Populiacija (kitaip – generalinė visuma, generalinė aibė) – visa objektų, kurie statistiškai tiriami, visuma. Būna baigtinė (tada iš principo galima ištirti visus jos objektus) begalinė (tada visų jos objektų ištirti apskritai neįmanoma). Imtis (kitaip – atranka) – tyrimui atrinktų ir ištirtų objektų aibė. Paprastai tai būna populiacijos dalis, o jeigu ištiriama visa baigtinė populiacija, tai imtis ir populiacija sutampa. Požymiai (kitaip – kintamieji, atributai) – tyrinėtoją dominantys populiacijos bei imties objektų ypatumai, kurių konkrečios reikšmės kinta. Stebėjimas (arba statistinis eksperimentas) – tiriamųjų požymių (iš)matavimas arba (su)skaičiavimas imtyje ir jų registravimas. Tai – pirminis statistinio pobūdžio informacijos šaltinis, todėl nuo jo priklauso viso tyrimo efektyvumas bei objektyvumas.

Požymiai Kokybiniai: paprastai apibūdinami juos įvardijant.
Kiekybiniai: lengvai matuojami, t. y. įvertinami vienokiais ar kitokiais matais ar skaičiavimo vienetais. Diskretieji: Galimų reikšmių skirtumai iš principo negali būti mažesni už tam tikrą „minimumą“ Tolydieji: Jų galimų reikšmių skirtumai iš principo gali būti kiek tik norint maži, reikšmės viena į kitą pereina laipsniškai, nenutrūkstamai. Todėl ir juos išmatuoti iš principo teįmanoma tiktai apytiksliai, vienokiu ar kitokiu tikslumu. Matuojant šių požymių reikšmės neišvengiamai diskretizuojamos pagal pasirinktuosius mato vienetus Kartais dar atskirai yra minimi tarpinę padėtį tarp kiekybinių ir kokybinių užimantys požymiai, vadinami ranginiais. Jie turi ir kiekybiniams, ir kokybiniams požymiams būdingų savybių. Rangai, intervalai ir pan.

Duomenų atranka Imtis iš tiesų yra susikurtas populiacijos modelis, jos eksperimentinis atitikmuo, dirbtinis analogas. Čia ir yra statistikos esmė: tirti palyginti nedidelę, ribotą imtį, o tyrimo rezultatus tikimybiškai apibendrinti visai populiacijai. Todėl svarbu, kad imtis populiaciją, iš kurios buvo paimta, atspindėtų kaip galima adekvačiau ir teisingiau. Paprastai sakoma, kad didesnio tūrio imtis esanti reprezentatyvesnė, Didėjant imčiai, artimesnė vienetui darosi tikimybė, kad šioje imtyje rastos požymių reikšmės bei jų pasiskirstymas (sklaidos po objektus ypatumai) iš esmės būtų tokios pačios, jeigu paimtume ir kitus analogiškus populiacijos objektus, šį kartą į imtį nepatekusius. Tačiau reprezentatyvumą lemia ne vien tik imties tūris (didumas), bet labiausiai – jos sudarymo principai. Dar daugiau: pernelyg didelės imtys tampa savaip problemiškos, nes tadadėl grynai formalių, matematinių priežasčių gali būti „sureikšminami“ ir iš tikrųjų menki, nežymūs skirtumai.

Imties atrankos metodai (1)
Kai populiacija nustatyta, kiekvienas jos narys yra potencialus duomenų šaltinis. Yra dvi galimybės tirti populiaciją: rinkti duomenis iš kiekvieno populiacijos individo. Tai – ištisinis tyrimas, taikomas tada, kai populiacija yra nedidelė ir lengvai nustatoma ; rinkti duomenis tik iš dalies populiacijos narių (pasirinktiniai tyrimai). Taikant šį metodą, visada padaroma paklaida. Vis tiktai, jei imtis yra sudaryta tinkamai, tai paklaida, kaip tvirtina statistikos teorija, bus labai maža, taigi mažesnės išlaidos ir pastangos kompensuos tikslumo stoką. George Gallup: “Ar norite apklausą atlikti Niujorko valstijoje, ar Baton Ružo mieste ( gyventojų), jums reikia apklausti tiek pat gyventojų. Čia nėra jokio stebuklo - kai verdami du puodai sriubos, ir vienas iš jų yra dešimt kartų didesnis už kitą, virėjui nereikia semti dešimt kartų daugiau šaukštų iš didesniojo puodo, kad nustatytų sriubos skonį.”

Imties koeficientas Populiacijos dydį žymėsime N, o imties dydį n. Kadangi imtis pagal apibrėžimą yra populiacijos dalis, tai visada n < N. Santykis n/N yra vadinamas imties koeficientu. Procentinis imties koeficientas x = n/N x 100 rodo, kad imtis sudaro x% visos populiacijos. 1 pavyzdys. Sakykime, kad populiacijos dydis N = Jei imties dydis n = 1000, imties koeficientas 1000/ = 1/500, arba 0,2%. Tai reiškia, kad kiekvienas imties narys atstovauja 500 populiacijos narių, arba imtis sudaro 0,2% visos populiacijos. 2 pavyzdys. Vėl sakykime, kad populiacijos dydis N = , 0 mums reikėtų, kad imties koeficientas būtų lygus 3%. Todėl imti es dydis turėtų būti x0,03 =

Imties paklaida Parametras yra tiksli tam tikros populiacijos charakteristikos skaitinė reikšmė, o statistika yra parametro įvertis, gautas iš imties. Imties paklaida - tai parametro ir statistikos (parametro įverčio) skirtumas. Atsitiktinė paklaida atsiranda todėl, kad statistika negali suteikti visiškai tikslios informacijos apie visą populiaciją. Atsitiktinė paklaida priklauso nuo imties dydžio. Jos išvengti neįmanoma - mes tegalime sumažinti ją iki minimumo, rūpestingai pasirinkę imti ir tinkamai nustatę imties dydį. Sisteminę paklaidą dažniausiai lemia imties iškreiptis, atsirandanti dėl netinkamo jos sudarymo. Labai sunku atsižvelgti į visus faktorius, kurie gali turėti įtakos imties reprezentatyvumui. Priešingai nei atsitiktinės paklaidos atveju, sisteminės paklaidos galima išvengti taikant tinkamus imties metodus. O imties didinimas negarantuoja imties sisteminės paklaidos mažėjimo

Imties paklaida Kai sudarant imti atsiribojama (tegu ir nesąmoningai) nuo tam tikros populiacijos dalies, sakoma, kad tyrimui kenkia imties sudarymo, arba ėmimo iškreiptis. Labiausiai tyrimai iškreipiami, kai imtis sudaroma tik iš tų individų, kurie patys prašosi i imti. Apklausoje dalyvavusių žmonių skaičiaus ir prašytq joje dalyvauti žmonių skaičiaus santykis yra vadinamas atsakymo lygmeniu Išvada bloga didelė imtis yra daug blogiau negu gera maža imtis reikia vengti ėmimo iškreipties ir neatsakymo iškreipties. Šiuolaikinių viešosios nuomonės tyrimų imties metodams yra keliami du prieštaringi reikalavimai: 1) maža imties iškreiptis ir 2) priimtina tyrimo kaina ir trukmė.

1. Kvotinė (mechaninė, proporcingoji) atranka. Kvotinė imtis turėtų atitikti visos populiacijos sudėti pagal tam tikrus požymius: imtyje turi būti tam tikras skaičius moterų ir vyrų, jaunų ir senų, gyvenančių kaime ir mieste, ir t.t. Kiekvienos grupės narių imama tiek, kad imtyje būtų išlaikytos tokios pat proporcijos, kokios yra visoje gyventojų populiacijoje. Privalumas – taip teoriškai gaunamas geras populiacijos modelis. Trūkumas – subjektyvus “svarbių” grupių parinkimas, neaišku, kiek jų turi būti.

2. Atsitiktinė atranka. Imtis sudaroma atsitiktinai parenkant individus. Pagrindinė atsitiktinės imties rūšis yra vadinamoji paprastoji atsitiktinė imtis. Ji užtikrina, kad bet kuri populiacijos narių grupė turi tokią pat galimybę patekti į imtį, kaip ir bet kuri kita, jei jos visos yra vienodo dydžio. Daugelis šiuolaikinių viešosios nuomonės apklausų atliekamos atsitiktinės imties metodais. Atsitiktinės imties pagrįstumas yra patvirtintas tiek praktine patirtimi, tiek ir matematikos teorija. Trūkumas – didelė tyrimo kaina. 3. Tipinė (sluoksninė) atranka. Pirmiausia populiacija suskirstoma į sluoksnius (vadinamuosius stratus), Tada iš kiekvieno sluoksnio imama atsitiktinė imtis. Sluoksniai dažniausiai parenkami pagal geografinįius ir demografinius kriterijus. Privalumas – nariai sugrupuojami į aiškiai apibrėžtas sritis, apklausos kaina mažesnė. Visos atrankos gali būti vienkartinės arba kartotinės. Dažnai naudojama kombinuotoji atranka, derinant įvairius metodus.

Aprašomosios statistikos elementai
Aprašomoji statistika nagrinėja šias temas: Statistinių duomenų grupavimas: grupavimo požymiai, grupavimo intervalai, grupavimų rūšys. Duomenų variacijos ir koncentracijos įvertinimas. Grafinis statistinių duomenų vaizdavimas

Duomenų vaizdavimas Diagramos – vaizdus duomenų pateikimo būdas.
Stulpelinės diagramos, jų rūšys, taikymai. Dažnių histograma. Nuokrypių nuo vidurkių stulpelinė diagrama. Procentinės sudėties vaizdavimas. Skritulinė diagrama Išskirtinės reikšmės duomenų serijoje, jų vaidmuo. Dažnai reikalingas duomenų grupavimas: charakteristikos dažnis, intervalų dažnis, procentinis dažnis. Grupavimo intervalų prireikia, kai duomenų daug ir jie įvairūs arba tolydūs (begalinė aibė reikšmių). Intervalai gali būti vienodo arba skirtingo ilgio ar apskritai paversti diskrečiais balais. Kai kintamasis tolydus, naudojamos histogramos (stulpeliai be tarpų). MS Excel elektroninės lentelės turi puikias duomenų vaizdavimo priemones.

Variacija Matavimo duomenų kitimas vadinamas variacija.
Variacija būna diskrečioji ir tolydžioji. Didėjančia ar mažėjančia tvarka surašyta požymio variacija vadinama variacine (rangų) eilute. Esant dideliam duomenų kiekiui, sudaromos vienodų ar artimų reikšmių grupės bei surašomi variantų pasikartojimo dažniai. Taip sudaroma intervalinė (pasiskirstymo) variacinė eilutė.

Pavyzdys Ribos Dažnis Nuo 0 iki 5 Nuo 5 iki 10 2 Nuo 10 iki 15 4
Dinamometrija Matavimo Nr. Jėga, kg Variacinė eilutė 1 45 8 2 33 18 3 21 20 4 32 5 26 24 6 7 9 35 10 36 34 11 12 13 Pavyzdys Ribos Dažnis Nuo 0 iki 5 Nuo 5 iki 10 2 Nuo 10 iki 15 4 Nuo 15 iki 20 16 Nuo 20 iki 25 19 Nuo 25 iki 30 9 Intervalinė variacinė eilutė

Dažnių histograma

Imtį apibūdinantys parametrai
Savaime suprantama, kad imtį apibūdinančius parametrus apskaičiuoti galima tik tada, kai tiriamieji požymiai yra kiekybiniai ir imtyje randamos jų reikšmės išreiškiamos skaičiais. duomenų padėtį apibūdinančios charakteristikos (parametrai): vidurkis, moda, mediana, kvantiliai (kvartiliai ir kitokie kvantiliai) duomenų sklaidą apibūdinančios charakteristikos: dispersija, standartinis (kitaip – vidutinis kvadratinis) nuokrypis, linijinis nuokrypis, variacijos žingsnis (plotis), variacijos (kitaip - imties kitimo) koeficientas, kvartilių skirtumas IQR ir kt. pasiskirstymo formą apibūdinančios charakteristikos.

Duomenų padėties charakteristikos (1)
Aibės plotis (variacijos žingsnis) – didžiausios ir mažiausios požymio reikšmių variacinėje eilutėje skirtumas. Moda – dažniausiai variacinėje eilėje pasitaikanti požymio reikšmė. Priklausomai nuo to, kelios požymio reikšmės imtyje vienodai dažnos, galima skirti unimodalius, bimodalius ir polimodalius pasiskirstymus. Kai dažniausios bimodalaus pasiskirstymo reikšmės yra šalia, jis laikomas unimodaliu pasiskirstymu ir jo moda apskaičiuojama kaip tų reikšmių vidurkis. Mediana – tai vidurinis narys sekos, kuri gaunama duomenų aibę sutvarkius didėjimo tvarka, kitaip tariant, ji yra n/2-toji pozicinė statistika. Jei duomenų skaičius lyginis, imamas dviejų vidurinių narių vidurkis. Mediana skaido duomenų aibę į apatinę ir viršutinę pusę.

Kvartilis – pirmasis kvartilis Q1 tai apatinės pusės mediana; Q3 - viršutinės pusės mediana. Taip duomenys padalinami į ketvirčius (gali būti įvairūs kvantiliai). Aibės plotis nėra labai gera charakteristika, jei yra išskirtinių reikšmių (pavyzdžiui, 1 studentas gavo 1 balą iš 10). Kvartilinis plotis charakterizuoja labai patikimai – tai intervalas, kuriame koncentruota 50 procentų duomenų. Grafiškai tai vaizduojama kaip dėžė (Q1, M, Q3) su “ūsais” (min, max). Pavyzdžiui, palyginti geografų ir kartografų vidutinį mėnesinį atlyginimą. Penkiaskaitė suvestinė (min, Q1, mediana, Q3, max) gerai apibūdina duomenų aibę. Nors dviejų aibių vidurkiai ir medianos gali sutapti, tai nereiškia, kad aibės “panašios”. Duomenų sklaidą galima įvertinti skaitiškai.

Vidurkis: aritmetinis, nupjautasis, geometrinis, kvadratinis ir kt. Aritmetinis vidurkis yra apskaičiuojamas sudedant reikšmes ir sumą padalijant iš tų reikšmių skaičiaus. teorinis aritmetinis vidurkis (rus. matematičeskoe ožidanije, angl. mean ar estimation empirinis aritmetinis vidurkis (rus. arifmetičeskoe srednee, angl. average). Erdvinis vidurkio ekvivalentas yra tam tikras centras (centroidas).

Duomenų sklaidos charakteristikos (3)
Standartinis nuokrypis (kitaip – vidutinis kvadratinis, angl. standard deviation) – tai tiriamojo požymio reikšmių sklaidos apibūdinimas, apibrėžiamas kaip požymio įgyjamų reikšmių ir vidurkio skirtumų kvadratų sumos vidurkis. Vietoje standartinio nuokrypio kartais naudojamas dispersijos rodiklis, kuris lygus s2. Dvimatėse sistemose sklaidos matas yra vidutinis atstumas (kartais naudojamas atstumo kvadratas ar pan.) nuo centroido.

Duomenų sklaidos charakteristikos (4)
variacijos koeficientas – vidutinio kvadratinio (standartinio) nuokrypio santykis su vidurkiu. Jei duomenys pasiskirstę pagal normalųjį skirstinį, tai 68% stebėjimų turi patekti į ±1 standartinio nuokrypio intervalą, o 5% stebėjimų skiriasi nuo vidurkio daugiau kaip ±2 standartiniai nuokrypiai. pasiskirstymo formą apibūdinančios charakteristikos: asimetrijos koeficientas ir eksceso koeficientas (normaliojo pasiskirstymo atveju).

Pavyzdys

Normalusis (Gauso) skirstinys (1)
Tolydžiųjų požymių reikšmių skirstinys (pasiskirstymo dėsnis), atitinkantis tokias sąlygas: vidurkio, modos ir medianos reikšmės sutampa, skirstinio kreivė yra simetriška, o simetrijos ašis yra ties vidurkiu, skirstinio kreivės forma priklauso nuo vidurkio ir standartinio nuokrypio (σ), normalųjį skirstinį turinčių atsitiktinių dydžių suma taip pat turi normalųjį skirstinį. Normaliojo skirstinio tikimybių tankio funkcija yra

N dėsnis labai dažnai taikomas praktikoje. Nustatyta, kad jis gerai apibūdina daugelį reiškinių: ūgį, svorį, vidutinę oro temperatūrą, matavimo paklaidas ir t.t. Tai idealizuotas matematinis modelis, taikomas analizuojant duomenis, kurie pasiskirstę apytikriai normaliai. Normalusis skirstinys dažniausiai pasitaiko kai matuojamą dydį įtakoja daug nepriklausomų veiksnių, kurių kiekvienas prideda arba atima tam tikrą reikšmės pokytį. Konkretaus pokyčio reikšmė gali turėti kitokį skirstinį, nebūtinai normalųjį.

N skirstinys aprašomas varpo formos kreive, vadinama normaliąja kreive (arba gausoide). Kreivė išsidėsčiusi virš x ašies. X ašis yra šios funkcijos grafiko asimptotė. Kreivė simetriška per vidurkį einančios statmenos tiesės atžvilgiu. Duomenų reikšmė, atitinkanti šį tašką yra ir skirstinio vidurkis, ir mediana.

Mažas standartinis nuokrypis Didelis standartinis nuokrypis

Kalbant apie normaliąją kreivę, teisingi trys teiginiai: atsitiktinio normaliai pasiskirsčiusio dydžio patekimo į intervalą [μ – σ; μ + σ] tikimybė yra 0,68; patekimo į intervalą [μ – 2σ; μ + 2σ] tikimybė yra 0,95; patekimo į intervalą [μ – 3σ; μ + 3σ] tikimybė yra 0,995. Praktiškai visas plotas po normaliąja kreive yra trijų kvadratinių nuokrypių nuo centro ribose. Taigi, jei kintamojo skirstinys normalus, tai praktiškai visos kintamojo reikšmės yra ne daugiau kaip 3σ atstumu nutolusios nuo centro. Atskirą normaliojo skirstinio atvejį, kai μ = 0, σ = 1, vadiname standartiniu normaliuoju skirstiniu.

Puasono skirstinys Diskretus skirstinys, nusakantis įvykių tikimybes įvykti per tam tikrą laiko intervalą, jeigu įvykiai vyksta pastoviu dažniu ir yra nepriklausomi vienas nuo kito. Jei per tam tikrą laiko intervalą įvyksta vidutiniškai λ įvykių, tikimybė, kad per tą laiką įvyks tiksliai k įvykių bus lygi: e yra natūrinio logaritmo pagrindas ( ), k yra neneigiamas sveikas skaičius λ yra teigiamas realusis skaičius, vidutinis įvykių skaičius per tam tikrą laikotarpį. Tarkime, kad įvykiai vyksta vidutiniškai kas 4 minutės, o mes norime apskaičiuoti skaičių įvykių, įvyksiančių per 10 minučių. Tada turėsime naudoti Puasono skirstinį su λ = 10/4 = 2.5.

Funkciniai ir koreliacijos ryšiai
Funkcinis ryšys – kai kiekvieną priežasties požymio reikšmę apytiksliai ar tiksliai atitinka pasekmės požymio reikšmės. Koreliacinis ryšys – kai vieną priežasties požymio reikšmę atitinka iš anksto nenustatytos tam tikro dydžio reikšmės, priklausančios nuo išorinių veiksnių. Statistikos metodas, tiriantis požymių tarpusavio ryšius, vadinamas koreliacijos analize.

Klasikinė koreliacija (1)
Klasikinė (Pirsono) koreliacija skaičiuojama taip: r vadinamas koreliacijos koeficientu, xi ir yi yra atskirų stebėjimų rezultatai, x ir y su brūkšneliais viršuje – šių kintamųjų vidurkiai, n – imties dydis, Sx ir Sy – jų standartiniai nuokrypiai. Pagal šią formulę gaunamas skaičius nuo -1 iki +1; teigiamos reikšmės reiškia teigiamą koreliaciją, neigiamos – neigiamą koreliaciją. Jei gaunamas 0, vadinasi, koreliacijos nėra.

Klasikinė koreliacija (2)
Pirsono koreliacijos koeficientas r gali turėti reikšmes nuo -1 iki +1 -1 yra esant atvirkštinei tiesinei priklausomybei +1 – esant tiesioginei tiesinei priklausomybei 0 – rodo koreliacinio ryšio nebuvimą.

Pirsono koreliacijos koeficientas
Koreliaciją prasminga skaičiuoti tik tiems duomenims, kurie gali būti susiję. r reikšmė Vertinimas 0,00 – 0,19 Labai silpnas tarpusavio ryšys 0,20 – 0,39 Silpnas ryšys 0,40 – 0,69 Vidutinis ryšys 0,70 – 0,89 Stiprus ryšys 0,90 – 1,00 Labai stiprus tarpusavio ryšys

Koreliacijos (sklaidos) laukas
Ūgis Kūno masė 1,86 76 1,58 62 1,78 66 1,90 79 1,80 74 1,83 1,66 60 1,73 68 y = 63.52x r = 0.89

Neparametrinė koreliacija
Spirmeno koreliacijos koeficientas skaičiuojamas, kai imtis pateikta rangais, balais ar kitais netiesioginiais vertinimais. Jis taikomas tais atvejais, kai: Viena ar abi imtys yra neparametriniai duomenys Nei viena iš parametrinių imčių nepasiskirsčiusi pagal normalųjį dėsnį d – ranginis atstumas

Pavyzdys Išsilavinimas 1 aukštasis 2 neb. aukštasis 3 aukštesnysis
4 vidurinis 5 profesinis Nuomonė 1 Visiškai sutinka 2 Labiau sutinka nei prieštarauja 3 Nei sutinka, nei nesutinka 4 Labiau nesutinka nei sutinka 5 Visiškai nesutinka

Autokoreliacija erdvėje (1)
Autokoreliacija erdvėje (spatial autocorrelation) yra erdvinis klasikinės koreliacijos atitikmuo. Pagrindinis skirtumas tas, kad autokoreliacijai erdvėje skaičiuoti naudojami stebėjimų rezultatai visada yra aiškiai erdviniai. Užuot klausus, kas atsitinka su vienu kintamuoju kintant kitam kintamajam, skaičiuojant autokoreliaciją erdvėje klausiama, kiek gretimi erdviniai vienetai panašūs vienas į kitą tam tikro kintamojo atžvilgiu. Pavyzdžiui, jei vienoje savivaldybėje gyventojų pajamos didelės, ar gretimose savivaldybėse jos taip pat didelės? Didžiausias skirtumas tarp klasikinės koreliacijos ir autokoreliacijos erdvėje skaičiavimo tas, kad skaičiuojant pastarąją būtina nurodyti erdvinių vienetų kaimynus.

Ar du erdviniai vienetai yra kaimynai, dažniausiai nustatoma vienu iš dviejų metodų: atstumo (distance) metodu ir gretimumo (contiguity) metodu. Atstumo metodas dažniausiai naudojamas analizuojant taškų išsidėstymą. Jo principas paprastas – jei atstumas tarp taškų ne didesnis už nurodytą, taškai yra kaimynai. Nurodomas atstumas priklauso nuo tiriamo reiškinio ir tyrimų konteksto. Gretimumo metodu tikrinama, ar du plotiniai erdviniai vienetai yra šalia vienas kito. Pavyzdžiui, Lietuva ir Lenkija turi bendrą valstybės sieną, taigi jos gretimos. Šiuo atveju svarbi charakteristika yra gretimumo eilė (order of contiguity).

Visi bendrą ribą su „A“ turintys erdviniai vienetai, net jei ta bendra riba yra tik kampinis taškas, laikomi 1-os gretimumo eilės vienetais ir pažymėti „A1“. Tai vadinama „valdovės gretimumu“ – pagal šachmatų valdovės figūros judėjimą. Erdviniai vienetai, tarp kurių ir vieneto „A“ yra dvi ribos, laikomi 2-os gretimumo eilės vienetais ir pažymėti „A2“. Daugiausia tyrimams naudojamas 1-os eilės gretimumas – ypač aprašomojoje analizėje, pavyzdžiui, skaičiuojant autokoreliaciją erdvėje.

Kitas gretimumo matas – „bokšto (Rook) gretimumas“ – nelaiko gretimais erdvinių vienetų, kurių bendra riba yra tik kampiniame taške. Valdovės gretimumo principas dažniausiai taikomas vektoriniams duomenims, kadangi dauguma socialinių – ekonominių – politinių erdvinių vienetų nėra kvadratiniai ar stačiakampiai. Be to, valdovės gretimumas nepažeidžia pirmojo geografijos dėsnio. Yra ir kitų gretimumo matų: kaimynai gali būti nustatomi pagal erdvinių vienetų bendrų ribų ilgį arba pagal dvikrypčius svertų koeficientus, nurodančius individų srautą iš gretimų erdvinių vienetų ir į juos; nuo pasirinkto mato priklauso erdvinės analizės rezultatai. Pavyzdžiui – bendra Lietuvos ir Latvijos valstybės siena ilgesnė negu Lietuvos ir Lenkijos, bet Lenkijos ekonomikos apimtis daug didesnė. Taigi, kaimynystės matas (ir kaimynų svarba) priklauso nuo konteksto. Tačiau dažniausiai analizei naudojamas pirmosios eilės valdovės gretimumas.

Dažniausias autokoreliacijos erdvėje matas yra Morano I: kur kintamieji n ir y yra tie patys kaip ir ankstesnėje formulėje, o wij yra erdvinių vienetų erdvinių kaimynų matrica. Ši formulė gana sudėtinga ir ją suprasti kol kas nėra būtina, nes dauguma programų, tarp jų ir ArcGIS, atliks šiuos skaičiavimus už jus. Svarbu atkreipti dėmesį, kad Morano I ir klasikinės autokoreliacijos formulės panašios. Pagrindinis skirtumas tas, kad skaičiuojant autokoreliaciją erdvėje analizuojamas tik vienas kintamasis. Autokoreliacija erdvėje – tai ne kintamųjų, o erdvinių vienetų koreliacija.

Morano I reikšmių intervalas yra nuo -1 iki +1, kaip ir klasikinės koreliacijos. Jei Morano I lygi nuliui, reiškia, kad autokoreliacijos erdvėje nėra, jei didesnė už nulį – autokoreliacija erdvėje teigiama, jei mažesnė už nulį – autokoreliacija erdvėje neigiama. Taigi, jei autokoreliacija erdvėje teigiama (dažniausias atvejis tiriant socialinius – ekonominius – politinius erdvinius vienetus), tai kaimyninių erdvinių vienetų reikšmės panašios. O jei autokoreliacija erdvėje neigiama, kaimyninių erdvinių vienetų reikšmės skirtingos.

Hipotezių tikrinimas Hipotezių tikrinimo procedūrą sudaro šie pagrindiniai žingsniai: 1. Hipotezių formulavimas; 2. Statistinio reikšmingumo lygmens parinkimas; 3. Statistinio kriterijaus(testo) skaičiavimas; 4. Sprendimo priėmimas (išvadų formulavimas). Suformuluotos hipotezės tiksliai ir lakoniškai išreiškia spėjimus apie tiriamą objektą. Tai vienas didžiausių matematinės statistikos privalumų.

Analizės pavyzdys Iškelta hipotezė: kofeinas teigiamai veikia organizmo psichomotorinę reakciją. Tiriamųjų kiekis 20 asmenų dalijamas į dvi grupes po 10: kontrolinę ir eksperimentinę grupes. Eksperimentinei grupei leidžiami kofeino preparatai, kontrolinei – ne. Imtis 20 10 KOFEINAS Test 1 Test 2 E K Ar Test1 rezultatai geresni, negu Test2?

Testo rezultatai Reakcijos laikas, ms Be Su 259 201 275 198 304 245
285 287 288 190 314 250 291 295 231 246

Jei reikšmės didesnės, negu p (p=0,05), pasiskirstymas artimas normaliajam

Hipotezės iškėlimas Nulinė hipotezė – tai spėjimas apie skirtumų nebuvimą. Ji žymima H0 ir vadinama nuline todėl, kad spėjama jog skirtumas lygus nuliui (arba skirtumas yra atsitiktinis ir nereikšmingas) Alternatyvi hipotezė – priešinga nulinei. Tai spėjimas apie egzistuojančius skirtumus, kurių negalima paaiškinti atsitiktiniais svyravimais. Ji žymima H1. Alternatyvi hipotezė dažniausiai yra tai, ką mes norime įrodyti. Nulinė hipotezė H0 – kofeinas neturi įtakos reakcijos laikui. (Testų, atliktų po bandymo, rezultatai statistiškai reikšmingai nesiskiria). Alternatyvioji hipotezė H1 – kofeinas turi esminės įtakos reakcijos laikui. (Testų, atliktų po bandymo, rezultatai statistiškai reikšmingai skiriasi).

Statistinio reikšmingumo lygmuo
Hipotezę atmetame, jei atsitinka tai, kas, esant teisingai hipotezei, atsitikti praktiškai negalėjo. “Praktiškai negalėjo” reiškia kad tokio įvykio tikimybė yra labai maža. Tam įvedama reikšmingumo lygmens sąvoka. Reikšmingumo lygmuo paprastai žymima α raide, α>0. Jei įvykio tikimybė mažesnė už α, praktiškai jis įvykti negali. Tikrindami hipotezę darome eksperimentą ir hipotezę atmetame jei įvyko įvykis, kurio pasirodymo tikimybė mažesnė už α. Taikomojoje statistikoje reikšmingumo lygmuo dažnai išreiškimas procentais. Duomenų analizės programose skaičiuojamas mažiausias reikšmingumo lygmuo su kuriuo teisinga nulinė hipotezė gali būti atmesta turimiems duomenims.

Statistinio reikšmingumo lygmenys (klaidos tikimybės interpretacija)
Žymėjimas α>0,05 Mažai arba visai nėra reikšmingų įrodymų prieš H0 ns (non-significant) α≤0,05 Vidutiniškai reikšmingi įrodymai prieš H0 * α≤0,01 Labai aiškūs įrodymai prieš H0 ** α≤0,001 Ypač reikšmingi įrodymai prieš H0 ***

Statistinis kriterijus
Tai funkcija, kuri naudojama tikimybiškai įvertinti nulinės hipotezės teisingumą ar klaidingumą. Visas galimas statistinio kriterijaus reikšmes sudaliname į dvi grupes: a) pirmoji sritis, į kurią patekus apskaičiuoto kriterijaus reikšmei, hipotezė atmetama; b) antroji, į kurią patekus apskaičiuoto kriterijaus reikšmei, hipotezės atmesti negalime, t.y. hipotezė priimama. Skaičiai C1, C2, …, kurie atskiria hipotezės atmetimo ir neatmetimo sritis, vadinami kritinėmis reikšmėmis.

Sprendimo priėmimas (išvadų formulavimas)
Sprendimo priėmimo taisyklė tokia: Jei apskaičiuota (empirinė) statistinio kriterijaus reikšmė patenka į kritinę sritį, hipotezė atmetama. Jei apskaičiuota (empirinė) statistinio kriterijaus reikšmė nepatenka į kritinę sritį, hipotezė neatmetama (priimama). Skaičiuojant kompiuteriu, pateikiama statistinio kriterijaus reikšmė ir stebimasis reikšmingumo lygmuo p-level. Šiuo atveju sprendimo priėmimo taisyklė tokia: Jeigu stebimasis reikšmingumo lygmuo p-level yra mažesnis už pasirinktą α (p-level < α), nulinė hipotezė atmetama. Jeigu apskaičiuotas stebimasis reikšmingumo lygmuo p-level yra didesnis arba lygus α (p-level ≥ α), nulinė hipotezė neatmetama (priimama).

Stjudento t-kriterijus (t-testas)
Jo naudojimui būtinos šios sąlygos: Abi imtys pasiskirstę pagal normalųjį dėsnį. Imtys atrinktos atsitiktiniu būdu. Imčių dispersija apytiksliai vienoda. Duomenys imtyse parametriniai – išreikšti matavimo vienetais ar jų santykiu. Yra trys taikymo versijos: susietoms imtims, nesusietoms imtims su vienodomis arba skirtingomis dispersijomis.

Pirsono 2 kriterijus Chi kvadratu kriterijus tinka tikrinti sąryšio buvimui tarp duomenų kategorijų. Funkcija CHITEST (stebėti dažniai, tikėtini dažniai) Gautas skaičius reiškia, tikimybę, kad suklysime atmesdami hipotezę H1, teigiančią, kad duomenys priklausomi. Jei skaičius pakankamai didelis, nėra pagrindo atmesti H0 hipotezę.Standartinė CHITEST funkcijos reikšmė, nuo kurios pradedama atmesti nulinę hipotezę, yra 0,05.

Pirsono 2 kriterijus Stebėti dažniai Nuomonė apie vykdomas reformas:
H0 – tarp lyties ir nuomonės (pritarimo ar nepritarimo) ryšio nėra, t. y., vyrai ir moterys vienodai tiek pritaria, tiek nepritaria reformoms. H1 – tarp lyties ir nuomonės ryšys yra, t. y. vyrų ir moterų nuomonės skiriasi. Stebėti dažniai Lytis Nepritaria Pritaria Iš viso Vyrai 147 562 709 Moterys 89 632 721 236 1194 1430

Pirsono 2 kriterijus Tikėtini dažniai Lytis Nepritaria Pritaria Vyrai
Mote- rys

Pirsono 2 kriterijus - tikrieji (stebėti) dažniai;
- tikėtini dažniai; 2=

Pirsono 2 kriterijus Išvadų formulavimas
Hipotezė apie kintamųjų nepriklausomumą yra atmetama, kai apskaičiuota 2 reikšmė yra didesnė už 2 skirstinio su (s-1)(t-1) laisvės laipsnių  lygmens kritinę reikšmę. Kritinę reikšmę galima rasti matematinėse lentelėse, kurios (skirstinio α lygmens kritinė reikšmė).

Vietos koeficientas (1)
Vietos koeficientas (location quotient) yra aprašomasis matas, statistikoje pradėtas naudoti gana neseniai. Nuo penktojo dešimtmečio pradėtas naudoti ekonominėje geografijoje užimtumui arba pramonės specializacijai matuoti, pastaruoju metu dažnai naudojamas erdvinėje nusikalstamumo analizėje. Šį koeficientą gerai žino geografai: jis nurodo tam tikro aktyvumo dalies viename erdviniame vienete santykį su tuo paties aktyvumo dalimi visame regione. Jis atspindi šio aktyvumo padidėjimą arba sumažėjimą ir labai praverčia atliekant bet kokią analizę, skirtą nustatyti regionams, kuriuose tam tikras aktyvumas pasireiškia labiau negu kituose. Vietos koeficientą galima naudoti tiriant bet kokį reiškinį, kuris įvairiose vietose vyksta skirtingai – tai yra, praktiškai bet kokią žmonių veiklą.

Tarkime, kad turime nusikalstamumo Lietuvos savivaldybėse duomenis. Vietos koeficientas skaičiuojamas taip: kur Cin yra i tipo nusikaltimų skaičius erdviniame vienete n, Ctn – visų nusikaltimų skaičius erdviniame vienete n, o N – erdvinių vienetų skaičius. Šiame pavyzdyje vietos koeficientas yra konkretaus nusikaltimų tipo tam tikroje Lietuvos savivaldybėje dalies santykis su to paties nusikaltimų tipo dalimi visoje Lietuvoje. Jei vietos koeficientas lygus vienetui, šiai savivaldybei tenka proporcinga tam tikro tipo nusikaltimų dalis; jei vietos koeficientas didesnis už vienetą, šio tipo nusikaltimų savivaldybėje neproporcingai daug; jei vietos koeficientas mažesnis už vienetą, savivaldybėje šių nusikaltimų dalis neproporcingai mažesnė.

Daugumoje Lietuvos savivaldybių įsilaužimai nėra didelė problema Yra kelios savivaldybės, kuriose įsilaužimų skaičius gana didelis, bet daugumoje Lietuvos savivaldybių jie nėra didelė problema.

Vietos koeficientas parodo kitokį įsilaužimų vaizdą.

Aiškiai išsiskiria kelios savivaldybės (raudonos), kuriose šių nusikaltimų dalis didesnė negu visoje Lietuvoje. Nors daugumoje iš jų didesnis ir įsilaužimų skaičius, bet ne visose. Šis nusikalstamumas nestipriai dominuoja (oranžinė spalva) daugelyje savivaldybių, kuriose nusikalstamumas mažas. Tai nereiškia, kad šiose savivaldybėse nesaugu – nusikaltimų daroma visur ir visada, – tai rodo, kad vienose savivaldybėse įsilaužimai populiaresni negu kitose. Vietos koeficiento informacija svarbi formuojant politiką; ji rodo, kad šiose savivaldybėse esamos policijos ir nusikaltimų prevencijos pajėgos daugiau dėmesio turėtų skirti įsilaužimams – tai nereiškia, kad pačių šių pajėgų reikia daugiau.

Erdvinės statistikos (1)
Atliekamos su rastriniais sluoksniais, kuriuos sudaro gardelės, pasižyminčios skirtingomis atributų reikšmėmis Loginėse funkcijose dažnai naudojamos ne tik aritmetinės, bet ir loginės (AND, OR, XOR, NOT ir pan.) bei palyginimo (pvz., >, <, = ) operacijos. Pavyzdžiui, galima, iš penkių įvesties rastrų, vaizduojančių kritulių kiekius per penkerius metus iš eilės, sudaryti vieną, vaizduojantį didžiausią metinį kritulių kiekį kiekvienoje gardelėje.

Vietinė statistika lygina ir sumuoja tik atitinkamas įvesties rastrų gardeles (t. y. analizė atliekama po vieną gardelę). maksimumas – nustato didžiausias atitinkamų įvesties rastrų gardelių reikšmes; minimumas – nustato mažiausias atitinkamų įvesties rastrų gardelių reikšmes; dauguma – nustato, kuri reikšmė atitinkamose įvesties rastrų gardelėse dažniausia; mažuma – nustato, kuri reikšmė atitinkamose įvesties rastrų gardelėse rečiausia; suma – skaičiuoja atitinkamų įvesties rastrų gardelių sumas; vidurkis – skaičiuoja vidutines atitinkamų įvesties rastrų gardelių reikšmes (vidurkius); mediana – skaičiuoja vidurines atitinkamų įvesties rastrų gardelių reikšmes (pusė reikšmių mažesnės, pusė – didesnės); standartinis nuokrypis – skaičiuoja atitinkamų įvesties rastrų gardelių standartinį nuokrypį; intervalas – nustato atitinkamų įvesties rastrų gardelių reikšmių intervalą (nuo mažiausios iki didžiausios reikšmės); įvairovė – nustato, kiek skirtingų reikšmių yra atitinkamose įvesties rastrų gardelėse.

Židinio statistika. Židinio (arba kaimynystės) funkcijų aprėptis platesnė negu vietinių ta prasme, kad nustatant išvesties rastro gardelės reikšmę atsižvelgiama ir į nustatytoje kaimynystėje esančių gardelių reikšmes. Panašiai kaip vykdant vietinę funkciją, imamos gardelės po vieną (jos tampa židinio gardelėmis) tol, kol apdorojamos visos rastro gardelės. Skirtumas nuo vietinės kelių rastrų funkcijos tas, kad nustatydama išvesties sluoksnio reikšmes židinio funkcija atsižvelgia ir į aplinkinių gardelių reikšmes. Židinio sumos statistika

Zoninė statistika. Zoninės funkcijos atlieka operacijas su vieno rastro gardelėmis, patenkančiomis į zonas, sudarytas iš vienodų kito rastro gardelių. Zoną sudaro vienodas reikšmes turinčios gardelės. Zonos gali būti vientisos arba nevientisos. Baseinų zoninė statistika

Statistiniai modeliai

Παρόμοιες παρουσιάσεις

Παρουσίαση με θέμα: "Statistiniai modeliai"— Μεταγράφημα παρουσίασης:

Παρόμοιες παρουσιάσεις

Σχετικά με το έργο

Σχόλια

Είσοδος

Σύνδεση μέσω των κοινωνικών δικτύων:

Statistiniai modeliai

Παρόμοιες παρουσιάσεις

Παρουσίαση με θέμα: "Statistiniai modeliai"— Μεταγράφημα παρουσίασης:

Παρόμοιες παρουσιάσεις

Σχετικά με το έργο

Σχόλια