Centralna tendenca proti razpršenosti
V opisni in inferencijski statistiki se za opis podatkovnega niza, ki ustreza njegovi osrednji nagnjenosti, razpršenosti in poševnosti, uporablja več indeksov: tri najpomembnejše lastnosti, ki določajo relativno obliko porazdelitve nabora podatkov.
Kaj je osrednja tendenca?
Osrednja težnja se nanaša na in nahaja središče porazdelitve vrednosti. Srednja vrednost, način in mediana so najpogosteje uporabljeni indeksi pri opisu osrednje težnje nabora podatkov. Če je niz podatkov simetričen, se tako mediana kot srednja nabora podatkov medsebojno ujemata.
Glede na nabor podatkov se srednja vrednost izračuna tako, da se vzame vsota vseh podatkovnih vrednosti in nato deli s številom podatkov. Na primer, uteži 10 ljudi (v kilogramih) se merijo 70, 62, 65, 72, 80, 70, 63, 72, 77 in 79. Potem je lahko povprečna teža desetih ljudi (v kilogramih) izračuna na naslednji način. Vsota uteži je 70 + 62 + 65 + 72 + 80 + 70 + 63 + 72 + 77 + 79 = 710. Srednja vrednost (vsota) / (število podatkov) = 710/10 = 71 (v kilogramih). Razume se, da odstranjevalci (podatkovne točke, ki odstopajo od običajnega trenda) ponavadi vplivajo na srednjo vrednost. Tako ob prisotnosti odbitkov samostojno ne bo dalo pravilne slike o središču nabora podatkov.
Mediana je podatkovna točka, ki jo najdemo na natančni sredini podatkovnega niza. Eden od načinov za izračun mediane je, da podatkovne točke razvrstite v naraščajočem vrstnem redu in nato na sredini poiščete podatkovno točko. Na primer, če je enkrat naročeno, je prejšnji niz podatkov videti 62, 63, 65, 70, 70, 72, 72, 77, 79, 80. Zato je (70 + 72) / 2 = 71 na sredini. Iz tega je razvidno, da mediane ni treba v naboru podatkov. Prisotnost zunanjih ljudi ne vpliva na mediano. Torej bo mediana služila kot boljše merilo osrednje nagnjenosti v prisotnosti zunanjih ljudi.
Način je najpogostejša vrednost v naboru podatkov. V prejšnjem primeru se vrednosti 70 in 72 pojavita dvakrat, torej sta oba načina. To kaže, da je v nekaterih distribucijah več kot ena modalna vrednost. Če obstaja samo en način, naj bo nabor podatkov unimodalni, v tem primeru je nabor podatkov bimodalni.
Kaj je disperzija?
Disperzija je količina širjenja podatkov o središču distribucije. Domet in standardni odklon sta najpogosteje uporabljena merila disperzije.
Razpon je preprosto najvišja vrednost minus najnižja vrednost. V prejšnjem primeru je najvišja vrednost 80 in najnižja vrednost 62, torej razpon 80-62 = 18. Toda razpon ne daje dovolj slike o razpršenosti.
Za izračun standardnega odklona se najprej izračunajo odstopanja vrednosti podatkov od srednje vrednosti. Povprečna vrednost odstopanj korenskega kvadrata se imenuje standardni odklon. V prejšnjem primeru so ustrezna odstopanja od povprečja (70 - 71) = -1, (62 - 71) = -9, (65 - 71) = -6, (72 - 71) = 1, (80 - 71) = 9, (70 - 71) = -1, (63 - 71) = -8, (72 - 71) = 1, (77 - 71) = 6 in (79 - 71) = 8. Vsota kvadratni odklon je (-1)2 + (-9)2 + (-6)2 + 12 + 92 + (-1)2 + (-8)2 + 12 + 62 + 82 = 366. Standardni odklon je √ (366/10) = 6,05 (v kilogramih). Če nabor podatkov ni močno poševen, lahko na podlagi tega sklepamo, da je večina podatkov v intervalu 71 ± 6,05, v tem primeru pa je res tako..
Kakšna je razlika med osrednjo težnjo in razpršenostjo? • Osrednja težnja se nanaša na in nahaja središče porazdelitve vrednosti • Disperzija je količina širjenja podatkov o središču podatkovnega niza.
|