Standardni odklon in variance so statistični ukrepi razpršenosti
Formula za standardno odstopanje in odstopanje je pogosto izražena z uporabo:
Varijanca niza n enako verjetne vrednosti lahko zapišemo kot:
Standardni odklon je kvadratni koren variance:
Formule z grškimi črkami so videti zastrašujoče, vendar je to manj zapleteno, kot se zdi. Povedano v preprostih korakih:
To daje variacijo. Vzemite kvadratni koren variance in poiščite standardni odklon.
Ta odličen video z Akademije Khan razlaga koncepte variacije in standardnega odklona:
Recimo, da podatkovni niz vključuje višino šestih maslačkov: 3 palce, 4 palce, 5 palcev, 4 palce, 11 palcev in 6 palcev.
Najprej poiščite sredino podatkovnih točk: (3 + 4 + 5 + 4 + 11 + 7) / 6 = 5,5
Torej povprečna višina je 5,5 palca. Zdaj potrebujemo odklone, zato ugotovimo razliko vsake rastline od povprečja: -2,5, -1,5, -,5, -1,5, 5,5, 1,5
Zdaj kvadrat vsako odstopanje in poiščite njihovo vsoto: 6,25 + 2,25 + .25 + 2,25 + 30,25 + 2,25 = 43,5
Zdaj delite vsoto kvadratov na število podatkovnih točk, v tem primeru rastline: 43,5 / 6 = 7,25
Torej, varianca tega nabora podatkov znaša 7,25, kar je precej poljubno število. Če ga želite pretvoriti v meritev v realnem svetu, vzemite kvadratni koren 7,25 in poiščite standardni odklon v palcih.
Standardni odklon je približno 2,69 palca. To pomeni, da je za vzorec vsaka marjetica v vrednosti 2,69 cm od povprečne vrednosti (5,5 palca) "normalna".
Odstopanja so kvadratna, da preprečimo, da bi negativne vrednosti (odstopanja pod povprečjem) preklicale pozitivne vrednosti. To deluje, ker negativno število kvadratov postane pozitivna vrednost. Če ste imeli preprost nabor podatkov z odstopanjem od povprečja +5, +2, -1 in -6, se vsota odstopanj izkaže kot nič, če vrednosti niso kvadratne (tj. 5 + 2 - 1 - 6 = 0).
Variacija je izražena kot matematična disperzija. Ker gre za poljubno število glede na izvirne meritve nabora podatkov, ga je težko predstaviti in uporabiti v resničnem smislu. Iskanje variacije je običajno le zadnji korak, preden ugotovimo standardni odklon. Vrednosti odstopanj se včasih uporabljajo v finančnih in statističnih formulah.
Standardni odklon, ki je izražen v izvirnih enotah nabora podatkov, je veliko bolj intuitiven in bližje vrednosti izvirnega nabora podatkov. Najpogosteje se uporablja za analizo demografskih podatkov ali vzorcev populacije, da bi dobili občutek, kaj je normalno v populaciji.
Pri normalni porazdelitvi približno 68% populacije (ali vrednosti) spada pod 1 standardno deviacijo (1σ) od povprečne vrednosti, približno 94% pa pod 2σ. Vrednosti, ki se razlikujejo od povprečja za 1.7σ ali več, se običajno štejejo za odpuščene.
V praksi sistemi kakovosti, kot je Six Sigma, poskušajo zmanjšati število napak, tako da napake postanejo bolj zunanje. Izraz "šest sigma proces" izhaja iz pojma, da če ima šest standardnih odstopanj med povprečjem procesa in najbližjo mejo specifikacije, praktično noben element ne bo ustrezal specifikacijam.[1]
V aplikacijah v resničnem svetu uporabljeni nabori podatkov ponavadi predstavljajo vzorce prebivalstva in ne celotne populacije. Za delne vzorce se uporabi rahlo spremenjena formula.
"Vzorec standardnega odklona" se uporablja, če imate samo vzorec, vendar želite dati izjavo o standardnem odmiku populacije, iz katerega je odvzet vzorec
Edina različica formule standardnega odmika vzorca od formule standardnega odstopanja je v imenovalcu "-1".
Z uporabo primera za prhljaj bi bila ta formula potrebna, če bi vzorčili samo 6 maslačkov, vendar smo želeli uporabiti ta vzorec, da bi navedli standardno odstopanje za celotno polje z več stotinami..
Vsoto kvadratov bi zdaj delili s 5 namesto 6 (n - 1), kar daje odstopanje 8,7 (namesto 7,25) in vzorčni standardni odklon 2,95 palca, namesto 2,69 palca za prvotni standardni odklon. Ta sprememba se uporablja za iskanje meje napake v vzorcu (v tem primeru 9%).