V statistiki se izraz vzorčenje nanaša na izbiro dela zbirnih statističnih podatkov z namenom pridobitve ustreznih informacij o celoti. Skupne ali celotne statistične informacije o določenem značaju vseh članov, zajetih v preiskavi, se imenujejo "populacija" ali "vesolje". (Das, N.G., 2010). Izbrani del populacije, ki se uporablja za pridobivanje značilnosti prebivalstva ali vesolja, se imenuje "vzorec". Število populacije je sestavljeno iz posameznih enot ali članov, nekatere enote pa so vključene v vzorec. Skupno število enot populacije se imenuje velikost populacije, število vzorca pa v velikosti vzorca. Prebivalstvo in vzorec sta lahko dokončna ali neskončna, podobno pa sta lahko tudi hipotetična.
Varianta: Varianta je številčna vrednost, ki prikazuje, kako široko se posamezne številke v naboru podatkov porazdelijo o srednji vrednosti. Tako je oddaljena vsaka številka od povprečja in s tem drug od drugega. Variacija ničelne vrednosti pomeni, da so vsi podatki enaki. Bolj kot varianta, bolj se vrednosti razprostirajo glede na sredino, torej drug od drugega. Manj je odstopanja, manj je vrednosti, ki se razprostirajo glede na srednjo vrednost, torej ena od druge in varianca ne more biti negativna.
Glavna razlika med variacijo populacije in varianto vzorca se nanaša na izračun variance. Odstopanje se izračuna v petih korakih. Najprej se izračuna povprečna vrednost, nato izračunamo odstopanja od srednje vrednosti, tretjič odstopanja so kvadratna, četrtič se odkloni kvadrata seštejejo in na koncu ta vsota razdeli na število postavk, za katere se izračuna odstopanje. Tako je variacija = Σ (xi-x -) / n. Kjer je xi = ith. Število, x- = povprečje in n = število predmetov…
Zdaj, ko je treba odstopanje izračunati iz podatkov o prebivalstvu, je n enako številu postavk. Če torej izračunamo odstopanje krvnega tlaka vseh 1000 ljudi iz podatkov o krvnem tlaku vseh 1000 ljudi, potem n = 1000. Če pa je odstopanje izračunano iz vzorčnih podatkov 1, je treba odšteti od n, preden delimo vrednost vsota kvadratnih odstopanj. Torej v zgornjem primeru, če ima vzorčni podatek 100 postavk, bo imenovalec 100 - 1 = 99.
Zaradi tega je vrednost variacije, izračunana iz vzorčnih podatkov, višja od vrednosti, ki bi jo lahko ugotovili z uporabo populacijskih podatkov. Logika tega je nadomestiti naše pomanjkanje informacij o podatkih prebivalstva. Nemogoče je ugotoviti varianto višin v človeških bitjih, za naše absolutno pomanjkanje informacij o višinah vseh živih človeških bitij, da ne govorimo o prihodnosti. Tudi če vzamemo en zmeren primer, na primer podatke o prebivalstvu o višini vseh živih moških v ZDA, je to fizično možno, vendar bi stroški in čas, ki so vpleteni v to, premagali namen izračuna. To je razlog, da se vzorci odvzamejo za večino statističnih namenov, kar spremlja pomanjkanje informacij o večini podatkov. Da bi to nadoknadili, sta vrednost variance in standardnega odklona, ki je kvadrat korenine variance, v primeru vzorčnih podatkov višja kot odstopanja od podatkov o populaciji..
To deluje kot avtomatski ščit za analitike in odločevalce. Logika velja za odločitve o kapitalskih proračunih, osebnih in poslovnih financah, gradbeništvu, upravljanju prometa in številnih veljavnih področjih. To pomaga imetniku delnic, da je med sprejemanjem odločitev ali drugih sklepov na varni strani.
Povzetek: Variance populacije se nanašajo na vrednost variance, ki se izračuna na podlagi podatkov o populaciji, varianta vzorca pa je varianca, izračunana iz vzorčnih podatkov. Zaradi te vrednosti imenovalca v formuli variance v primeru vzorčnih podatkov je „n-1“, za podatke populacije pa „n“. Zaradi tega sta odstopanje in standardni odklon, dobljeni iz vzorčnih podatkov, več kot tistih, ugotovljenih iz podatkov o populaciji.