Statistični znak - kaj je, opredelitev in pojem

Kazalo:

Anonim

Statistični vzorec je podskupina podatkov, ki pripada populaciji podatkov. Statistično gledano mora biti sestavljen iz določenega števila opažanj, ki ustrezno predstavljajo skupne podatke.

Statistika je kot veja matematike odgovorna za zbiranje podatkov, njihovo razvrščanje in analizo. Z drugimi besedami, ko želimo preučiti določen pojav, se obrnemo na statistiko. Dober primer pojava, ki ga preučujejo statistike, je povprečna plača državljanov države

V tem smislu zaradi časa in stroškov ne moremo zbrati vseh podatkov. Ta skupnost podatkov je tisto, kar imenujemo populacija podatkov ali preprosto populacija.

Zakaj delate s statističnimi vzorci?

Da bi razložili, zakaj se namesto celotne populacije uporablja statistični vzorec, se bomo zatekli k zgornjemu primeru.

Recimo, da želimo preučiti kateri koli pojav. V našem primeru je ta pojav povprečna plača državljanov države. Podatkovno populacijo sestavlja vsak delavec v državi. Seveda zaradi časa in stroškov nemogoče vprašati vsakega delavca, kolikšna je njegova letna plača. Trajalo bi dolgo ali pa bi potrebovali veliko sredstev.

Na tej točki se pojavi koncept statističnega vzorca. Namesto da bi vprašali milijone delavcev v državi ali regiji, zbiramo le majhno količino podatkov. Na primer, vprašali smo 100.000 ljudi. Ta naloga je še vedno zapletena, vendar je veliko ugodneje vprašati 100.000 ljudi kot pa 30 milijonov.

Ta majhna količina podatkov mora biti reprezentativna. To pomeni, da mora ustrezno zastopati prebivalstvo. Če je 100.000 ljudi, ki smo jih vprašali, skoncentriranih v bogatih soseskah, bomo dobili podatke, ki niso reprezentativni. Povprečna plača bi bila veliko višja, kot je v resnici.

Značilnosti reprezentativnega statističnega vzorca

Če želite dobro raziskati, je kakovost statističnega vzorca bistvenega pomena. Neuporabno je izvajati najbolj zapletene statistične metrike z najsodobnejšimi modeli, če je statistični vzorec pristranski. Se pravi, če vzorec ni reprezentativen.

Pri pridobivanju reprezentativnega vzorca mora raziskovalec vnaprej vedeti nekatere vidike. Med temi vidiki so značilnosti reprezentativnega vzorca. Značilnosti reprezentativnega vzorca so naslednje:

  • Dovolj velika velikost: Ko delamo z vzorci, običajno delamo s količino podatkov, ki je manjša od populacije. Da pa je statistični vzorec reprezentativen, mora biti dovolj velik, da ga lahko štejemo za reprezentativnega. Če na primer našo populacijo sestavlja 10 milijonov podatkov in izberemo 10, je težko reprezentativna. Seveda večji vzorec ni vedno bolj reprezentativen.
  • Naključnost: Izbira podatkov iz statističnega vzorca mora biti naključna. To pomeni, da mora biti popolnoma naključno. Če namesto naključnega izvajanja načrtujemo postopek izbire podatkov, uvajamo pristranskost pri zbiranju podatkov. Da bi se izognili pristranskosti in zato, da bi bil reprezentativen vzorec, moramo narediti naključno izbiro.

Statistično sklepanje

Ko dobimo reprezentativni vzorec, moramo sklepati na določene meritve. Pogosto nas zanima poznavanje določene mere spremenljivke. V začetnem primeru bi bila spremenljivka plača državljanov države. V tem smislu je metrika, ki jo želimo analizirati, povprečna plača državljanov države.

Z drugimi besedami, imamo podatkovno populacijo, ki jo sestavljajo vsi delavci v Mehiki. Iz te populacije dobimo spremenljivko, to je letno plačo. Z ustreznimi tehnikami dobimo reprezentativni vzorec. In končno, ko imamo nabor podatkov, s katerim lahko delamo, za izračun povprečne plače uporabimo tehnike statističnega sklepanja.

Ko imamo nabor podatkov, lahko seveda sklepamo na druge ukrepe. Na primer, kako se razdeli plača, kolikšen odstotek delavcev je pod določeno plačo ali kako velika je razlika v plači.

Primer statističnega vzorca

Recimo, da želimo izvesti študijo o povprečnih izdatkih kolumbijskih družin v mesecu januarju. Za to imamo dve možnosti:

  1. Vnesite bančne račune vseh družin v Kolumbiji
  2. Vprašajte reprezentativno število ljudi

Prva možnost ni izvedljiva iz več razlogov. Prvič, da se družine ne bodo odpovedale svojim podatkom in drugič, da tudi družina, ki gleda podatke, ne bi mogla iti družino. Predvsem zato, ker je število prebivalcev Kolumbije blizu 50 milijonov. Medtem je druga možnost zbiranja statističnega vzorca.

Po zgoraj omenjenih značilnostih bomo vprašali 100.000 družin. Je nekoliko zapleteno, a veliko lažje kot vprašati 50 milijonov Kolumbijcev. Razlika je precejšnja. Tako bomo na podlagi vzorca 100.000 družin poskusili izračunati povprečne izdatke družin v januarju.

Zajeti podatki bodo bolj ali manj zanesljivi v skladu z vrsto meritev, ki se upoštevajo pri statističnih raziskavah. Seveda so te vrste meritev bolj napredne in jih zato ne bomo obravnavali tukaj.