Outlier - kaj je to, opredelitev in koncept

Kazalo:

Anonim

Odstopanje je nenormalno in skrajno opazovanje v statističnem vzorcu ali časovni vrsti podatkov, ki lahko vpliva na oceno njegovih parametrov.

Preprosteje povedano, odstopanje bi bilo opazovanje znotraj vzorca ali časovna vrsta podatkov, ki ni v skladu z ostalimi. Predstavljajte si na primer, da merimo višino učencev v razredu.

Predstavljajmo si vzorec 10 študentov. Višina vsakega je naslednja:

Vzorec 1
ŠtudentVišina v metrih
11,65
21,80
31,72
41,68
51,75
61,85
71,62
81,79
91,82
101,69

Povprečna višina razreda bi bila 1,73. Če upoštevamo največjo višino (1,85) in najmanjšo višino (1,62) ter razdaljo med njimi do srednje vrednosti, vidimo, da znaša 0,113 oziroma 0,117. Kot lahko vidimo, je srednja vrednost približno na sredini intervala in bi jo lahko šteli za dokaj dobro oceno.

Izstopajoči učinek

Zdaj pa pomislimo na še en vzorec 10 študentov, katerih višina je naslednja:

Vzorec 1
ŠtudentVišina v metrih
11,65
21,80
31,72
41,68
52,18
62,20
71,62
81,79
91,75
101,69

V tem primeru bi bila povprečna višina razreda 1,81. Če zdaj pogledamo največjo višino (2,20) in najmanjšo višino (1,62) ter razdaljo med njimi do srednje vrednosti, vidimo, da znaša 0,39 oziroma 0,18. V tem primeru povprečje ni več približno na sredini razpona.

Učinek dveh najbolj skrajnih opazovanj (2.18 in 2.20) je povzročil premik aritmetične sredine proti največji vrednosti porazdelitve.

S tem primerom vidimo učinek izstopajočih in kako lahko izkrivijo izračun povprečja.

Kako zaznati odstopanja?

Kako popraviti učinek izstopajočih

V takih situacijah, ko obstajajo nenormalne vrednosti, ki se bistveno razlikujejo od ostalih, je mediana boljša ocena, če želimo vedeti, kdaj je koncentrirano večje število opazovanj.

V primeru obeh porazdelitev in ker imamo sodo število vrednosti, za izračun mediane ne moremo natančno vzeti vrednosti, ki razpolovi porazdelitev. S katerim bi po razvrščanju vrednosti od najnižjega do najvišjega izvedli peto in šesto opazovanje (obe puščata po 4 opazovanja na vsaki strani), mediano pa bi izračunali tako:

Vzorec 1:

1,75+1,72/2 = 1,73

Vzorec 2:

1,79+1,71/2 = 1,75

Kot lahko vidimo, je v vzorcu številka 1, glede na to, da ni nobenih odstopanj ali nenormalnih opazovanj, mediana 1,73 in sovpada s srednjo vrednostjo. Nasprotno, za vzorec 2 je povprečje 1,75. Kot lahko vidimo, je ta vrednost bolj oddaljena od srednje višine, ki je bila 1,81, in nam daje višjo oceno točke kakovosti, da približno vemo, v kateri točki je koncentrirano večje število opazovanj.

Ocena točke