Outlier - kaj je to, opredelitev in koncept

Odstopanje je nenormalno in skrajno opazovanje v statističnem vzorcu ali časovni vrsti podatkov, ki lahko vpliva na oceno njegovih parametrov.

Preprosteje povedano, odstopanje bi bilo opazovanje znotraj vzorca ali časovna vrsta podatkov, ki ni v skladu z ostalimi. Predstavljajte si na primer, da merimo višino učencev v razredu.

Predstavljajmo si vzorec 10 študentov. Višina vsakega je naslednja:

Vzorec 1
ŠtudentVišina v metrih
11,65
21,80
31,72
41,68
51,75
61,85
71,62
81,79
91,82
101,69

Povprečna višina razreda bi bila 1,73. Če upoštevamo največjo višino (1,85) in najmanjšo višino (1,62) ter razdaljo med njimi do srednje vrednosti, vidimo, da znaša 0,113 oziroma 0,117. Kot lahko vidimo, je srednja vrednost približno na sredini intervala in bi jo lahko šteli za dokaj dobro oceno.

Izstopajoči učinek

Zdaj pa pomislimo na še en vzorec 10 študentov, katerih višina je naslednja:

Vzorec 1
ŠtudentVišina v metrih
11,65
21,80
31,72
41,68
52,18
62,20
71,62
81,79
91,75
101,69

V tem primeru bi bila povprečna višina razreda 1,81. Če zdaj pogledamo največjo višino (2,20) in najmanjšo višino (1,62) ter razdaljo med njimi do srednje vrednosti, vidimo, da znaša 0,39 oziroma 0,18. V tem primeru povprečje ni več približno na sredini razpona.

Učinek dveh najbolj skrajnih opazovanj (2.18 in 2.20) je povzročil premik aritmetične sredine proti največji vrednosti porazdelitve.

S tem primerom vidimo učinek izstopajočih in kako lahko izkrivijo izračun povprečja.

Kako zaznati odstopanja?

Kako popraviti učinek izstopajočih

V takih situacijah, ko obstajajo nenormalne vrednosti, ki se bistveno razlikujejo od ostalih, je mediana boljša ocena, če želimo vedeti, kdaj je koncentrirano večje število opazovanj.

V primeru obeh porazdelitev in ker imamo sodo število vrednosti, za izračun mediane ne moremo natančno vzeti vrednosti, ki razpolovi porazdelitev. S katerim bi po razvrščanju vrednosti od najnižjega do najvišjega izvedli peto in šesto opazovanje (obe puščata po 4 opazovanja na vsaki strani), mediano pa bi izračunali tako:

Vzorec 1:

1,75+1,72/2 = 1,73

Vzorec 2:

1,79+1,71/2 = 1,75

Kot lahko vidimo, je v vzorcu številka 1, glede na to, da ni nobenih odstopanj ali nenormalnih opazovanj, mediana 1,73 in sovpada s srednjo vrednostjo. Nasprotno, za vzorec 2 je povprečje 1,75. Kot lahko vidimo, je ta vrednost bolj oddaljena od srednje višine, ki je bila 1,81, in nam daje višjo oceno točke kakovosti, da približno vemo, v kateri točki je koncentrirano večje število opazovanj.

Ocena točke

Priljubljene Objave

John Locke - biografija, kdo je in kaj je počel

John Locke je bil britanski mislec, ki je živel v 17. stoletju. Pokazal je zanimanje za različne discipline, med drugim za filozofijo, politiko, medicino in eksperimentalne znanosti. John Locke se je rodil v Wringtonu leta 1632. Študiral je v Christ Church v Oxfordu. Po koncu študija je tam ostal, da bi poučeval grščino in retoriko. Živel v enem Preberite več…

Ronald Coase - biografija, kdo je on in kaj je počel

Ronald Coase (1910-2013), rojen v Združenem kraljestvu, je bil ekonomist, ki je bil priznan predvsem zato, ker je leta 1991 prejel Nobelovo nagrado. Ta nagrada mu je bila podeljena za njegov prispevek k pomembnosti transakcijskih stroškov in lastninskih pravic za delovanje s trga. Coase je opazil, da v resničnem svetu izmenjava Preberite več…