Odkrijte izstopajoče s pomočjo običajne porazdelitve

Kazalo:

Odkrijte izstopajoče s pomočjo običajne porazdelitve
Odkrijte izstopajoče s pomočjo običajne porazdelitve
Anonim

Odkrivanje odstopanj s pomočjo običajne porazdelitve je postopek, ki vključuje določitev praga standardnega odklona in s katerim naj bi našli ekstremne vrednosti vzorca.

Z drugimi besedami, odkrivanje odstopanj z normalno distribucijo pomeni iskanje ekstremnih vrednosti nabora podatkov s standardizirano normalno formulo.

  • Vrednosti skrajnosti se imenujejo odstopanja v angleščini.
  • Vrednosti notranje se imenujejo insajderji v angleščini.

Če imate zelo malo podatkov, je lahko vizualno odkrivanje izstopajočih možnosti. Pri delu z bazami podatkov je zelo nepraktično, če bi morali ročno iskati izstopajoče vrednosti. Za rešitev tega problema lahko s primerjavo s pragom odstopanj izračunamo, katere vrednosti se štejejo za ekstremne.

V primeru normalne porazdelitve se vrednost šteje za skrajno, če je od povprečja oddaljena 3 standardne deviacije. Ker ima običajna porazdelitev dva repa, moramo upoštevati, da jo lahko pomanjšamo tako na negativni kot na pozitivni strani.

Formula za odkrivanje odstopanj z normalno porazdelitvijo

Niz opazovanj lahko izrazimo na prejšnji način, pri čemer je x povprečna vrednost, nad katero vrednosti nihajo, in sigma disperzija nihanja omenjenih vrednosti. Z drugimi besedami, sigma je oddaljenost opazovanja od srednje vrednosti.

Multiplikativni dejavnik določa, ali gre za tujca ali notranjo osebo. Če z zavzame vrednosti 3 ali -3, bo opazovanje y glede na normalno porazdelitev odstopalo.

Da bi vedeli vrednost z uporabimo prejšnjo enačbo:

  • Če je z> = 3 ali z = <-3, lahko glede na normalno porazdelitev to rečemo Y. gre za skrajno vrednost ali odstopanje.
  • Če je z <3 ali z <-3, potem lahko glede na normalno porazdelitev to rečemo Y. je notranja vrednost ali notranja vrednost.

Običajni standard

Ali je zgornja enačba znana?

Točno je izraz opazovanja, ki sledi običajni porazdelitvi, ki je nekoč standardizirana ali tipizirana. Tako se imenuje, ker se pri razdelitvi s standardnim ali standardnim odklonom razlika števca izrazi z odstopanji.

Iz tega razloga lahko vrednosti odstopanj povežemo z z in ga tako lahko kupili s pragom 3 odstopanj.

Primer

Poiščite skrajne vrednosti naslednjih opazovanj glede na normalno porazdelitev:

Opažanja predstavljamo na grafu:

Že na začetku lahko vidimo, da je vrednost, ki je najbolj oddaljena od ostalih, najverjetneje odstopanje.

Najprej izračunamo povprečje in standardni odklon:

x = povprečje = 5,8

sigma = standardni odklon = 10,51

Nato vrednosti nadomestimo v formulo in izračunamo vrednost z za vsako opazovanje:

Zgornje vrednosti so multiplikativni faktorji sigme, to je z. Vse, kar je večje od 3 ali manjše od -3, bo izjemne vrednosti.

Vidimo, da je vrednost z ki presega 3 standardne deviacije, je tista, ki ustreza opazovanju 49.

Zato bi bila skrajna ali nenavadna vrednost nabora podatkov 49.