Kolmogorov test - Smirnoff (K-S)
Test Kolmogorov-Smirnoff (K-S) je neparametrični test, katerega namen je ugotoviti, ali frekvenca dveh različnih podatkovnih nizov sledi enaki porazdelitvi okoli njihove srednje vrednosti.
Z drugimi besedami, test Kolmogorov-Smirnoff (K-S) je test, ki se prilagodi obliki podatkov in se uporablja za preverjanje, ali dva različna vzorca sledita isti porazdelitvi.
Zakaj gre za neparametrični test?
Lepota »neparametrične« značilnosti je, da ustreza podatkom in posledično porazdelitvam, ki lahko sledijo pogostosti podatkov. Poleg tega nam ta funkcija prihrani, da ne bi smeli domnevati a priori kakšni porazdelitvi sledi vzorec.
Pomen testa K-S
Kolikokrat smo dobili dva vzorca in izračunali Pearsonov koeficient korelacije, ne da bi dvakrat premislili? Z drugimi besedami, če želimo videti linearno razmerje med dvema naboroma podatkov, bi bilo pravično izračunati korelacijo, kajne?
Ta odbitek bi bil resničen, če bi porazdelitvi obeh vzorcev sledili običajni porazdelitvi. Korelacijski koeficient predpostavlja, da so porazdelitve normalne, če preskočimo to domnevo, je rezultat korelacijskega koeficienta napačen. Za teste hipotez in intervale zaupanja predpostavljamo tudi, da je populacija porazdeljena z normalno porazdelitvijo.
Kot vsi testi hipotez, ki vključujejo statistiko, je tudi za statistično pomembne rezultate pomembno, da imamo veliko podatkov. Ničelno hipotezo lahko napačno zavrnemo, ker je vzorec majhen. Poleg tega je pomembno tudi, da ima ta vzorec nekaj skrajnih primerov (odstopanja, v angleščini) za doslednost rezultatov testa.
Preskusni postopek
Postopek naslednjih korakov.
Hipoteza
Prvi korak bo preveriti, ali imata oba vzorca enako porazdelitev. V ta namen izvedemo preizkus hipoteze, ob predpostavki, da imata oba vzorca enako porazdelitev glede na alternativno hipotezo, da sta različna.

Statistični
Delamo s funkcijami kumulativne porazdelitve dveh vzorcev, F1(x) in F2(x):

Ne bodite panični! Zgornjo formulo analiziramo mirno:
- Pomemben del formule je znak razlike (-). Iščemo vertikalne razlike v distribucijah. Torej bomo odšteli obe funkciji kumulativne porazdelitve.
- The operator "max". Zanima nas največja ali največja razlika, da ugotovimo, kako različni sta lahko obe distribuciji.
- The absolutna vrednost. Absolutno vrednost uporabljamo tako, da vrstni red operaterjev ne spremeni rezultata. Z drugimi besedami, ni vseeno, kateri F (x) ima negativni predznak:

Kritična vrednost
Za velike vzorce je približek kritični vrednosti za K-S odvisen od stopnje pomembnosti (%):

Kje1 in n2 so velikost vzorca za F vzorec1(x) in F2(x).
Nekaj izračunanih kritičnih vrednosti:

Pravilo zavrnitve

App
Zelo pogosto želimo preizkusiti, ali se dve distribuciji med seboj dovolj razlikujeta, ko želimo zgraditi scenarije napovedovanja (delamo z dvema vzorcema) ali ko želimo oceniti, katera distribucija najbolje ustreza podatkom (delamo samo z enim vzorcem).