Data Mining - kaj je to, opredelitev in koncept

Kazalo:

Data Mining - kaj je to, opredelitev in koncept
Data Mining - kaj je to, opredelitev in koncept
Anonim

Podatkovno rudarjenje je postopek iskanja velikih baz podatkov, da bi našli koristne informacije, ki jih lahko uporabimo za odločanje. Uporablja se tudi angleški izraz "data mining".

Razumeti jo je mogoče kot tehnologijo in programsko opremo za iskanje vzorcev vedenja v bazi podatkov. Temeljna podlaga za to je, da ti vzorci pomagajo pri odločanju. Na primer, podjetjem bi lahko pomagal razumeti vedenjske vzorce svojih strank. Na tak način, da bi olajšal vzpostavitev strategij za povečanje prodaje ali znižanje stroškov.

Prednosti podatkovnega rudarjenja

Temeljna prednost tega postopka analize podatkov je veliko število poslovnih scenarijev, na katere se lahko uporabi, kot primer imamo:

  • Napovedovanje: Napoved prodaje podjetja.
  • Verjetnost: Izbira najboljših strank za neposreden stik po telefonu ali e-pošti.
  • Analiza zaporedja: Analiza izdelkov, ki so jih kupili kupci, in preverjanje medsebojne povezanosti med njimi.

Faze podatkovnega rudarjenja

V procesu rudarjenja podatkov najdemo pet faz:

  • Zbiranje ciljev in podatkov: Najprej se moramo osredotočiti na to, katere informacije želimo dobiti. Predstavljajmo si primer, da hoče supermarket vedeti, kdaj je dan, kjer je največ obiskovalcev. To bi bil cilj in informacije, ki jih v tem primeru želi trgovina pridobiti.
  • Obdelava in upravljanje podatkov: Ko poznamo podatke, ki jih želimo zbrati, jih začnemo delovati. To je morda najtežja faza procesa. No, potrebna je izbira reprezentativnega vzorca, na katerem bo izvedena analiza. Ko je vzorec izbran, je treba analizirati, kakšne vrste spremenljivk ali regresijski model bo izveden na vzorcu.
  • Izbira modela: Je tesno povezan s prejšnjo fazo. Gre za ustvarjanje modela ali algoritma, ki nam daje najboljši možen rezultat. Za to je treba izvesti izčrpno analizo spremenljivk, ki bodo vključene v model. To postane zapletena naloga, saj bo odvisna od vrste informacij, ki jih je treba analizirati. Zato rudarji podatkov izvajajo različne teste algoritma, kot so: linearna regresija, drevo odločitev, časovne vrste, nevronska mreža itd.
  • Analiza in pregled rezultatov: V bistvu gre za analizo rezultatov, da bi ugotovili, ali dajejo logično razlago. Pojasnilo, ki olajša odločanje na podlagi informacij, ki jih vsebujejo rezultati.
  • Posodobitev modela: Zadnji korak postopka bi bila posodobitev modela. Zelo pomembno je, da se to sčasoma naredi, da ne zastara. Spremenljivke modela bi lahko postale nepomembne, zato je potreben periodični nadzor modela.