Izvajanje podatkov v primerjavi s skladiščenjem podatkov
Rudarjenje podatkov in skladiščenje podatkov sta zelo močni in priljubljeni tehniki za analizo podatkov. Uporabniki, ki so nagnjeni k statistiki, uporabljajo Data Mining. Za iskanje skritih vzorcev v podatkih uporabljajo statistične modele. Podatkovni rudarji so zainteresirani za iskanje koristnih odnosov med različnimi podatkovnimi elementi, kar je za podjetja dokončno koristno. Po drugi strani pa podatkovni strokovnjaki, ki lahko analizirajo dimenzije podjetja, neposredno uporabljajo skladišča podatkov.
Rudarjenje podatkov je znano tudi kot odkritje znanja v podatkih (KDD). Kot že omenjeno, gre za področje računalništva, ki se ukvarja z črpanjem prej neznanih in zanimivih informacij iz surovih podatkov. Zaradi eksponentne rasti podatkov, zlasti na področjih, kot je poslovanje, je pridobivanje podatkov postalo zelo pomembno orodje za pretvorbo tega velikega bogastva podatkov v poslovno inteligenco, saj je ročno črpanje vzorcev v zadnjih desetletjih na videz nemogoče. Na primer, trenutno se uporablja za različne aplikacije, kot so analiza družbenih omrežij, odkrivanje goljufij in trženje. Izvajanje podatkov se običajno ukvarja z naslednjimi štirimi nalogami: grozdenje, razvrščanje, regresija in povezovanje. Grozdanje je identifikacija podobnih skupin iz nestrukturiranih podatkov. Razvrščanje je pravila učenja, ki jih je mogoče uporabiti za nove podatke in običajno vključujejo naslednje korake: predhodna obdelava podatkov, oblikovanje modeliranja, izbira učenja / lastnosti in vrednotenje / potrjevanje. Regresija je iskanje funkcij z minimalno napako za modeliranje podatkov. In zveza išče odnose med spremenljivkami. Podatkovno rudarjenje se običajno uporablja za odgovor na vprašanja, na primer, kateri so glavni proizvodi, ki bi lahko v Wal-Martu prihodnje leto pripomogli k visokemu dobičku?
Kot že omenjeno, se skladiščenje podatkov uporablja tudi za analizo podatkov, vendar v različnih skupinah uporabnikov in v mislih nekoliko drugačen cilj. Na primer, ko gre za maloprodajni sektor, se uporabniki skladiščnih podatkov bolj ukvarjajo s tem, katere vrste nakupov so med kupci priljubljene, zato lahko rezultati analize pomagajo kupcu z izboljšanjem uporabniške izkušnje. Toda Data rudarji najprej domnevajo hipotezo, kot je, da kupci kupijo določeno vrsto izdelka in analizirajo podatke, da preizkusijo hipotezo. Skladiščenje podatkov bi lahko izvedel večji trgovec, ki je sprva zaloge svojih trgovin z enakimi velikostmi izdelkov, da bi kasneje ugotovil, da newyorške prodajalne prodajo zaloge manjše velikosti veliko hitreje kot v trgovinah v Chicagu. Torej, če pogledamo na ta rezultat, lahko prodajalec v New Yorku skladišči manjše velikosti v primerjavi s trgovinami v Chicagu.
Kot jasno vidite, se zdi, da sta ti dve vrsti analiz s prostim očesom enake narave. Oba sta zaskrbljena zaradi povečanja dobička na podlagi preteklih podatkov. Seveda pa obstajajo ključne razlike. Preprosto povedano, Data Mining in skladiščenje podatkov sta namenjena zagotavljanju različnih vrst analitike, vsekakor pa za različne vrste uporabnikov. Z drugimi besedami, Data Mining išče korelacije, vzorce za podporo statistični hipotezi. Toda Skladiščenje podatkov odgovarja na razmeroma širše vprašanje in od tam naprej prereže in razreže podatke, da prepozna načine za izboljšanje v prihodnosti.