KDD vs Podatki rudarjenja
KDD (Knowledge Discovery in Databases) je področje računalništva, ki vključuje orodja in teorije za pomoč ljudem pri pridobivanju koristnih in prej neznanih informacij (tj. Znanja) iz velikih zbirk digitaliziranih podatkov. KDD je sestavljen iz več korakov in Data Mining je eden izmed njih. Data Mining je uporaba posebnega algoritma za pridobivanje vzorcev iz podatkov. Kljub temu se KDD in Data Mining uporabljata zamenljivo.
Kaj je KDD?
Kot že omenjeno, je KDD področje računalništva, ki se ukvarja z črpanjem prej neznanih in zanimivih informacij iz surovih podatkov. KDD je celoten postopek poskušanja smisla podatkov z razvojem ustreznih metod ali tehnik. Ta postopek obravnava preslikavo podatkov nizke ravni v druge oblike, ki so bolj kompaktni, abstraktni in uporabni. To dosežemo z ustvarjanjem kratkih poročil, modeliranjem procesa pridobivanja podatkov in razvojem napovednih modelov, ki lahko napovedujejo prihodnje primere. KDD je zaradi eksponentne rasti podatkov, zlasti na področjih, kot je poslovanje, postal zelo pomemben postopek za pretvorbo tega velikega bogastva podatkov v poslovno inteligenco, saj je ročno črpanje vzorcev v zadnjih desetletjih na videz nemogoče. Na primer, trenutno se uporablja za različne aplikacije, kot so analiza družbenih omrežij, odkrivanje goljufij, znanost, naložbe, proizvodnja, telekomunikacije, čiščenje podatkov, šport, iskanje informacij in v veliki meri za trženje. KDD se običajno uporablja za odgovore na vprašanja, na primer, kateri so glavni proizvodi, ki bi lahko v Wal-Martu prihodnje leto pridobili visok dobiček ?. Ta postopek ima več korakov. Začne se z razvijanjem razumevanja domene aplikacije in cilja ter nato izdelavo ciljnega nabora podatkov. Sledi čiščenje, predobdelava, zmanjševanje in projiciranje podatkov. Naslednji korak je uporaba podatkovnega rudarjenja (razloženo spodaj) za prepoznavanje vzorca. Končno odkrito znanje utrjujejo z vizualizacijo in / ali interpretacijo.
Kaj je podatkovni rudarjenje?
Kot že omenjeno, je Data Mining le korak v celotnem postopku KDD. Obstajata dva glavna cilja Data Mining, kot jih določa cilj aplikacije, in sicer sta preverjanje ali odkrivanje. Preverjanje preverja uporabnikovo hipotezo o podatkih, medtem ko odkrivanje samodejno poišče zanimive vzorce. Obstajajo štiri glavne naloge za pridobivanje podatkov: združevanje, klasifikacija, regresija in povezava (povzemanje). Grozdanje je identifikacija podobnih skupin iz nestrukturiranih podatkov. Razvrščanje so pravila učenja, ki jih je mogoče uporabiti za nove podatke. Regresija je iskanje funkcij z minimalno napako za modeliranje podatkov. In zveza išče odnose med spremenljivkami. Nato je treba izbrati poseben algoritem za pridobivanje podatkov. Glede na cilj se lahko izberejo različni algoritmi, kot so linearna regresija, logistična regresija, odločitvena drevesa in Naive Bayes. Nato se poiščejo vzorci zanimanja za eno ali več predstavitvenih oblik. Nazadnje se modeli ocenjujejo bodisi z uporabo napovedne natančnosti bodisi razumljivosti.
Kakšna je razlika med KDD in Data mining?
Čeprav se dva izraza KDD in Data Mining močno uporabljata zamenljivo, se nanašata na dva povezana, vendar nekoliko različna pojma. KDD je celoten postopek pridobivanja znanja iz podatkov, medtem ko je Data Mining korak v procesu KDD, ki se ukvarja z prepoznavanjem vzorcev podatkov. Z drugimi besedami, Data Mining je le uporaba določenega algoritma, ki temelji na splošnem cilju procesa KDD.