The ključna razlika med klasifikacijo in regresijskim drevesom je to pri razvrščanju so odvisne spremenljivke kategorične in neurejene, medtem ko so v regresiji odvisne spremenljivke neprekinjene ali urejene celotne vrednosti.
Razvrščanje in regresija sta učni tehniki za ustvarjanje modelov napovedovanja iz zbranih podatkov. Obe tehniki sta grafično predstavljeni kot klasifikacijska in regresijska drevesa, oziroma tok diagramov z delitvijo podatkov po vsakem koraku ali bolje rečeno "veja" v drevesu. Ta postopek se imenuje rekurzivna particija. Področja, kot je rudarstvo, uporabljajo te metode klasifikacije in regresije. Ta članek se osredotoča na drevo klasifikacije in regresijsko drevo.
1. Pregled in ključne razlike
2. Kaj je klasifikacija
3. Kaj je regresija
4. Primerjalna primerjava - Razvrstitev proti regresiji v tabeli
5. Povzetek
Klasifikacija je tehnika, ki se uporablja za dosego sheme, ki prikazuje organizacijo podatkov, ki se začne s spremenljivko predhodnika. Odvisno od spremenljivk so tiste, ki podatke razvrščajo.
Slika 01: Data Mining
Drevo klasifikacije se začne z neodvisno spremenljivko, ki se razdeli na dve skupini, kot to določajo obstoječe odvisne spremenljivke. Namenjen je razjasnitvi odgovorov v obliki kategorizacije, ki jo prinesejo odvisne spremenljivke.
Regresija je metoda napovedovanja, ki temelji na predpostavljeni ali znani številčni izhodni vrednosti. Ta izhodna vrednost je rezultat vrste rekurzivnih particij, pri čemer ima vsak korak eno numerično vrednost in drugo skupino odvisnih spremenljivk, ki se razvejajo na drug par, kot je ta.
Regresijsko drevo se začne z eno ali več spremenljivkami predhodnika in konča z eno končno izhodno spremenljivko. Odvisne spremenljivke so bodisi neprekinjene bodisi diskretne številčne spremenljivke.
Razvrstitev proti regresiji | |
Model drevesa, pri katerem lahko ciljna spremenljivka sprejme diskretni niz vrednosti. | Model drevesa, pri katerem lahko ciljna spremenljivka sprejme neprekinjene vrednosti, običajno realna števila. |
Odvisna spremenljivka | |
Za drevo klasifikacije so odvisne spremenljivke kategorične. | Za drevo regresije so odvisne spremenljivke numerične. |
Vrednote | |
Ima nastavljeno količino neurejenih vrednosti. | Ima bodisi diskretne še urejene vrednosti, bodisi ločene vrednosti. |
Namen gradnje | |
Namen konstrukcije regresijskega drevesa je, da se regresijski sistem prilagodi vsaki odločujoči veji tako, da pride do pričakovane izhodne vrednosti. | Drevo razvrstitve se razdeli, kot ga določi odvisna spremenljivka, pridobljena iz prejšnjega vozlišča. |
Regresijska in klasifikacijska drevesa so koristne tehnike za prikazovanje procesa, ki kaže na preučeni rezultat, ne glede na to, ali gre za razvrstitev ali eno samo številčno vrednost. Razlika med klasifikacijskim drevesom in regresijskim drevesom je njihova odvisna spremenljivka. Drevesa klasifikacije imajo odvisne spremenljivke, ki so kategorične in neurejene. Regresijska drevesa imajo odvisne spremenljivke, ki so neprekinjene vrednosti ali urejene celotne vrednosti.
1. "Odločanje o drevesu odločanja." Wikipedija, Wikimedia Foundation, 13. maj 2018. Dostopno tukaj
1.'Data Mining'By Arbeck - Lastno delo, (CC BY 3.0) prek Commons Wikimedia