Razlika med vrečko in naključnim gozdom

Skozi leta so bili številni sistemi klasifikatorjev, imenovani tudi ansambelski sistemi, priljubljena raziskovalna tema in uživali vse večjo pozornost v skupnosti za računalniško inteligenco in strojno učenje. Pritegnilo je zanimanje znanstvenikov z več področij, vključno s strojnim učenjem, statistiko, prepoznavanjem vzorcev in odkrivanjem znanja v bazah podatkov. Sčasoma so se metode ansambla izkazale za zelo učinkovite in vsestranske v širokem spektru problematičnih domen in aplikacij v resničnem svetu. Prvotno razvite za zmanjšanje razlik v avtomatiziranem sistemu odločanja, ansambelske metode se od takrat uporabljajo za reševanje številnih težav strojnega učenja. Predstavljamo pregled dveh najpomembnejših algoritmov ansambla - Bagging in Naključni gozd - in nato razpravljamo o razlikah med obema.

V mnogih primerih se je izkazalo, da imajo vrečke, ki uporabljajo vzorčenje zagonskih vrvic, klasifikacijski trak višjo natančnost kot eno klasifikacijsko drevo. Vrečka je eden najstarejših in najpreprostejših algoritmov, ki temelji na ansamblu, ki jih je mogoče uporabiti za drevesne algoritme za izboljšanje natančnosti napovedi. Obstaja še ena izboljšana različica razmnoževanja, imenovana algoritem Random Forest, ki je v bistvu celota odločitvenih dreves, usposobljenih z mehanizmom za pakiranje. Poglejmo, kako deluje algoritem naključnega gozda in kako se razlikuje od vreče v ansamblovskih modelih.

Vrečka

Združevanje zagonskih trakov, znano tudi kot vreča, je eden najzgodnejših in najpreprostejših algoritmov, ki temelji na ansamblu, da bi bila drevesa odločanja bolj robustna in dosegla boljše rezultate. Koncept, ki se skriva v embalaži, je združiti napovedi več učencev, da bi ustvarili bolj natančen rezultat. Leo Breiman je predstavil algoritem vrečke leta 1994. Pokazal je, da lahko združevanje zagonskih strežnikov prinese želene rezultate v nestabilnih učnih algoritmih, kjer lahko majhne spremembe podatkov o vadbi povzročijo velike razlike v napovedih. Zagon je vzorec nabora podatkov z nadomestitvijo in vsak vzorec se ustvari z enakomernim vzorčenjem vadbenega kompleta velikosti m, dokler ne dobimo novega niza z m primerki.

Naključni gozd

Naključni gozd je nadzorovan algoritem strojnega učenja, ki temelji na skupinskem učenju in razvoju Breimanovega izvirnega algoritma za pakiranje. To je veliko izboljšanje v primerjavi z vgrajenimi drevesi odločitev, da sestavimo več odločitvenih dreves in jih združimo, da dobimo natančen rezultat. Breiman je dodal dodatno naključno spremembo v postopku razmetavanja, s čimer je ustvaril večjo raznolikost med rezultatnimi modeli. Naključni gozdovi se razlikujejo od drevesa v vrečah, saj drevo prisili, da v rastni fazi uporablja le podmnožico svojih razpoložljivih napovedovalcev. Vsa odločitvena drevesa, ki sestavljajo naključni gozd, so različna, ker je vsako drevo zgrajeno na različnem naključnem podmnožju podatkov. Ker zmanjša prekomerno opremljanje, je ponavadi bolj natančen kot eno samo odločilno drevo.

Razlika med vrečko in naključnim gozdom

Osnove

- Tako vreče kot naključni gozdovi so algoritmi, ki temeljijo na ansamblu, katerih cilj je zmanjšati zapletenost modelov, ki prekrivajo podatke o vadbi. Združevanje škorenj, imenovano tudi vreča, je ena najstarejših in močnih skupinskih metod za preprečevanje prekomernega opremljanja. To je meta tehnika, ki uporablja več klasifikatorjev za izboljšanje napovedne natančnosti. Vreča preprosto pomeni risanje naključnih vzorcev iz vzorca treninga za zamenjavo, da bi dobili ansambel različnih modelov. Naključni gozd je nadzorovan algoritem strojnega učenja, ki temelji na skupinskem učenju in razvoju Breimanovega izvirnega algoritma za pakiranje.

Koncept

- Koncept vzorčenja (bogingstrap) je trenirati kup neobremenjenih dreves odločitev na različnih naključnih podvrsteh podatkov o usposabljanju, vzorčenje z nadomestitvijo, da se zmanjša odstopanje odločitvenih dreves. Ideja je združiti napovedi več učencev osnov, da bi ustvarili bolj natančen rezultat. Pri naključnih gozdovih se v postopek razvrščanja doda dodatna naključna sprememba, da se med rezultirajočimi modeli ustvari večja raznolikost. Ideja naključnih gozdov je zgraditi več dreves odločitev in jih združiti, da bi dobili natančen rezultat.

Cilj

- Tako pokošena drevesa kot naključni gozdovi so najpogostejši inštrumenti za učenje ansambla, ki se uporabljajo za reševanje različnih težav strojnega učenja. Vzorčenje zagona je meta-algoritem, zasnovan za izboljšanje natančnosti in stabilnosti modelov strojnega učenja z uporabo ansambelskega učenja in zmanjšanje zapletenosti modelov preoblikovanja. Algoritem naključnega gozda je zelo močan proti prekomernemu opremljanju in je dober z neuravnoteženimi in manjkajočimi podatki. Prav tako je prednostna izbira algoritma za gradnjo napovednih modelov. Cilj je zmanjšati odstopanje s povprečjem več dreves globokih odločitev, usposobljenih na različnih vzorcih podatkov.

Premetavanje proti naključnemu gozdu: primerjalna shema

Povzetek

Tako pokošena drevesa kot naključni gozdovi so najpogostejši inštrumenti za učenje ansambla, ki se uporabljajo za reševanje različnih težav strojnega učenja. Vrečka je eden najstarejših in najpreprostejših algoritmov, ki temelji na ansamblu, ki jih je mogoče uporabiti za drevesne algoritme za izboljšanje natančnosti napovedi. Naključni gozdovi so na drugi strani algoritem strojnega učenja in izboljšana različica vzorčnega zagonskega vzorčenja, ki se uporablja tako za regresijo kot za težave s klasifikacijo. Ideja naključnega gozda je zgraditi več dreves odločitev in jih združiti, da bi dobili natančen rezultat. Naključni gozd je ponavadi bolj natančen kot eno samo drevo odločitev, ker zmanjšuje prekomerno opremljanje.