Hierarhična vs delna gruča
Grozdanje je tehnika strojnega učenja za analizo podatkov in delitev v skupine podobnih podatkov. Te skupine ali nizi podobnih podatkov so znane kot grozdi. Grozdna analiza obravnava algoritme združevanja, ki lahko samodejno prepoznajo grozde. Hierarhična in particijska sta dva taka razreda algoritmov združevanja. Hierarhični algoritmi združevanja razčlenijo podatke v hierarhijo grozdov. Delni algoritmi delijo nabor podatkov na medsebojno ločene particije.
Kaj je hierarhična gruča?
Hierarhični algoritmi grozdanja ponavljajo cikel združevanja manjših grozdov v večje ali razdeljevanja večjih skupin na manjše. Kakor koli že, ustvari hierarhijo grozdov, imenovano dendogram. Strategija aglomeracijskega združevanja uporablja pristop od spodaj navzgor pri združevanju grozdov v večje, medtem ko strategija delitve združevanja uporablja pristop delitve na manjše. Običajno se pohlepni pristop uporablja pri odločanju, kateri večji / manjši grozdi se uporabljajo za združitev / delitev. Evklidska razdalja, razdalja Manhattan in kosinusna podobnost so nekatere najpogosteje uporabljene metrike podobnosti za numerične podatke. Za neštevilčne podatke se uporabljajo meritve, kot je Hamming razdalja. Pomembno je upoštevati, da dejanska opažanja (primeri) niso potrebna za hierarhično združevanje, ker zadostuje le matrica razdalj. Dendogram je vizualna predstavitev grozdov, ki zelo jasno prikazuje hierarhijo. Uporabnik lahko pridobi različno združevanje, odvisno od stopnje rezavanja dendograma.
Kaj je delna gruča?
Algoritmi za delno združevanje ustvarjajo različne particije in jih nato ocenjujejo po nekaterih kriterijih. Imenujemo jih tudi kot nehierarhične, saj je vsak primerek postavljen v točno enega od k medsebojno izključujočih se grozdov. Ker je samo en niz skupin izhod tipičnega algoritma delnega grozda, mora uporabnik vnesti želeno število gruč (ponavadi jih imenujemo k). Eden najpogosteje uporabljenih algoritmov delnega združevanja je algoritem združevanja k-sredstev. Pred zagonom mora uporabnik zagotoviti število grozdov (k) in algoritem najprej začne centre (ali centroide) k particij. Na kratko, algoritem združevanja k-pomeni nato dodeli člane na podlagi trenutnih centrov in ponovno oceni centre na podlagi trenutnih članov. Ta dva koraka se ponavljata, dokler se ne optimizirata ciljna funkcija podobnosti znotraj grozda in ciljna funkcija neskladnosti med grozdi. Zato je smiselna inicializacija centrov zelo pomemben dejavnik pri pridobivanju kakovostnih rezultatov iz algoritmov delnih grozdov.
Kakšna je razlika med hierarhično in delno gručo?
Hierarhična in delna gruča imata ključne razlike v času delovanja, predpostavkah, vhodnih parametrih in rezultirajočih skupinah. Običajno je delno združevanje hitrejše od hierarhičnega združevanja. Hierarhično združevanje zahteva le ukrep podobnosti, medtem ko delno združevanje zahteva močnejše predpostavke, kot sta število gruč in začetnih središč. Hierarhično združevanje ne zahteva nobenih vhodnih parametrov, medtem ko algoritmi za delno združevanje zahtevajo začetek izvajanja števila grozdov. Hierarhično združevanje vrača veliko bolj smiselno in subjektivno delitev grozdov, vendar delno združevanje povzroči natančno k skupinam. Hierarhični algoritmi združevanja so bolj primerni za kategorične podatke, če je mogoče podobno določiti ukrep podobnosti.