The ključna razlika med združevanjem in klasifikacijo je to združevanje je nenadzorovana učna tehnika, ki združuje podobne primere na podlagi funkcij, medtem ko je klasifikacija nadzorovana učna tehnika, ki dodeljuje vnaprej določene oznake primerkom na podlagi funkcij.
Čeprav se zdi, da sta združevanje in razvrščanje podobni procesi, obstaja razlika med njimi glede na njihov pomen. V svetu rudarjenja podatkov sta združevanje in razvrščanje dve vrsti učnih metod. Obe metodi karakterizirata predmete v skupine po eni ali več lastnostih.
1. Pregled in ključne razlike
2. Kaj je grozd
3. Kaj je klasifikacija
4. Primerjava ob strani - Klasifikacija proti razvrstitvi v tabeli
5. Povzetek
Grupiranje je metoda združevanja predmetov na način, da se predmeti s podobnimi lastnostmi združijo in predmeti z različnimi lastnostmi razidejo. To je običajna tehnika statistične analize podatkov za strojno učenje in rudarjenje podatkov. Raziskovalna analiza in posploševanje podatkov je tudi področje, ki uporablja grozdanje.
Slika 01: Grozd
Grozd spada v nenadzorovano pridobivanje podatkov. Ne gre za en sam poseben algoritem, ampak je splošna metoda za reševanje naloge. Zato je mogoče z uporabo različnih algoritmov doseči združevanje v skupine. Ustrezni algoritmi grozda in nastavitve parametrov so odvisni od posameznih nizov podatkov. To ni samodejna naloga, ampak je iterativni postopek odkritja. Zato je treba spremeniti obdelavo podatkov in modeliranje parametrov, dokler rezultat ne doseže želenih lastnosti. Grupiranje s sredstvi K in hierarhično združevanje sta dva pogosta algoritma združevanja pri pridobivanju podatkov.
Klasifikacija je postopek kategorizacije, ki uporablja učni nabor podatkov za prepoznavanje, razlikovanje in razumevanje predmetov. Razvrščanje je nadzorovana učna tehnika, kjer so na voljo vadbeni set in pravilno določena opažanja.
Slika 02: Razvrstitev
Algoritem, ki izvaja klasifikacijo, je klasifikator, medtem ko so opažanja primeri. K-najbližji sosedski algoritmi in algoritmi drevesa odločanja so najbolj znani klasifikacijski algoritmi pri iskanju podatkov.
Grozd je nenadzorovano učenje, medtem ko je klasifikacija nadzorovana učna tehnika. Podobne primere razvrsti na podlagi funkcij, medtem ko klasifikacija vnaprej določene oznake dodeli primerkom na podlagi funkcij. Grozd razdeli nabor podatkov v podmnožice, da združujejo primerke s podobnimi lastnostmi. Ne uporablja označenih podatkov ali usposabljanja. Po drugi strani razvrstite nove podatke glede na opazovanja nabora usposabljanja. Trening set je označen.
Cilj združevanja je združiti niz predmetov, da bi ugotovili, ali obstaja kakšna zveza med njimi, medtem ko je s klasifikacijo treba najti, kateremu razredu pripada nov predmet iz nabora vnaprej določenih razredov.
Zbiranje in razvrščanje se lahko zdi podobno, ker oba algoritma za pridobivanje podatkov razdelita nabor podatkov na podmnožice, vendar gre za dve različni tehniki učenja, pri pridobivanju podatkov, da bi dobili zanesljive informacije iz zbirke surovih podatkov. Razlika med združevanjem in klasifikacijo je v tem, da je grozdenje nenadzorovana učna tehnika, ki združuje podobne primere na podlagi funkcij, medtem ko je klasifikacija nadzorovana učna tehnika, ki vnaprej določenim oznakam dodeli primere na podlagi funkcij.