Hierarhiline vs osaline klasterdamine
Klastrite moodustamine on masinõppetehnika andmete analüüsimiseks ja sarnaste andmete rühmadeks jagamiseks. Neid rühmi või sarnaste andmete kogumeid nimetatakse klastriteks. Klastrite analüüs vaatleb rühmitusalgoritme, mis suudavad klastreid automaatselt tuvastada. Hierarhiline ja Partitsionaalne on kaks sellist klasterdamisalgoritmi klassi. Hierarhilised rühmitusalgoritmid jagavad andmed klastrite hierarhiaks. Jaotusalgoritmid jagavad andmekogumi omavahel mitteühendatud partitsioonideks.
Mis on hierarhiline klasterdamine?
Hierarhilised klastrite moodustamise algoritmid kordavad tsüklit, mille käigus liidetakse väiksemad klastrid suuremateks või jagatakse suuremad klastrid väiksemateks. Mõlemal juhul loob see klastrite hierarhia, mida nimetatakse dendogrammiks. Aglomeratiivne klastrite strateegia kasutab alt-üles lähenemist klastrite ühendamisel suuremateks, samas kui jagav klastrite strateegia kasutab ül alt-alla lähenemisviisi jagamisel väiksemateks. Tavaliselt kasutatakse ahne lähenemisviisi, et otsustada, milliseid suuremaid/väiksemaid klastreid liitmiseks/jagamiseks kasutatakse. Eukleidiline kaugus, Manhattani kaugus ja koosinussarnasus on numbriliste andmete puhul kõige sagedamini kasutatavad sarnasuse mõõdikud. Mittenumbriliste andmete puhul kasutatakse selliseid mõõdikuid nagu Hammingi kaugus. Oluline on märkida, et hierarhiliseks rühmitamiseks pole tegelikke vaatlusi (juhtumeid) vaja, sest piisab ainult kauguste maatriksist. Dendogramm on klastrite visuaalne esitus, mis näitab hierarhiat väga selgelt. Kasutaja saab sõltuv alt dendogrammi lõikamise tasemest saada erineva rühmituse.
Mis on osaline klasterdamine?
Jaotatud rühmitamisalgoritmid genereerivad erinevaid sektsioone ja hindavad neid seejärel mõne kriteeriumi alusel. Neid nimetatakse ka mittehierarhilisteks, kuna iga eksemplar on paigutatud täpselt ühte k-st üksteist välistavast klastrist. Kuna tüüpilise partitsioonilise rühmitamise algoritmi väljundiks on ainult üks klastrite komplekt, peab kasutaja sisestama soovitud arvu klastreid (tavaliselt nimetatakse seda k-ks). Üks enimkasutatavaid partitsiooniklastri algoritme on k-keskmiste klasterdamisalgoritm. Kasutaja peab enne käivitamist esitama klastrite arvu (k) ja algoritm käivitab esm alt k partitsiooni keskused (või tsentroidid). Lühid alt öeldes määrab k-keskmise rühmitamisalgoritm seejärel liikmed praeguste keskuste põhjal ja hindab keskused ümber praeguste liikmete põhjal. Neid kahte sammu korratakse seni, kuni teatud klastrisisese sarnasuse sihtfunktsioon ja klastritevahelise erinevuse sihtfunktsioon on optimeeritud. Seetõttu on keskuste mõistlik lähtestamine väga oluline tegur kvaliteetsete tulemuste saamiseks partitsiooniklastri algoritmide abil.
Mis vahe on hierarhilisel ja partitsioonilisel klasterdamisel?
Hierarhilisel ja osalisel klastril on peamised erinevused tööajas, eeldustes, sisendparameetrites ja saadud klastrites. Tavaliselt on partitsiooniline rühmitamine kiirem kui hierarhiline klasterdamine. Hierarhiline rühmitamine nõuab ainult sarnasuse mõõtmist, samas kui partitsiooniline rühmitamine nõuab tugevamaid eeldusi, nagu klastrite arv ja algkeskused. Hierarhiline klasterdamine ei nõua sisendparameetreid, samas kui partitsioonilise rühmitamise algoritmid nõuavad klastrite arvu, et käivitada. Hierarhiline klastrite moodustamine annab klastrite palju tähendusrikkama ja subjektiivsema jaotuse, kuid partitsiooniline rühmitamine annab täpselt k klastrit. Hierarhilised rühmitamisalgoritmid sobivad paremini kategooriliste andmete jaoks, kui sarnasusmõõtu saab vastav alt määratleda.