KDD vs andmekaeve
KDD (Knowledge Discovery in Databases) on arvutiteaduse valdkond, mis hõlmab tööriistu ja teooriaid, mis aitavad inimestel saada kasulikku ja senitundmatut teavet (st teadmisi) suurtest digiteeritud andmete kogudest. KDD koosneb mitmest etapist ja andmekaevandamine on üks neist. Andmekaevandamine on konkreetse algoritmi rakendamine andmetest mustrite eraldamiseks. Sellegipoolest kasutatakse KDD-d ja andmekaeve vaheldumisi.
Mis on KDD?
Nagu eespool mainitud, on KDD arvutiteaduse valdkond, mis tegeleb toorandmetest varem tundmatu ja huvitava teabe väljavõtmisega. KDD on kogu protsess, mille käigus püütakse andmeid mõtestada sobivate meetodite või tehnikate väljatöötamise teel. See protsess tegeleb madala taseme andmete kaardistamisega muudesse vormidesse, mis on kompaktsemad, abstraktsemad ja kasulikumad. See saavutatakse lühikeste aruannete loomise, andmete genereerimise protsessi modelleerimise ja ennustavate mudelite väljatöötamisega, mis võimaldavad ennustada tulevasi juhtumeid. Tänu andmete eksponentsiaalsele kasvule, eriti sellistes valdkondades nagu äri, on KDD-st saanud väga oluline protsess selle suure andmemahu teisendamiseks äriteabeks, kuna mustrite käsitsi eraldamine on viimastel aastakümnetel muutunud näiliselt võimatuks. Näiteks kasutatakse seda praegu mitmesugustes rakendustes, nagu sotsiaalvõrgustike analüüs, pettuste tuvastamine, teadus, investeerimine, tootmine, telekommunikatsioon, andmete puhastamine, sport, teabeotsing ja suuresti turundus. KDD-d kasutatakse tavaliselt sellistele küsimustele vastamiseks, nagu millised on peamised tooted, mis võivad aidata järgmisel aastal Wal-Martis suurt kasumit teenida?. Sellel protsessil on mitu etappi. See algab rakenduse domeenist ja eesmärgist arusaamise arendamisega ning seejärel sihtandmestiku loomisega. Sellele järgneb andmete puhastamine, eeltöötlus, vähendamine ja projitseerimine. Järgmine samm on andmekaeve (selgitatud allpool) kasutamine mustri tuvastamiseks. Lõpuks konsolideeritakse avastatud teadmised visualiseerimise ja/või tõlgendamise teel.
Mis on andmekaeve?
Nagu eespool mainitud, on andmekaevandamine vaid üks samm üldises KDD protsessis. Rakenduse eesmärgis määratletud andmete kaevandamisel on kaks peamist eesmärki ja need on kontrollimine või avastamine. Kontrollimine kontrollib kasutaja hüpoteesi andmete kohta, samas kui avastamine leiab automaatselt huvitavaid mustreid. Andmekaevandamisel on neli peamist ülesannet: rühmitamine, klassifitseerimine, regressioon ja seostamine (kokkuvõte). Klasterdamine on sarnaste rühmade tuvastamine struktureerimata andmete põhjal. Klassifikatsioon on õppimisreeglid, mida saab rakendada uutele andmetele. Regressioon on minimaalse veaga funktsioonide leidmine andmete modelleerimiseks. Ja assotsiatsioon otsib seoseid muutujate vahel. Seejärel tuleb valida konkreetne andmekaeve algoritm. Sõltuv alt eesmärgist saab valida erinevaid algoritme, nagu lineaarne regressioon, logistiline regressioon, otsustuspuud ja naiivsed lahed. Seejärel otsitakse huvipakkuvaid mustreid ühes või mitmes esitusvormis. Lõpuks hinnatakse mudeleid kas ennustava täpsuse või arusaadavuse abil.
Mis vahe on KDD ja andmekaeve vahel?
Kuigi kahte mõistet KDD ja Data Mining kasutatakse laialdaselt vaheldumisi, viitavad need kahele omavahel seotud, kuid veidi erinevale mõistele. KDD on andmetest teadmiste ammutamise üldine protsess, samas kui andmekaevandamine on samm KDD protsessi sees, mis tegeleb andmete mustrite tuvastamisega. Teisisõnu on andmekaevandamine ainult konkreetse algoritmi rakendamine, mis põhineb KDD protsessi üldisel eesmärgil.