Andmekaeve vs andmehoidla
Andmekaeve ja andmeladu on mõlemad väga võimsad ja populaarsed meetodid andmete analüüsimiseks. Statistika poole kalduvad kasutajad kasutavad andmekaevet. Nad kasutavad andmetes peidetud mustrite otsimiseks statistilisi mudeleid. Andmekaevurid on huvitatud kasulike seoste leidmisest erinevate andmeelementide vahel, mis on lõppkokkuvõttes ettevõtetele kasumlik. Kuid teisest küljest kipuvad andmeeksperdid, kes suudavad ettevõtte dimensioone vahetult analüüsida, kasutama andmeladusid.
Andmekaeve on tuntud ka kui teadmiste avastamine andmetes (KDD). Nagu eelpool mainitud, on tegemist arvutiteaduse valdkonnaga, mis tegeleb toorandmetest senitundmatu ja huvitava info ammutamisega. Seoses andmete eksponentsiaalse kasvuga, eriti sellistes valdkondades nagu äri, on andmekaevandamine muutunud väga oluliseks vahendiks selle suure andmehulga ärianalüüsiks teisendamiseks, kuna mustrite käsitsi eraldamine on viimastel aastakümnetel muutunud näiliselt võimatuks. Näiteks kasutatakse seda praegu mitmesuguste rakenduste jaoks, nagu sotsiaalvõrgustike analüüs, pettuste tuvastamine ja turundus. Andmekaevandamine tegeleb tavaliselt nelja järgmise ülesandega: rühmitamine, klassifitseerimine, regressioon ja seostamine. Klasterdamine on sarnaste rühmade tuvastamine struktureerimata andmete põhjal. Klassifikatsioon on õppimisreeglid, mida saab rakendada uutele andmetele ja mis sisaldab tavaliselt järgmisi samme: andmete eeltöötlus, modelleerimise kavandamine, õppimine/funktsioonide valik ja hindamine/valideerimine. Regressioon on minimaalse veaga funktsioonide leidmine andmete modelleerimiseks. Ja assotsiatsioon otsib seoseid muutujate vahel. Andmekaevet kasutatakse tavaliselt sellistele küsimustele vastamiseks, nagu millised on peamised tooted, mis võivad aidata järgmisel aastal Wal-Martis suurt kasumit teenida?
Nagu eespool mainitud, kasutatakse andmehoidlat ka andmete analüüsimiseks, kuid erinevad kasutajad ja pisut erinevat eesmärki silmas pidades. Näiteks jaekaubandussektori puhul on andmehoidla kasutajad rohkem mures selle üle, millised ostud on klientide seas populaarsed, seega võivad analüüsi tulemused klienti aidata kliendikogemuse parandamisel. Kuid andmekaevurid oletavad esm alt hüpoteesi, näiteks millised kliendid ostavad teatud tüüpi tooteid, ja analüüsivad andmeid hüpoteesi kontrollimiseks. Andmehoidla võiks läbi viia suur jaemüüja, kes varustab oma kauplustes algselt sama suurusega tooteid, et hiljem teada saada, et New Yorgi kauplused müüvad väiksema suurusega laoseisu palju kiiremini kui Chicago kauplustes. Seega saab jaemüüja seda tulemust vaadates New Yorgi poodi varustada Chicago kauplustega võrreldes väiksemate suurustega.
Niisiis, nagu selgelt näete, näivad need kaks analüüsitüüpi palja silmaga vaadates sama laadi. Mõlemad muretsevad ajalooliste andmete põhjal kasumi suurendamise pärast. Kuid loomulikult on olulisi erinevusi. Lihtsam alt öeldes on Data Mining ja Data Warehousing pühendatud erinevat tüüpi analüütika sisustamisele, kuid kindlasti erinevat tüüpi kasutajatele. Teisisõnu otsib andmekaevandamine korrelatsioone, mustreid, mis toetavad statistilist hüpoteesi. Andmehoidla vastab aga suhteliselt laiemale küsimusele ning jagab andmeid se alt edasi, et tuvastada, kuidas tulevikus parandada.