Variance vs Covariance
Diperatsioon ja kovariatsioon on kaks statistikas kasutatavat mõõdikut. Dispersioon on andmete hajumise mõõt ja kovariatsioon näitab kahe juhusliku muutuja koos muutumise astet. Dispersioon on pigem intuitiivne mõiste, kuid kovariatsioon on matemaatiliselt määratletud algul mitte nii intuitiivselt.
Lisateavet variatsiooni kohta
Diperatsioon on andmete hajumise mõõt jaotuse keskmisest väärtusest. See näitab, kui kaugel asuvad andmepunktid jaotuse keskmisest. See on tõenäosusjaotuse üks peamisi kirjeldajaid ja üks jaotuse momente. Samuti on dispersioon üldkogumi parameeter ja valimi dispersioon populatsioonist toimib üldkogumi dispersiooni hinnanguna. Ühest vaatenurgast on see defineeritud standardhälbe ruuduna.
Lihtkeeles võib seda kirjeldada kui iga andmepunkti vahelise kauguse ja jaotuse keskmise ruutude keskmist. Dispersiooni arvutamiseks kasutatakse järgmist valemit.
Var(X)=E[(X-µ)2] populatsiooni jaoks ja
Var(X)=E[(X-‾x)2] proovi jaoks
Seda saab veelgi lihtsustada, andes Var(X)=E[X2]-(E[X])2.
Variance'il on mõned allkirjaomadused ja seda kasutatakse sageli statistikas kasutamise lihtsustamiseks. Dispersioon ei ole negatiivne, kuna see on kauguste ruut. Kuid dispersiooni vahemik ei ole piiratud ja sõltub konkreetsest jaotusest. Konstantse juhusliku muutuja dispersioon on null ja dispersioon asukohaparameetri suhtes ei muutu.
Lisateavet kovariatsiooni kohta
Statistika teoorias on kovariatsioon mõõt, mis näitab, kui palju kaks juhuslikku muutujat koos muutuvad. Teisisõnu, kovariatsioon on kahe juhusliku muutuja vahelise korrelatsiooni tugevuse mõõt. Samuti võib seda pidada kahe juhusliku muutuja dispersiooni mõiste üldistuseks.
Kahe juhusliku suuruse X ja Y kovariatsiooni, mis on ühiselt jaotatud lõpliku teise impulsiga, nimetatakse σXY=E[(X-E[X])(Y-E[Y])]. Sellest lähtuv alt võib dispersiooni vaadelda kui kovariatsiooni erijuhtu, kus kaks muutujat on samad. Cov(X, X)=Var(X)
Kovariatsiooni normaliseerimisel on võimalik saada lineaarne korrelatsioonikordaja või Pearsoni korrelatsioonikordaja, mis on defineeritud kui ρ=E[(X-E[X])(Y-E[Y])]/(σ X σY)=(Cov(X, Y))/(σX σY )
Graafiliselt võib andmepunktide paari vahelist kovariatsiooni vaadelda ristküliku pindalana, mille andmepunktid on vastastippudes. Seda saab tõlgendada kui kahe andmepunkti vahelise eralduse suurusjärku. Arvestades kogu üldkogumi ristkülikuid, võib eraldamise tugevuseks lugeda kõikidele andmepunktidele vastavate ristkülikute kattumist; kahe muutuja dispersioon. Kovariatsioon on kahes mõõtmes kahe muutuja tõttu, kuid selle lihtsustamine üheks muutujaks annab singli dispersiooni kui lahutust ühes mõõtmes.
Mis vahe on dispersioonil ja kovariatsioonil?
• Dispersioon on populatsiooni leviku/hajumise mõõt, samas kui kovariatsiooni peetakse kahe juhusliku muutuja variatsiooni või korrelatsiooni tugevuse mõõduks.
• Dispersiooni võib pidada kovariatsiooni erijuhuks.
• Dispersioon ja kovariatsioon sõltuvad andmeväärtuste suurusest ja neid ei saa võrrelda; seetõttu on need normaliseeritud. Kovariatsioon normaliseeritakse korrelatsioonikordajaks (jagades kahe juhusliku suuruse standardhälbe korrutisega) ja dispersioon standardhälbeks (võtes ruutjuure)