Keskne tendents vs dispersioon
Kirjeldavas ja järeldavas statistikas kasutatakse andmekogumi kirjeldamiseks mitmeid indekseid, mis vastavad selle kesksele tendentsile, hajutatusele ja kalduvusele: kolm kõige olulisemat omadust, mis määravad andmestiku jaotuse suhtelise kuju.
Mis on keskne tendents?
Keskne tendents viitab väärtuste jaotuse keskpunktile ja selle asukoha. Keskmine, režiim ja mediaan on andmekogumi keskse tendentsi kirjeldamisel kõige sagedamini kasutatavad indeksid. Kui andmekogum on sümmeetriline, langevad nii andmekogumi mediaan kui ka keskmine omavahel kokku.
Arvestades andmekogumit, arvutatakse keskmine, võttes kõigi andmeväärtuste summa ja jagades selle seejärel andmete arvuga. Näiteks mõõdetakse 10 inimese kaaluks (kilogrammides) 70, 62, 65, 72, 80, 70, 63, 72, 77 ja 79. Seejärel võib kümne inimese keskmiseks kaaluks (kilogrammides) olla arvutatakse järgmiselt. Kaalude summa on 70 + 62 + 65 + 72 + 80 + 70 + 63 + 72 + 77 + 79=710. Keskmine=(summa) / (andmete arv)=710 / 10=71 (kilogrammides). On arusaadav, et kõrvalekalded (andmepunktid, mis erinevad tavapärasest trendist) mõjutavad keskmist. Seega ei anna keskmine väärtus ainuüksi kõrvalekallete olemasolul andmekogu keskpunktist õiget pilti.
Mediaan on andmepunkt, mis asub andmekogumi täpselt keskel. Üks viis mediaani arvutamiseks on andmepunktide järjestamine kasvavas järjekorras ja seejärel andmepunkti leidmine keskelt. Näiteks kui eelmine andmekogum on kord tellitud, näeb see välja selline: 62, 63, 65, 70, 70, 72, 72, 77, 79, 80. Seetõttu on (70+72)/2=71 keskel. Sellest on näha, et mediaan ei pea andmekogus olema. Väliste väärtuste olemasolu mediaani ei mõjuta. Seega on mediaan kõrvalekallete esinemise korral keskse tendentsi paremaks mõõdikuks.
Režiim on andmekogumi kõige sagedamini esinev väärtus. Eelmises näites esinevad väärtused 70 ja 72 mõlemad kaks korda ja seega on mõlemad režiimid. See näitab, et mõnes jaotuses on rohkem kui üks modaalväärtus. Kui on ainult üks režiim, siis öeldakse, et andmekogum on unimodaalne, sel juhul on andmekogum bimodaalne.
Mis on dispersioon?
Dispersioon on jaotuse keskpunkti kohta levivate andmete hulk. Vahemik ja standardhälve on kõige sagedamini kasutatavad dispersiooni mõõdikud.
Vahemik on lihts alt suurim väärtus miinus madalaim väärtus. Eelmises näites on kõrgeim väärtus 80 ja madalaim väärtus 62, seega on vahemik 80-62=18. Kuid vahemik ei anna dispersiooni kohta piisavat pilti.
Standardhälbe arvutamiseks arvutatakse esm alt andmeväärtuste kõrvalekalded keskmisest. Hälvete ruutkeskmist nimetatakse standardhälbeks. Eelmises näites on vastavad kõrvalekalded keskmisest (70 – 71)=-1, (62 – 71)=-9, (65 – 71)=-6, (72 – 71)=1, (80 – 71)=9, (70–71)=-1, (63–71)=-8, (72–71)=1, (77–71)=6 ja (79–71)=8. hälbe ruudud on (-1)2 + (-9)2 + (-6)2+ 12 + 92 + (-1)2 + (-8) 2 + 12 + 62 + 82=366 Standardhälve on √(366/10)=6,05 (kilogrammides). Välja arvatud juhul, kui andmekogum on väga kallutatud, võib sellest järeldada, et suurem osa andmetest on vahemikus 71±6,05 ja see on selles konkreetses näites tõepoolest nii.
Mis vahe on tsentraalsel tendentsil ja hajutatusel?
• Keskne tendents viitab väärtuste jaotuse keskpunktile ja määrab selle asukoha
• Dispersioon on andmekogumi keskpunkti kohta levivate andmete hulk.