Lineaarne vs logistiline regressioon
Statistilises analüüsis on oluline tuvastada seosed uuringuga seotud muutujate vahel. Mõnikord võib see olla analüüsi enda ainus eesmärk. Üks tugev vahend, mida kasutatakse seose olemasolu kindlakstegemiseks ja seose tuvastamiseks, on regressioonanalüüs.
Regressioonanalüüsi lihtsaim vorm on lineaarne regressioon, kus muutujate vaheline seos on lineaarne seos. Statistilises mõttes toob see välja seose seletava muutuja ja vastuse muutuja vahel. Näiteks regressiooni abil saame juhusliku valimi põhjal kogutud andmete põhjal luua seose kauba hinna ja tarbimise vahel. Regressioonanalüüs loob andmekogumist regressioonifunktsiooni, mis on matemaatiline mudel, mis sobib kõige paremini olemasolevate andmetega. Seda saab hõlpsasti kujutada hajuvusdiagrammiga. Graafiliselt regressioon on võrdne antud andmekogumi jaoks kõige sobivama kõvera leidmisega. Kõvera funktsioon on regressioonifunktsioon. Matemaatilise mudeli abil saab ennustada kauba kasutamist antud hinna puhul.
Seetõttu kasutatakse regressioonanalüüsi ennustamisel ja prognoosimisel laialdaselt. Seda kasutatakse ka seoste loomiseks eksperimentaalsetes andmetes, füüsika, keemia valdkondades ning paljudes loodusteadustes ja inseneriteadustes. Kui seos või regressioonifunktsioon on lineaarne funktsioon, nimetatakse seda protsessi lineaarseks regressiooniks. Hajumisgraafikul saab seda kujutada sirgjoonena. Kui funktsioon ei ole parameetrite lineaarne kombinatsioon, siis on regressioon mittelineaarne.
Logistiline regressioon on võrreldav mitme muutujaga regressiooniga ja see loob mudeli, mis selgitab mitme ennustaja mõju vastuse muutujale. Logistilise regressiooni korral peaks lõpptulemuse muutuja siiski olema kategooriline (tavaliselt jagatud; st saavutatavate tulemuste paar, nagu surm või ellujäämine, kuigi eritehnikad võimaldavad modelleerida rohkem kategoriseeritud teavet). Pideva tulemuse muutuja võib teisendada kategooriliseks muutujaks, mida kasutatakse logistiliseks regressiooniks; kuid pidevate muutujate sellisel viisil ahendamine on enamasti ebasoovitav, kuna see vähendab täpsust.
Erinev alt lineaarsest regressioonist ei pea logistilise regressiooni ennustavad muutujad olema sunnitud olema lineaarselt ühendatud, ühiselt jaotunud või et neil oleks võrdne dispersioon igas klastris. Seetõttu ei ole ennustaja ja tulemuse muutujate vaheline seos tõenäoliselt lineaarne funktsioon.
Mis vahe on logistilisel ja lineaarsel regressioonil?
• Lineaarse regressiooni puhul eeldatakse, et seletava muutuja ja vastuse muutuja vahel on lineaarne seos ning analüüsi teel leitakse mudelit rahuldavad parameetrid, et saada täpne seos.
• Kvantitatiivsete muutujate puhul viiakse läbi lineaarne regressioon ja tulemuseks on kvantitatiivne funktsioon.
• Logistilises regressioonis võivad kasutatud andmed olla kas kategoorilised või kvantitatiivsed, kuid tulemus on alati kategooriline.