Lineaarinen regressioanalyysi

Lineaarinen regressioanalyysi on tilastollinen analyysimenetelmä, jossa aineiston perusteella estimoidaan tarkasteltavan vastemuuttujan lineaarista riippuvuutta selittävistä muuttujista. Menetelmää sovelletaan lähes kaikilla tieteenaloilla, joilla tehdään empiiristä tutkimusta. Lineaarinen regressiomalli kuuluu yleistettyjen lineaaristen mallien perheeseen.

Seuraavassa on esimerkki lineaarisesta regressioanalyysista, jossa estimoidaan yhtälön

y=\alpha +\beta x

,

tuntemattomat parametrit $\alpha ,\beta$ kun on havaittu selitettävän muuttujan $y_{i}$ ja selittävän muuttujan $x_{i}$ havainnot $i=1,..,n$ . Kirjoitetaan:

$y_{i}=\alpha +\beta x_{i}+\varepsilon _{i},$

missä $\varepsilon _{i}$ on mallin jäännösvirhe eli residuaali. Kun mallin parametrit estimoidaan pienimmän neliösumman menetelmällä, valitaan estimaatit siten, että residuaalien neliöiden summa minimoidaan.

Oletukset

Lineaarisessa regressioanalyysissa tehdään yleensä seuraavat oletukset.

Virhetermit $\varepsilon _{i}$ ovat jakautuneet siten, että suhteessa X_i:hin niiden odotusarvo on 0. Jos kahdesta satunnaismuuttujasta toisen ehdollinen odotusarvo suhteessa toiseen on 0, eli oletus pätee, on niiden välinen kovarianssi nolla, eli ne ovat toisistaan riippumattomat. Oletuksen tarkoituksena on siis, että virhetermin sisältämät muut Y:hyn vaikuttavat tekijät eivät ole riippuvaisia X:stä. Satunnaiskokeessa kohteet sijoitetaan satunnaisesti koe- tai kontrolliryhmään, jolloin voidaan olla varmoja siitä, että X vaikuttaa riippumatta muista tekijöistä $\varepsilon$ – seurauksena virhetermin odotusarvo suhteessa X:ään on 0. Muuten kuin hallitulla kokeella kerätyssä havaintoaineistossa X_i:n ja $\varepsilon _{i}$ :n välinen riippumattomuus täytyy varmistaa muulla tavoin. Jos Y:hyn vaikuttaa seikka, joka korreloi X:n kanssa ja jota ei ole otettu mukaan regressioanalyysiin omana muuttujanaan, syyllistytään puuttuvan muuttujan harhaan. Tällöin estimaattori on harhainen ja tarkentumaton. Ongelma on korjattavissa sisällyttämällä kyseinen muuttuja regressioanalyysin yhtälöön.^[1]
X_i ja Y_i ovat riippumattomia ja identtisesti jakautuneita (eli iid.) eri i:n arvoilla eli havainnosta toiseen. Tämä tarkoittaa, että yhden havainnon saamat arvot eivät riipu toisista havainnoista ja että havainnot ovat edustava otos havaintoaineistosta, eli niillä on sama jakautuma. Satunnaisotanta onnistuessaan takaa tavallisesti riippumattoman ja identtisen jakauman. Kaikki koejärjestelyt eivät toteuta iid-oletusta: jos esimerkiksi tehdään sarja kasvien istutuskokeita eri kastelumäärillä, jossa i:s ruukku kastellaan aina samalla tavalla, X_i ei ole riippumaton. Se olisi riippumaton, jos kokeesta toiseen eri ruukkujen saamat kastelumäärät päätettäisiin satunnaisesti. Aikasarjoissa on tavallista, että muuttujat eivät ole riippumattomia, esim. korkotaso kuukaudesta toiseen vaihtelee, mutta ei täysin satunnaisesti, vaan kuukausina joita edellä on ollut matalakorkoinen kuukausi on todennäköisesti myös matala korko.^[1]
Suuria poikkeavia havaintoja ei ole. Merkittävät poikkeamat vääristävät PNS-menetelmää, koska neliösummat kasvavat poikkeaman koon neliönä, mikä kasvattaa eksponentiaalisesti poikkeamien merkitystä suhteessa niiden suuruuteen. Jos aineistossa esiintyy suuria poikkeamia, on syytä tarkastaa onko kyseessä selvästi mittaus- tai merkintävirhe. Monet regressioanalyysillä analysoitavat suureet sisältävät luonnollisen rajoitteen, esimerkiksi matkustajamäärät eivät voi alittaa 0:aa eivätkä ylittää kulkuneuvon fyysistä kapasiteettia.^[1]
Useamman muuttujan regressioanalyysissä oletetaan, ja itse asiassa analyysin onnistuminen edellyttää, että muuttujien välillä ei ole täydellistä multikollineaarisuutta eli että yksi muuttujista olisi täydellisessä lineaarisessa riippuvuussuhteessa toiseen. Yleensä täydellinen multikollineaarisuus on merkki siitä, että tavalla tai toisella jokin muuttuja on tullut edustetuksi kaksi kertaa regressioyhtälössä, esimerkiksi eri mittayksiköissä.^[1]

Edellä mainittuja pidetään tavallisesti harhattoman lineaarisen regressioanalyysin vähimmäisehtoina. Kun lisäksi on voimassa, että virhetermit ovat homoskedastisia eli niiden varianssi X:n muuttuessa on vakio, pätee Gauss–Markov-teoreema. Sen mukaan pienimmän neliösumman estimaattori on oletuksien vallitessa tehokkain harhaton lineaarinen estimaattori eli BLUE (engl. best linear unbiased estimator). Toisin sanoen PNS ei ole vain eräs harhaton estimaattori, vaan paras. Vaihtoehtoisia menetelmiä ei tarvitse harkita sikäli kuin Gauss-Markov-ehdot täyttyvät.^[2]

Jos lisäksi virhetermit ovat normaalijakautuneita, voidaan estimaattorilla suorittaa tilastollista hypoteesin testausta esimerkiksi Studentin t-testillä. Normaaliusoletus voidaan usein perustella keskeisellä raja-arvolauseella, kun virhetermiin vaikuttavat seikat ovat monilukuisia.^[2]

Parametrien estimointi

Kirjoittamalla malli $y_{i}=\alpha +\beta x_{i}+\varepsilon _{i}$ lineaarisena yhtälösysteeminä voidaan malli esittää matriisimuodossa, jolloin X aineistomatriisi, Y vastevektori ja $\delta$ parametrivektori. Matriisien i. rivi sisältää aineiston rivit $x_{i}$ ja $y_{i}$ Tällöin malli voidaan kirjoittaa:

{\begin{bmatrix}y_{1}\\y_{2}\\\vdots \\y_{n}\end{bmatrix}}={\begin{bmatrix}1&x_{1}\\1&x_{2}\\\vdots &\vdots \\1&x_{n}\end{bmatrix}}{\begin{bmatrix}\alpha \\\beta \end{bmatrix}}+{\begin{bmatrix}\varepsilon _{1}\\\varepsilon _{2}\\\vdots \\\varepsilon _{n}\end{bmatrix}}

,

joka on matriiseina:

Y=X\delta +\varepsilon \,

Nyt yhtälö voidaan kertoa vasemmalta transponenttimatriisilla $X^{\operatorname {T} }\,$ :

X^{\operatorname {T} }Y=X^{\operatorname {T} }X\delta +X^{\operatorname {T} }\varepsilon \,

Olettaen, että matriisi $(X^{\operatorname {T} }X)^{-1}$ on olemassa, voidaan yhtälö kertoa sillä vasemmalta puolelta:

(X^{\operatorname {T} }X)^{-1}X^{\operatorname {T} }Y=(X^{\operatorname {T} }X)^{-1}X^{\operatorname {T} }X\delta +(X^{\operatorname {T} }X)^{-1}X^{\operatorname {T} }\varepsilon =\delta +(X^{\operatorname {T} }X)^{-1}X^{\operatorname {T} }\varepsilon \,

Ratkaisemalla yhtälö deltan suhteen saadaan:

\delta =(X^{\operatorname {T} }X)^{-1}X^{\operatorname {T} }Y-(X^{\operatorname {T} }X)^{-1}X^{\operatorname {T} }\varepsilon \,

Estimaatti deltalle saadaan merkitsemällä residuaalitermi nollaksi:

{\widehat {\delta }}=(X^{\operatorname {T} }X)^{-1}X^{\operatorname {T} }Y\,

Lähteet

↑ ^a ^b ^c ^d Stock, J. & Watson, M.: Introduction to Econometrics. Pearson, Boston, 2007.
↑ ^a ^b Wooldridge, J.: Introductory Econometrics. South-Western, Scarborough, Kanada, 2009.

Aiheesta muualla

Least Squares Fitting – MathWorld

[SW-1] Stock, J. & Watson, M.: Introduction to Econometrics. Pearson, Boston, 2007.

[Wool-2] Wooldridge, J.: Introductory Econometrics. South-Western, Scarborough, Kanada, 2009.

[1]

[2]