Poisson-regressio

Poisson-regressio on yleistettyjen lineaaristen mallien erikoistapaus. Poisson-regressiota käytetään lukumääräaineistojen mallintamiseen. Kuten yleensäkin yleistettyjen lineaaristen mallien kohdalla, tässäkin tapauksessa oletetaan havaintojen riippumattomuus. (Pitkittäisaineistojen kohdalla riippuvuus huomioidaan käyttämällä marginaalimalleja, yleistettyjä lineaarisia sekamalleja tai transitiomalleja.)

Yleistettyjen lineaaristen mallien toinen oletus riippumattomuuden lisäksi on, että Yi:den jakauma kuuluu eksponentiaaliseen perheeseen. Yleistettyjen lineaaristen mallien tapauksessa jakauma kuuluu eksponentiaalisen perheeseen, jos jakauma voidaan kirjoittaa muodossa

f Y ( y i ; θ i , ϕ ) = exp ( y i θ i a ( θ i ) ϕ + b ( y i , ϕ ) ) {\displaystyle f_{Y}(y_{i};\theta _{i},\phi )=\exp {\left({\frac {y_{i}\theta _{i}-a(\theta _{i})}{\phi }}+b(y_{i},\phi )\right)}\,\!} ,jossa Ф on skaalaparametri, θ on kanooninen lokaatio ja a() , b() ovat jakaumaspesifejä funktioita.

Poisson-jakauma voidaan kirjoittaa muodossa

f Y ( y i ; μ i ) = exp ( μ i ) μ i y i y i ! = exp ( ( y i ) l o g ( μ i ) exp ( l o g ( μ i ) ) l o g ( y i ! ) ) {\displaystyle f_{Y}(y_{i};\mu _{i})={\frac {\exp {(\mu _{i})}\mu _{i}^{y_{i}}}{y_{i}!}}=\exp((y_{i})log(\mu _{i})-\exp(log(\mu _{i}))-log(y_{i}!))\,\!}

Nyt

θ i = l o g ( μ i ) , ϕ = 1 , a ( θ i ) = exp ( θ i ) {\displaystyle \theta _{i}=log(\mu _{i}),\phi =1,a(\theta _{i})=\exp(\theta _{i})\,\!} .

Viimeisintä voidaan käyttää poisson-jakauman odotusarvon ja varianssin määrittämiseen. (Odotusarvo sekä varianssi ovat µi.) Poisson-jakauma siis kuuluu eksponentiaaliseen perheeseen.

Systemaattiseksi osaksi yleistetyissä lineaarisissa malleissa sanotaan osaa

η i = β 1 x i 1 + . . . + β p x i p {\displaystyle {\boldsymbol {\eta _{i}}}=\beta _{1}x_{i1}+...+\beta _{p}x_{ip}\,\!} .

Linkkifunktio linkittää systemaattisen osan vasteen odotusarvoon

g ( μ i ) = η i = β 1 x i 1 + . . . + β p x i p {\displaystyle \operatorname {g} ({\boldsymbol {\mu _{i}}})={\boldsymbol {\eta _{i}}}=\beta _{1}x_{i1}+...+\beta _{p}x_{ip}\,\!} .

Poisson-regressiossa linkkifunktio on gi) = log(µi). Tämän vuoksi estimoitua regressio-kerrointa βi voidaan tulkita poisson-regressiossa seuraavasti. (Olettaen, että interaktioita ei ole.) Verrattaessa kahta yksilöä, jotka poikkeavat vain tarkasteltavan muuttujan suhteen yhdellä yksiköllä, odotettu vasteen lukumäärä muuttuu exp(βi)-kertaiseksi.

Poisson-regressio ja altistus

Monesti ollaan kiinnostuneita tapahtumien intensiteetistä, esimerkiksi liikennekuolemista miljoonaa asukasta kohden. Tällaisissa tapauksissa kirjoitetaan µi = miλi. λi on intensiteetti ja mi on altistuneiden tai altistuksen määrä useimmiten tiettynä aikana (esim. kuukaudessa) tai tietyssä paikassa (esim. Suomessa). Yleistetyissä lineaarisissa malleissa altistuksen logaritmista käytetään nimitystä offset. Intensiteetin logaritmi riippuu lineaarisesti prediktoreista

log ( μ i ) = log ( λ i ) + log ( m i ) = β 1 x i 1 + . . . + β p x i p + log ( m i ) {\displaystyle \log(\mu _{i})=\log(\lambda _{i})+\log(m_{i})=\beta _{1}x_{i1}+...+\beta _{p}x_{ip}+\log(m_{i})\,\!}

Jos intensiteettiä ei tarvitse huomioida, niin offset prediktori log(mi) asetetaan nollaksi eli mi ykköseksi.

Uskottavuusfunktio ja estimointi

Kun käytetään edellisiä merkintöjä (μi = miλi) ja merkitään β1xi1 + ... + βpxip = xiβ, niin uskottavuus voidaan kirjoittaa muodossa

L ( β ) = i = 1 n m i exp ( x i β ) y i y i ! exp ( m i exp ( x i β ) ) {\displaystyle L(\beta )=\prod _{i=1}^{n}{\frac {m_{i}\exp {({\boldsymbol {x_{i}^{'}\beta }})^{y_{i}}}}{y_{i}!}}\exp(-m_{i}\exp({\boldsymbol {x_{i}^{'}\beta }}))}
L ( β ) = exp ( i = 1 n y i x i β m i exp ( x i β ) + y i log ( m i ) log ( y i ! ) ) {\displaystyle L(\beta )=\exp(\sum _{i=1}^{n}y_{i}{\boldsymbol {x_{i}^{'}\beta }}-m_{i}\exp({\boldsymbol {x_{i}^{'}\beta }})+y_{i}\log(m_{i})-\log(y_{i}!))}

Suurimman uskottavuuden estimaatit saadaan, kun maksimoidaan uskottavuusfunktion logaritmi. Ratkaisu löytyy asettamalla osittaisderivaatat nolliksi. Kun oletetaan, että selittäjien matriisi X, ykkössarakkeella täydennettynä, on täysiasteinen, niin pätee, että mikäli uskottavuusyhtälöllä logL(β)/∂β = 0 on äärellinen ratkaisu, niin se on yksikäsitteinen suurimman uskottavuuden estimaatti.

Uskottavuusyhtälöt ovat

i = 1 n y i x i = i = 1 n m i exp ( x i β ) x i {\displaystyle \sum _{i=1}^{n}y_{i}{\boldsymbol {x_{i}}}=\sum _{i=1}^{n}m_{i}\exp({\boldsymbol {x_{i}^{'}\beta }}){\boldsymbol {x_{i}}}}

Uskottavuusyhtälöt ratkaistaan numeerisesti IWLS-menetelmällä. Samaa menetelmää käytetään myös logistisen regression tapauksessa. Jos β(0) on alkuarvo, niin seuraava arvo on β(1) = β(0) + δ(1), missä

δ ( 1 ) = ( X W ( 0 ) X ) 1 X W ( 0 ) U ( 0 ) {\displaystyle {\boldsymbol {\delta ^{(1)}}}=({\boldsymbol {X}}^{'}{\boldsymbol {W}}^{(0)}{\boldsymbol {X}})^{-1}{\boldsymbol {X}}^{'}{\boldsymbol {W}}^{(0)}{\boldsymbol {U}}^{(0)}}
W ( 0 ) = d i a g [ m 1 exp ( x 1 β ( 0 ) ) , . . . , m n exp ( x n β ( 0 ) ) ] {\displaystyle {\boldsymbol {W^{(0)}}}=diag[m_{1}\exp({\boldsymbol {x}}_{1}^{'}{\boldsymbol {\beta }}^{(0)}),...,m_{n}\exp({\boldsymbol {x}}_{n}^{'}{\boldsymbol {\beta }}^{(0)})]}
U ( 0 ) = ( y 1 m 1 exp ( x 1 β ( 0 ) ) m 1 exp ( x 1 β ( 0 ) ) , , y n m n exp ( x n β ( 0 ) ) m n exp ( x n β ( 0 ) ) ) {\displaystyle {\boldsymbol {U^{(0)}}}=({\frac {y_{1}-m_{1}\exp({\boldsymbol {x_{1}^{'}\beta ^{(0)})}}}{m_{1}\exp({\boldsymbol {x_{1}^{'}\beta ^{(0)})}}}},\ldots ,{\frac {y_{n}-m_{n}\exp({\boldsymbol {x_{n}^{'}\beta ^{(0)})}}}{m_{n}\exp({\boldsymbol {x_{n}^{'}\beta ^{(0)})}}}})}

Suurilla otoksilla pätee likimäärin tulos

β   N ( β , ( X W ( β ) X ) 1 ) {\displaystyle {\boldsymbol {\beta }}~N({\boldsymbol {\beta }},({\boldsymbol {X^{'}}}{\boldsymbol {W(\beta )}}{\boldsymbol {X}})^{-1})} ,

missä W(β) on kuten W^((0)), mutta β^((0)):n paikalla on (tuntematon) oikea arvo β. Kovarianssimatriisi on Fisherin informaatiomatriisin käänteismatriisi. Fisherin informaatiomatriisi lasketaan derivoimalla uskottavuusfunktio kahdesti ja vaihtamalla etumerkki

I ( β ) = d 2 log ( L ) d 2 β d 2 β = X W ( β ) X {\displaystyle {\boldsymbol {I(\beta )}}=-{\frac {d^{2}\log(L)}{d^{2}{\boldsymbol {\beta }}d^{2}{\boldsymbol {\beta ^{'}}}}}={\boldsymbol {X^{'}}}{\boldsymbol {W(\beta )}}{\boldsymbol {X}}}

Keskivirheet saadaan kun käyetetään matriisia

W ^ = W ( β ^ ) {\displaystyle {\widehat {\boldsymbol {W}}}={\boldsymbol {W({\widehat {\beta }})}}}

Devianssi

Devianssin avulla voidaan verrata tiettyä poisson-regressiomallia kyllästettyyn l. saturoituun malliin. Eli siis devianssin avulla voidaan sovittaa sopiva malli. Tässä tapauksessa kyllästetty malli on sellainen, että intensiteetit λ_i saavat arvonsa riippumatta selittäjien arvoista. On osoitettu, että λ_i:n suurimman uskottavuuden estimaatti on

y ^ i = y i m i , i = 1 , , n {\displaystyle {\widehat {y}}_{i}={\frac {y_{i}}{m_{i}}},i=1,\ldots ,n}

Kyllästetyn mallin ja Poisson-regressiomallin uskottavuudet ovat

L ^ s a t = i = 1 n ( m i y ^ i ) y i y i ! exp ( m i y ^ i ) {\displaystyle {\widehat {L}}_{sat}=\prod _{i=1}^{n}{\frac {(m_{i}{\widehat {y}}_{i})^{y_{i}}}{y_{i}!}}\exp(-m_{i}{\widehat {y}}_{i})}
L ^ = i = 1 n m i exp ( x i β ^ ) y i y i ! exp ( m i exp ( x i β ^ ) ) {\displaystyle {\widehat {L}}=\prod _{i=1}^{n}{\frac {m_{i}\exp {({\boldsymbol {x_{i}^{'}{\widehat {\beta }}}})^{y_{i}}}}{y_{i}!}}\exp(-m_{i}\exp({\boldsymbol {x_{i}^{'}{\widehat {\beta }}}}))}

Merkitään

λ ^ i = exp ( x i β ^ ) {\displaystyle {\widehat {\lambda }}_{i}=\exp({\boldsymbol {x_{i}^{'}{\widehat {\beta }}}})}

Devianssiksi D saadaan tällöin (viimeinen yhtäsuuruus pätee, kun mallissa on vakio)

D = 2 log ( L ^ s a t L ^ ) = 2 i = 1 n y i log ( y i m i θ ^ i ) {\displaystyle D=2\log({\frac {{\widehat {L}}_{sat}}{\widehat {L}}})=2\sum _{i=1}^{n}y_{i}\log({\frac {y_{i}}{m_{i}{\widehat {\theta }}_{i}}})}

Devianssi noudattaa likimäärin χ^2(n-p-1)-jakaumaa. Approksimaatio voi olla huono, jos odotetut frekvenssit ovat pieniä. Devianssia voidaan käyttää yhteensopivuustestinä hypoteeseille

H 0 : log ( μ i ) = log ( m i ) + x i β , i = 1 , , n {\displaystyle H_{0}:\log(\mu _{i})=\log(m_{i})+{\boldsymbol {x_{i}^{'}\beta }},i=1,\ldots ,n}

Vastahypoteesina on, että odotusarvot µi ovat mielivaltaisia.

Kun oletetaan, että tietty p:n selittäjän poisson-regressiomalli on oikea malli, voidaan testata kertoimien osajoukkoon liittyvää nollahypoteesia

H 0 : β q + 1 = = β p = 0 {\displaystyle H_{0}:\beta _{q+1}=\ldots =\beta _{p}=0}

Vastahypoteesina on, että ainakin jokin βj on erisuurta kuin nolla, j = q+1, ... , p. Testi konstruoidaan maksimoimalla sekä p:n selittäjän (oletettu oikea) malli että suppeampi q:n selittäjän malli, joita merkitään Lp ja Lq. Kun H0 on tosi

2 log ( L ^ p L ^ q ) = D q D p   χ 2 ( p q ) {\displaystyle 2\log({\frac {{\widehat {L}}_{p}}{{\widehat {L}}_{q}}})=D_{q}-D_{p}~\chi ^{2}(p-q)} likimäärin. Dp ja Dq ovat laajemman ja suppeamman mallin devianssit.

Tätä sanotaan myös uskottavuusosamäärän testiksi. Toisin sanoen uskottavuusosamäärän testiä voi kuvata niin, että sillä vertaillaan sisäkkäisiä malleja.

AIC ja BIC

Kun uskottavuusosamäärän testillä vertaillaan sisäkkäisiä malleja, niin AIC:n (Akaiken informaatiokriteerin) ja BIC:n (Bayesilaisen informaatiokriteerin) avulla voidaan vertailla muita kilpailevia malleja. Jos mallin valinta tehtäisiin vain informaatiokriteerin perusteella, niin valittaisiin se malli, jolla on pienin AIC (tai BIC).

Jäännökset

Jäännösten avulla voidaan tutkia, onko Poisson-malli oikea ja tarvitseeko selittäjille tehdä muunnoksia. Jäännöskuvioissa ei pitäisi näkyä mitään selkeää kuviota (esim. hevosenkenkää), jotta malli olisi jokseenkin kunnossa. Kun malli on sovitettu ja saatu : log ( μ ^ i ) = x i β ^ {\displaystyle \log({\widehat {\mu }}_{i})={\boldsymbol {x_{i}^{'}{\widehat {\beta }}}}} , niin voidaan laskea standardoidut jäännökset

r i = y i m i exp ( μ i ^ ) m i exp ( μ i ^ ) {\displaystyle r_{i}={\frac {y_{i}-m_{i}\exp {({\widehat {\mu _{i}}})}}{\sqrt {m_{i}\exp {({\widehat {\mu _{i}}})}}}}}

Mikäli Poisson-malli on oikea, niin jäännösten pitäisi olla likimäärin riippumattomia, ja niiden odotusarvon pitäisi olla 0 ja keskihajonnan 1. Mallin sopivuutta voidaan testata laskemalla neliösumma Q = i = 1 n r i 2 {\displaystyle Q=\sum _{i=1}^{n}r_{i}^{2}} , jota verrataan χ 2 ( n p 1 ) {\displaystyle \chi ^{2}(n-p-1)} -jakaumaan. Jäännökset kannattaa piirtää sovitteen ja prediktoreiden suhteen.

Lähteet

  • McCullagh, P.; Nelder, J.: Generalized Linear Models. Chapman and Hall, 1989. ISBN 0-412-31760-5.
  • Karvanen, Juha: Generalized Linear Models, http://wiki.helsinki.fi/download/attachments/35917349/lectures.pdf?version=1 (Arkistoitu – Internet Archive)
  • Heikkinen, Juha: Yleistetyt lineaariset mallit, http://www.rni.helsinki.fi/~jmh/glm05/ (Arkistoitu – Internet Archive)
  • Nyblom, Jukka: Yleistetyt lineaariset mallit, http://users.jyu.fi/~junyblom/JTMprujub.pdf