一般化線形モデルと交互作用ー交互作用がないときに説明変数が交互作用項だけの分析をすると

2009.4.6
2009.3.25より

 本当は交互作用が存在しないときに、説明変数が交互作用項だけという分析をするとどうなるか、見てみる。以下は、identityリンクで誤差分布(familyがgaussian[等分散の正規分布])の場合の例である。

 まずデータである(n=20)。以下のx01とx02が説明変数である、
> x01
[1] 0.7452506 1.6278334 1.3070735 1.0267938 2.7319448 2.3952411 0.1893610
[8] 3.8487420 3.0717137 2.5531784 2.0608768 2.4838042 2.9895419 2.8983844
[15] 0.8401353 1.2294717 2.0002388 1.8784546 2.1792990 1.8727374
> x02
[1] -0.8687907 0.2168528 -2.3573511 -4.0435968 -1.9759199 -1.4642176
[7] -1.0799398 -2.2423776 1.0092726 -1.5163328 -2.2651893 -1.4782773
[13] -2.2331311 -3.2363845 -2.1090825 -3.1086167 -2.9875158 -1.4077831
[19] -0.9521418 -1.1867783

 ここから、以下のようにy001を作る。
> y001<-x01*3+x02*8
y001は、x01とx02の一次式で計算したものだから、x1とx2を説明変数としてidentityリンクで分析するとき、交互作用はない、
> y001
[1] -4.714574 6.618322 -14.937589 -29.268393 -7.611525 -4.528018
[7] -8.071436 -6.392795 17.289322 -4.471127 -11.938884 -4.374806
[13] -8.896424 -17.195923 -14.352255 -21.180519 -17.899410 -5.626901
[19] -1.079237 -3.876014

 説明変数をx01とx02、目的変数をy001として分析すると
> summary(glm(y001~x01+x02,family=gaussian))

Call:
glm(formula = y001 ~ x01 + x02, family = gaussian)

Deviance Residuals:
Min 1Q Median 3Q Max
-3.553e-15 -3.553e-15 -1.332e-15 -3.331e-16 3.553e-15

Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -1.589e-15 1.679e-15 -9.470e-01 0.357
x01 3.000e+00 6.301e-16 4.761e+15 <2e-16 ***
x02 8.000e+00 4.933e-16 1.622e+16 <2e-16 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

(Dispersion parameter for gaussian family taken to be 6.322488e-30)

Null deviance: 1.8881e+03 on 19 degrees of freedom
Residual deviance: 1.0748e-28 on 17 degrees of freedom
AIC: -1283.2

Number of Fisher Scoring iterations: 1

となる。そのように作ったので当然だが非常によくあてはまっている。残差は”桁落ち”部分だけである。

 今度は、交互作用項だけを説明変数として分析してみる、

> summary(glm(y001~x01:x02,family=gaussian))

Call:
glm(formula = y001 ~ x01:x02, family = gaussian)

Deviance Residuals:
Min 1Q Median 3Q Max
-19.761 -5.187 2.208 4.387 12.569

Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -1.3620 2.8887 -0.471 0.64296
x01:x02 1.9619 0.6416 3.058 0.00678 **
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

(Dispersion parameter for gaussian family taken to be 69.03538)

Null deviance: 1888.1 on 19 degrees of freedom
Residual deviance: 1242.6 on 18 degrees of freedom
AIC: 145.34

Number of Fisher Scoring iterations: 2

はっきりした交互作用が検出されていることがわかる。もともと交互作用が存在しないデータでも、交互作用項だけを説明変数に入れて分析すると、交互作用を検出してしまうことが起こりうることがわかる。したがって、交互作用項だけを説明変数に入れて分析して、交互作用項が大きな効果を持ったり有意だったりしてもそれは交互作用の存在を示すとはいえないことがわかる。