尤度比検定としての中央値検定

2008.1.13
2008.1.18最終修正

 尤度比検定は、よく使われる便利な検定の枠組みである。中央値検定(メディアン検定)といえば、ノンパラメトリック検定の中でも、依存している仮定の少ない検定である。両者の関係は薄いようにも見えるかもしれないが、ノンパラメトリックな検定も何らかの確率モデルは想定している(特定の分布を想定しないだけ)。中央値検定は、尤度比検定の例であるとも考えることができる。

中央値と確率モデル

 母中央値を境にして、大と小の2つに分けると、等しい確率で得られて、しかも合計は(全体だから)1である。つまり、大も小もそれぞれ0.5の確率でおこる。
 ある母中央値を持つ母集団からの、サンプルサイズnの標本で、大がx個、小が(n-x)個となる確率は、nCxj・(0.5)^x・(0.5)^(n-x)、つまり、n!/x!/(n-x)!・(0.5)^nである。

最尤推定

 1サンプル(サンプルサイズnは偶数としておく)の、データを小さい方から大きい方にy1,y2・・・と順にならべる。母中央値がyjとyj+1の間にあるとすると(小がj個))、尤度は、すぐ上の項から、nCj・(0.5)^nである。nCjとnCj+1の比は(j+1)/(n-j)だから、j=n/2つまりサンプルのデータを二分するところに母中央値があるときに最大となり(nが奇数ときには、(n-1)/2と(n+1)/2の尤度は等しい)、ここに母中央値があると推定するのが最尤推定となる。

尤度比検定

対立仮説のモデル  母中央値がちがう(対立仮説に対応)モデルでは、上記の1サンプルの場合をそれぞれのサンプルについて行なったものが最大尤度を与えるから、サンプルサイズをn1,n2(いずれも偶数とする)とすると、最大尤度は、
 n1Cn1/2・(0.5)^n1×n2Cn2/2・(0.5)^n2
となる。母中央値はちがっていいので、パラメーターは2つである。

帰無仮説のモデル 母中央値が同じ(帰無仮説に対応)するモデルでは、両方を一緒にした(n1+n2)個を大きい半分と小さい半分に分けることになる。
第1のサンプルは、小さい方にx1個、大きい方に(n1-x1)個
第2のサンプルは、小さい方にx2個、大きい方に(n2-x2)個
と分かれたとする(x1+x2=(n1+n2)/2である)。母中央値は同じなので、パラメーターは1つである。
第1のサンプルについてのこちらのモデルの最大尤度は、n1Cx1・(0.5)^n1、第2のサンプルについては、n2Cx2・(0.5)^n1となる。

 最大対数尤度の差は、log{n1Cn1/2}+log{n2Cn2/2}−log{n1Cx1}−log{n2Cx2}で、整理すると、
log{x1!}+log{(n1-x1)!}+log{x2!}+log{(n2-x2)!}−2log{(n1/2)!}−2log{(n2/2)!}となる。スターリングの公式で近似すると、
x1・log(x1)-x1+(n1-x1)・log(n1-x1)-(n1-x1)+x2・log(x2)-x2+(n2-x2)・log(n2-x2)-(n2-x2)
−n1・log(n1/2)+n1−n2・log(n2/2)+n2
で、整理すると
x1・log(x1)+(n1-x1)・log(n1-x1)-n1+x2・log(x2)+(n2-x2)・log(n2-x2)-n2
−n1・log(n1/2)+n1−n2・log(n2/2)+n2
=x1・log(x1)+(n1-x1)・log(n1-x1)+x2・log(x2)+(n2-x2)・log(n2-x2)
−n1・log(n1/2)−n2・log(n2/2)
=x1・log{x1/(n1/2)}+(n1-x1)・log{(n1-x1)/(n1/2)}+x2・log{x2/(n2/2)}+(n2-x2)・log{(n2-x2)/(n2/2)}
となる。この2倍が対数尤度比統計量で、この場合、(パラメーター数の差は2-1=1なので)自由度1のカイ2乗分布と比べることになる。
 対数尤度比統計量は、
 2×(実測値)log(実測値/帰無仮説のもとでの期待値) の合計
という形をしている。

 中央値検定では2×2分割表を作って検定するが、その際には、Fisherの検定やいわゆるカイ2乗検定、G検定などが使われる。上記の対数尤度比統計量はG検定するときのG統計量と同じである(G検定は、尤度比に基づくものだから、意外性は薄いが)。