カイ2乗適合度検定と内部仮説ー正規性の検定など

2007.7.26 最終修正
2007.7.22 

 観察されたデータがある頻度分布にしたがうかどうかを検定するのに、いわゆるカイ2乗適合度検定は広く使われてきた。以前よりは使われなくなったとはいえ、実用例もよく見かけるし教育上の目的で使われることもよく見かける。この検定では、ある区間に入るデータの個数(実測値と呼ばれることが多い、以下O)を、理論や仮説から期待されるその区間に入るデータの個数(期待値と呼ばれることが多い、以下E)を比べる。比べるのに使われる検定統計量(Pearson X^2)は、区間iの実測値をOi、期待値をEiとすると、

X^2=煤o(Oi−Ei)^2/Ei}

である。帰無仮説(観察されたデータは、Eiであらわされる確率分布からのものである)のもとでは、漸近的(=サンプル数が無限大なら、の意味、実際上は、サンプル数がかなり大きければ、ということになる)にカイ2乗分布することが、この検定の名前の由来である。サンプル数がかなり大きいときでないと、この量の分布はカイ2乗分布にごく近いとは言えない(そこで、ここでは区別して、X^2と表記している)。とくに、Eiに小さいものがあるときにはくいちがいが大きいとよく言われている(二項検定や正確カイ2乗検定など、X^2がカイ2乗分布するとは仮定していない検定もあるので、現在では実用上は困らないが)。

 さて、X^2をどんな自由度のカイ2乗分布と比べればいいだろうか。状況は大きく2つに分かれる。1つはOiを出すのに使ったデータがEiを求めるのには使われない場合で、外部仮説と呼ばれる。このときは自由度は(区間の数−1)である。もう1つは、Oiを出すのに使ったデータをEiを求めるのにも使う場合で、内部仮説と呼ばれる。

 内部仮説は、さらに大きく2つの場合に分かれる。1つは各区間のデータ個数(上記のOi)から理論的な分布(たとえば正規分布)のパラメーターを推定してEiを求める場合である。もう1つは、各区間のデータ個数(つまりOi)ではなく各区間にグループ分けする前の元のデータからパラメーターを推定してEiを求める場合である。たとえば、あるデータが正規分布からサンプルされたものかどうかといった場合には、正規分布のパラメーター(母平均と母分散)はもとのデータを使って推定(母平均の推定値としては標本平均、母分散の推定値として不偏分散か標本分散を使うのが普通)し、Eiを計算するのが普通である。[前者のやり方のように、グループ分けした後のデータ個数と区間の区切り点の情報を使ってパラメーターを推定して正規性を検定している例を自分の研究分野の論文で見たことがありません]

 内部仮説のとき、自由度は(区間の数−1−データを使って推定されたパラメーター数)と書かれていることが多い。たとえば上記の正規分布の場合なら、2つのパラメーター(母平均と母分散)をそのデータを使って推定しているから、カイ2乗分布の自由度は(区間の数−1−2)=(区間の数−3)というわけである。これはパラメーターの推定値がある性質を満たす場合に漸近的に成り立つこととして、R.A.Fisherが示したことで知られている(Greenwood&Nikulin、1996の2章に解説がある)。

 だが、内部仮説のときにいつでも自由度=(区間の数−1−データを使って推定されたパラメーター数)というわけではない。内部仮説で、区間ごとのデータ数ではなくもとのデータそのものを使って、パラメーターを推定する場合には、そうではないことを示したのが、Chernoff & Lehmann (1954) である。この場合、サンプルサイズが大きくなっていっても、自由度=(区間の数−1−データを使って推定されたパラメーター数)のカイ2乗分布にはならない。帰無仮説のもとでの、X^2が対応すべきカイ2乗分布の自由度は(区間の数−1−データを使って推定されたパラメーター数)と(区間の数−1)の間にある。上記の正規分布の場合なら、(区間の数−1)と(区間の数−3)の間にある。[ポアソン分布なら、パラメーター数が1なので(区間の数−1)と(区間の数−2)の間]

 上記は古典的な結果で、ご存知の方にとっては当然のことではあろう。もっと詳しい日本語の説明が、柴田義貞『正規分布』(東大出版会)にある。


Chernoff, H and Lehmann, E.L. (1954) The use of maximum likelihood estimates in x2 tests for goodness-of-fit. The Annals of Mathematical Statistics, 25: 579-586.[xは正しくはギリシャ文字のカイ]

Greenwood,P.E. and Nikulin, M.S. (1996). A Guide to Chi-Squared Testing. John Wiley and Sons, New York.