相関係数の不偏推定量

2007.12.16
2007.12.16最終修正

 たとえば、分散の場合、標本分散(平方和をnで割るやつ)が母分散の不偏推定量ではないから使わず、不偏分散(平方和をn-1で割る方)を使うといったことは本などでもよく見かける。だが、頻繁に登場する量である相関係数(r、普通の相関係数である、 Pearsonのrのこと)が母集団の相関係数の不偏な推定量ではないことはあまりあちこちでは見ない。
 標本のデータで計算した積和を(n-1)で割ったもの(不偏共分散と言うのだろうか)は母集団の共分散の不偏推定量であるが、相関係数(標本相関係数)は母相関係数の不偏推定量ではな い。そのことはKendallのAdnanced Theoryなどにも載っている。母集団が二次元正規分布のときの相関係数の不偏推定量は、Olkin& Pratt、Ann.Math.Statist.29:201-211,1958が求めている。
 Olkin&Prattが得た不偏推定量は超幾何関数で表現されており、その級数展開による近似では(近似式はnが1次の形で出てくるもの を使うなら)
(r{1+(1-r^2)/(2n-6)})
で、nが8以上なら1%以下の誤差とのことである。
 すると、nが10だと、相関係数の絶対値が0.5くらいなら、標本相関係数は5%くらいバイアスしていることになる。相関係数なら5%のバイアスは大したことはないのだろうか
 近似式を使えば計算するのがとても大変ということもなさそうである(標本相関係数つまり普通のrの計算の方がむしろ大変そうだ)。実は、私が知らないだけで、分散は不偏でないとまずくて相関係数は不偏でない方がいい一般的な秘められた理由が何かあるのかも知れない。