多項式対比

2008.1.25最終修正
2008.1.18より

 R(統計ソフトウェア)などで、説明変数に順序尺度の変数を持ってくると、その変数名には関係なくL、Q、Cといったものについての結果が出力される。これはいわゆる多項式対比(polynomial contrast)である。ちなみに、L、Q、Cのあとは、^4、^5、^6となる。

 多項式対比は、一種の対比である。対比は(係数×平均)という積の和であるわけだが、多項式対比の係数は、Rでは、contr.poly()という関数で見ることができる。かっこ内の引数は、その説明変数(順序尺度)の水準数である。

 たとえば、4水準なら、
> contr.poly(4)
     .L     .Q    .C
[1,] -0.6708204 0.5 -0.2236068
[2,] -0.2236068 -0.5 0.6708204
[3,] 0.2236068 -0.5 -0.6708204
[4,] 0.6708204 0.5 0.2236068
となる。

 L,Q,Cは、すぐわかるようにそれぞれ合計は0で、(計算すると)二乗の合計は1である。また、どの2つの対比も直交している。

 説明変数は順序尺度なのだが、仮に間隔尺度であるかのように扱い、さらに隣の水準との間隔はどこでも等しいとする。そのうえで、横軸に水準の番号をとり、縦軸に各水準の目的変数の値をとったグラフを描いてみる。上記の例では4水準だから、横軸の値は、たとえば、1,2,3,4となる。
 Lの係数は、右上がりの直線状に大きくなっていき、横軸が2.5のところ(第2の水準と第3の水準のちょうど真ん中)で0となる。「対比の意味」でも書いたように、このような係数を使うと、水準ごとの平均の直線的な変化を取り出すことができる。

 横軸に水準の番号 (1,2,3,4,)を、縦軸に係数をとると、Lは上記のように右上がりの直線、Qは第2の水準と第3の水準の真ん中のが頂点でもっとも下がっている放物線、Cは第2水準と第3水準の真ん中のところについて点対称な3次曲線に、それぞれ乗っていることがわかる。
 直線的変化(上記のLの場合)と同様に、目的変数の水準ごとの平均の変化を、直線的なもの(L)、2次のもの、3次のもの(など、ここでは水準数が4なので3次まで)に分けて見ようとしているのである。

 多項式対比の二乗は回帰で説明される変動[平方和]と見ることができる(「対比の意味」参照)から、(水準数-1)個ある多項式対比の二乗の和は、目的変数の各水準の平均の平方和に等しい。
 たとえば、水準の平均が(1,6,5,8)だと、平方和は26である。対比はLが 4.47214、Qが-1、Cが2.23607で、二乗して合計すれば26である。
 また、別の例では、水準の平均が(2,9,3,10)なら、平方和は50である。対比はLが 4.0249、Qが01、Cが5.81378で、二乗して合計すれば50である。

 多項式対比(polynomial contrast)の説明は、Crawley著『R Book』が詳しい。また、、『Sと統計モデル』(Chambers&Hastie(eds.))にも説明がある。

 多項式対比による順序尺度の説明変数の取り扱いは、いかにも順序尺度らしくない。順序制約のある場合の統計的方法(order-restricted statistics)については別項で。