2008.2.24最終修正(2008.1.31より)
isotonic回帰(isotonic regression)は、日本語では等調回帰とでもなるのだろう。k個の処理があるとき、
g1≦g2≦g3≦g4…(5以降省略、少なくとも一箇所では厳密な不等号が成り立つ)という制約のもとで、
ni(yi-gi)^2の合計
を最小化するgiの組をisotonic回帰という。ただし、yiはi番目の処理の目的変数の平均、niはi番目の処理のサンプル数である。isotonic回帰は処理の数(ここではk個)だけの係数giの組である。
処理の順番に意味がなくて順番を入れ替えてもいいのなら(順序制約がない場合)、isotonic回帰を考えてもあまり意味はないから、処理を名義尺度と考えているあるいは傾向性仮説を考えている場合向けということになる。
y1<y2<y3<y4のような関係の時には、giはすぐにgi=yiであるとわかる。しかし、yi>yi+1のようになっているところがあると、それほど簡単には見つからない。
giを見つける方法として、CSD(cumulative sum diagram)というグラフを使うものがある。CSDは、横軸にある処理までのサンプル数の合計、縦軸にその処理までの目的変数の和をとって、線で結んだものである。式で書けば、
Wi=馬j ただしjは1からiまで
Gi=(nj・yj) ただしjは1からiまで、yjは処理jでの目的変数の平均
として、点(Wi,Gi)を、iの小さいほうから順に結んでいったものである。なお、W0,G0はどちらも0である。CSDは訳せば累積和ダイアグラムというところだろうか。
CSDは、折れ線グラフになる。原点側から数えてi番目の部分つまり点(Wi-1,Gi-1)と点(Wi,Gi)を結んだ線の傾きはyiつまりi番目の処理の目的変数の平均である。
isotonic回帰は、(1)CSDの上には出ない、(2)下に凸である、という2つの条件を満たして、なるべく上にある折れ線(GCM、greatest convex minorant)で与えられる。
簡単な例として、各処理のサンプルサイズ1という場合を考えてみる(niがすべて1)。目的変数の値が以下のようだとすると、
処理1:2、処理2:3、処理3:5、処理4:4、処理5:10、
CSDは、
(0,0)-(1,2)-(2,5)-(3,10)-(4,14)-(5,24)
で、GCMは、
(0,0)-(1,2)-(2,5)-(3,9.5)-(4,14)-(5,24)
となる。そこで、giは、2,3,4.5,4.5,10となる。
また、isotonic回帰は、上記のことを使った、目的変数が正規分布・等分散などの場合における、順序制約のある場合の統計的方法の名前でもある。isotonic回帰が使えるのは正規分布・等分散だけではない。上記のサンプルサイズのところを、各処理の重み(この重みは、当然その処理のサンプルサイズと場合によっては他の量の関数である)と考えると、目的変数の分布により重みを設定してやれば、目的変数の分布が指数分布族なら、isotonic回帰により最尤推定の答が求められる。
最尤推定は一直線だが、検定となるとそうでもない。尤度比検定するとき検定統計量をどんな自由度のカイ2乗分布と比べるかが問題になる(別項を作る予定)。
isotonic回帰は、CSDについてGCMを求めることで得られるが、計算としては、目的変数の大小が対立仮説とは逆になっている隣の処理を合併していくpool-adjacent-violatorアルゴリズムなどが使われる(giが同じである処理をlevel
setと呼ぶ)。