ここから本文です

この知恵ノートを「知恵コレクション」に追加しました。

追加した知恵ノートはMy知恵袋の「知恵コレクション」ページで確認できます。

知恵コレクション」に登録済みです。

再登録しました。

追加に失敗しました。

ノートに戻り、もう一度やり直してください。

すでに1,000件のノートが登録されています。

新しく追加したい場合は、My知恵袋の「知恵コレクション」ページで登録されているノートを削除してください。

追加できませんでした。

ノートは削除されました。

決定係数R2は回帰のバラツキ指標ではない

ライターさん(最終更新日時:2016/10/8)投稿日:

  • ナイス!:

    0

  • 閲覧数:1972

印刷用のページを表示する

 r1.gif
執筆責任:井口豊(長野県岡谷市・生物科学研究所

この知恵ノートで注意を促す,決定係数の回帰直線傾き依存性の問題は,以下の論文の pp. 138-139 でも解説されている。

Ferligoj, A. & Kramberger, A. (1995)
Contributions to Methodology and Statistics: Proceedings of the International Conference on Statistics and Methodology, Bled, Slovenia, September 13-15, 1993.

決定係数が何を表すのか,そして,その計算式が何を意味するのか,どうも理解していない人が多いようだ。知恵袋の質問 2015/8/3116:41:27 でも,「 y = x からの決定係数」と述べているが,決定係数は回帰直線からのデータのバラツキ程度を表すものではない。さらに悪いことに,この質問では,ウィキペディアの決定係数の定義式で, fi の代わりに xi を代入するという冗談のような計算がベストアンサーであった。

ウィキで説明しているように,この fi というのは,回帰式
y = f (x)
による推定値であり, y の値なのである,BA回答は, y 値を代入する部分に x 値を代入したらと(冗談で?)提案しているのだが,それを真に受けた質問者が「妥当な値を得ました」と言うのには,さずがにびっくりした。そもそも,原点通過(定数項無し)の回帰直線の決定係数に,「妥当な値」は存在しないのであるが,質問者は,説明されても全く理解できないようであった。原点通過の回帰直線の決定係数の問題点は,以下の知恵ノート参照。


決定係数は,回帰式の適合度の指標であり,その数値が大きい(1に近い)ほど,当てはまりが良いことを示す,と説明される。しかし,決定係数は,データの y 方向の全変動を基準とした時の回帰変動の相対的数値を表している。回帰式からのデータのバラツキ程度を表すものではなく,むしろ,抽象的な概念と言えよう。

困ったことに,全変動の定義が複数あることが,決定係数の定義の違いの原因ともなっている。その点は,以下の私の研究室の解説ウェブページを参照してほしい。


例えば,統計解析ソフトRを用いて,次のような2群AとBの二次元 (x, y) データを回帰分析してみよう。

# A群データ
x1<- c(0.7, 3.3, 8.5, 8.7)
y1<- c(0.7, 5.2, 3.7, 9.1)

# B群データ
x2<- c(8.4, 3.9, 8.0, 2.1)
y2<- c(1.6, 1.6, 4.8, 3.7)

なお,これらのデータのサンプル数(標本数)は2であり,サンプルサイズ(標本の大きさ)は各4である。2群(2標本)それぞれに4対のデータを含んでいる。くれぐれも,サンプル数とサンプルサイズを混同しないでほしい。実は,私の研究室ブログで示したように,大学教員でさえ,この混同が見られ,唖然とすることがある。


これらのデータに,回帰直線(regression line)を当てはめ,グラフ化してみる。

res1<- lm(y1~x1)
res2<- lm(y2~x2)

par(mfrow=c(1, 2))

plot(x1, y1,
xlim=c(0, 10), ylim=c(0, 10),
main="Group A")
abline(res1)

plot(x2, y2,
 xlim=c(0, 10), ylim=c(0, 10),
main="Group B")
abline(res2)
 
r2.gif
 
比較しやすいように,両軸のスケールを両群で同じにしてある。求められた回帰直線は,
A: y = 0.62x + 1.38
B: y =  0.011x + 2.86

直感的に,どちらの群において,回帰直線からのデータのバラツキが小さいと感じるだろうか?あるいは,どちらの群の直線の適合度が高いと感じるだろうか?私には,視覚的な判断は難しいと感じるが,あなたならどう思うだろうか?

回帰分析の結果全体を一挙に見たければ,以下のようにすれば良い。

summary(res1)
summary(res2)

回帰直線からのデータのバラツキは,残差平方和(残差の2乗和,Residual sum of squares)を自由度n-2で割ったもので表され,残差分散(residual variance)と呼ばれる。さらに,これの平方根は残差標準偏差(residual standard deviation)と呼ばれるが,Rでは短絡的に(誤って?)残差標準誤差(residual standard error)と記される。

Rのhelpで,summary()が返すsigmaの内容についてみると 

そのNoteに以下のように書かれている。

The misnomer “Residual standard error” has been part of too many R (and S) outputs....
 
r3.gif
自由度の計算で,標本サイズ n から 2 を引いたのは,直線の傾きと y 切片を推定したためである。

残差分散や残差標準偏差は,一般的な記述統計量として用いられる不偏分散やその平方根と考え方は基本的に同じである。不偏分散は,平均からの偏差平方和をなぜ n - 1 で割るのか,と時々質問されるが,それに関しては,以下の知恵ノート参照。


Rにおいて,回帰分析の結果から残差標準偏差だけ取り出すには, summary に  sigma を付けてやれば良い。

summary(res1)$sigma
summary(res2)$sigma

すると,その結果は,
A: σ =  3.041421
B: σ =  1.952397
となり,Bのほうが回帰直線からのデータのバラツキが断然小さいのである。残差を箱ひげ図 (box plot) にすると,視覚的に理解しやすい。
 
r4.gif

最初の図のような,回帰直線とデータの x-y プロット(scatter plots)を見ただけでは,このようなデータのバラツキの違いは分かりにくい。

一方で,決定係数R2だけを回帰分析の結果から取り出すには, r.squared を付ければ良い。

summary(res1)$r.squared
summary(res2)$r.squared

その結果は,

A: R2 =  0.4946259
B: R2 =  0.000496774

となり,回帰直線からのデータのバラツキが大きいAのほうが,決定係数が大きいのである。Bの決定係数は,ほぼ0であり,決定係数が回帰の適合度の指標と言うなら,Bの回帰直線は適合度ほぼゼロということになる。

以上の結果をまとめると
A:回帰からのバラツキ大,決定係数大・・適合度が良い?
B:回帰からのバラツキ小,決定係数小・・適合度が悪い?
となる。

再度述べるが,このようなことが起きるのは,決定係数がデータの全変動を考慮に入れ,それに対する回帰変動の割合を計算しているためである。Bのように,回帰の傾き(0.011)が小さくなると,全変動に対する回帰変動の割合が小さくなるので,決定係数も小さくなるのである。案外,そのことを念頭に置かず,単に,決定係数が大きければ適合度が高い,というような安易な解説をおこなっている人もいる。

逆に言えば,この知恵ノートのタイトルどおり,決定係数は,回帰直線からのデータのバラツキ程度を表すものではない,ということである。この意味で,決定係数が直感的に見ても使い勝手の良いものとは言えず,むしろ使用を避けるべきものとさえ言えよう。

今回の分析のように,大きさが等しいとは言え,異なる2標本で決定係数を安易に比較できない,という問題はある。しかし,逆に言えば,冒頭のような個々の回帰直線のグラフと決定係数のみを見て,グラフの当てはまりが良いとか悪いとか単純に判断してはいけない,ということでもある。

このノートに関するQ&A

このノートに関するQ&Aは、まだありません。

このノートについて質問する

このノートについてライターの方に質問できます。

※ライターの方から必ず回答をいただけるとは限りません

※別ウィンドウで開きます

この知恵ノートのライター

グレード

グレード知恵ノートのグレード:2-3

iguchi_yuさん男性

ピックアップ

【iPhone】修理交換の申込方法...
 ※追記※2015/1/30現在iPhone6及び6+が発売されたのを受け、情...
これが基本! 金魚すくいの金魚...
これが基本!金魚すくいの金魚の飼い方、育て方 ~失敗しない...
結婚してから発覚しました!
                                                         ...
本文はここまでです このページの先頭へ