ここから本文です

この知恵ノートを「知恵コレクション」に追加しました。

追加した知恵ノートはMy知恵袋の「知恵コレクション」ページで確認できます。

知恵コレクション」に登録済みです。

再登録しました。

追加に失敗しました。

ノートに戻り、もう一度やり直してください。

すでに1,000件のノートが登録されています。

新しく追加したい場合は、My知恵袋の「知恵コレクション」ページで登録されているノートを削除してください。

追加できませんでした。

ノートは削除されました。

カイ二乗検定(独立性検定)から残差分析へ:全体から項目別への検定

ライターさん(最終更新日時:2016/3/30)投稿日:

  • ナイス!:

    6

  • 閲覧数:88256

印刷用のページを表示する

 カイ二乗

執筆責任:井口豊(長野県岡谷市・生物科学研究所


最近,次の臨床心理士試験の参考書にも,残差分析が掲載されていると知った。


指定大学院入試と臨床心理士試験のための心理学頻出キイワード集15~16年版 (IPSA臨床心理士大学院予備校 浅井伸彦ほか,2015,秀和システム)


その p. 274 に書かれている。


また,残差分析とは関係しないが,私が関わった看護師の修士研究で,手指を洗浄・消毒後に検出される芽胞形成菌数が,日常生活の納豆摂食頻度に関連することが,カイ二乗検定で示された。論文は公開されており,PDFで読める。


医療従事者の手指の芽胞形成菌,興味深い結果の修士研究


誰か,これに関して,さらに詳細な研究を行ない,残差分析など,さらなる分析に挑んで欲しい。


分割表のデータが,期待度数が低く,コクランの規則(Cochran's rule)に抵触するなどの理由で, Fisher の正確確率検定を適用する場合は,多重比較によって群間比較する方法がある。私の研究室のウェブ解説参照。


Fisher正確確率またはカイ二乗検定から多重比較へ


そこには,統計解析ソフト R のスクリプトが示されているが,たとえ R が使えなくても,データを入力し, Rweb にコピペ計算すれば良い。


表 1 に示した 2 群,x1, x2 の残差分析を統計解析ソフト R でやる場合のスクリプト追記。


x1<- c(7, 4, 23)

x2<- c(10, 8, 8)

dat<- cbind(x1, x2)


res.ana<- chisq.test(dat)$stdres # 標準化残差

pnorm(abs(res.ana), lower.tail=F)*2 # 両側 P 値


結果
A: p = 0.127892

B: p = 0.068201

C: p = 0.004617


以下で,理論的に算出した表 7 の p 値と同じ結果になる。


残差分析の結果を多重比較する際は注意が必要であり,その点は本文最後の部分で言及されている。


最近,残差分析が用いられた興味深い論文として,以下のものがある。


篠田佳彦,・山野直樹(2015)

敦賀市における放射線とリスクに関する意識調査

日本原子力学会和文論文誌 14(2), 95-112. 


その Table 7 に示されたように,残差分析によって,福島県産食品の購入を避けたい,という意識に,有意な男女差が認められ,いまだに女性のほうが,その傾向が強いことが判明した。


ここで述べる残差分析(residual analysis)は,Haberman(1973)によって開発されたものであり,次の論文に見られる。


Shelby J. Haberman (1973)

The Analysis of Residuals in Cross-Classified Tables

Biometrics, 29: 205-220. 


また,残差分析を利用した論文として,私が個人的に興味深かったのは,大学病院勤務者のメタボリックシンドローム(Metabolic syndrome),いわゆる「メタボ」について分析した次の論文である。


Basei Rossa et al. (2012)

Metabolic syndrome in workers in a university hospital

Revista Portuguesa de Cardiologia, 31: 629-636.


この論文のTable 1に残差分析の結果が示されている。

日本語論文で興味深かったのは,次のもの。

山下倫実ほか(2008)
教育心理学研究,56: 57-71.

この中のTable 9,10に残差分析の結果が出ている。ここでは,p値ではなく,調整済み残差が示されている。さらにHaberman 論文で引用されているのは,上記のものではなく,次のものである。

Shelby J. Haberman (1974)
University of Chicago Press.

カイ二乗検定が,独立性の検定,つまり,独立な標本間の比率の差の検定,として用いられることは,よく知られている。


しかし,カイ二乗検定は全体としての比率の違いは検出するが,個別の項目のどこに差があるかを示さない。


その目的で通常行われるのが残差分析であるが,初等的な教科書には載っていないこともあって,あまり知られていない。ここでは,カイ二乗検定とは何かを間単に説明し,その後,残差分析を解説する。


まず,カイ二乗検定は,以下の値が近似的にχ2分布に従う,と考えることを利用している。

 

カイ二乗値

分子は,観測値と期待値のズレ(残差)の二乗である。この計算は,回帰式を求める際の最小二乗法でおなじみである。その残差の二乗の相対的大きさを見積もるために,分母の期待値で割っている。


例えば,1と2の差でも,999と1000の差でも,同じく1だが,その重みが両者で違うのが直感的に分かるだろう。その重みを考慮して,残差の期待値に対する相対的大きさを検定するのが,カイ二乗検定である。それゆえ,比率の差の検定とも言われる。


この,残差の期待値に対する相対的大きさ,こそがカイ二乗検定の要諦である。


ここでは例として,3群A,B,Cで得られた,観察値IとIIという二値データの独立性検定を,カイ二乗検定で行ってみよう。二値データとは,Yes,Noとか,男女とか,有無とかに分類される二者択一のデータである。それが次の表1のような2×3分割表にまとめられているとする。


分割表1


なお,標本とも呼ばれ,本問の場合,

標本数 k = 3

のように表す。


そして例えば,Aの観察値の合計数17は,標本サイズ,または,サンプルサイズ,あるいは,標本の大きさと呼ばれ

標本サイズ n = 17

のように表す。


これら標本数と標本サイズの意味を理解してない人が非常に多い。特に,

標本数 = 17

と間違って書く人が多いので注意しよう。


表1を,日本語では通常,分割表と呼ぶが,英語では通常,Contingency tableと呼び,偶然表と呼ぶほうがふさわしい。Contingency tableに対して,「良い訳語が無いね」,と私を含む何人かの生物研究者に嘆かれたのは,故・柴谷篤弘先生であった。


次に,各セルの期待値を求める。期待値は,以下の式で計算される。例として,AIセルの期待値も示す。

 期待値


ここで,≈ は,ほぼ等しい,約,を意味する記号。日本では,≒ を使用することに注意。


では,なぜこれが期待値なのだろうか?


上の表1を再度見て欲しい。以下のことが分かる。

Iの確率: P(I) = 34/60

Aの確率: P(A) = 17/60


Iが起きる確率とAが起きる確率が独立なら,IかつAが起きる確率は次のようになる。

P(I∧A) = P(I)P(A)

= (34/60)×(17/60)


したがって,IかつAが起きる頻度は

f(I∧A) = 60×(34/60)×(17/60)

     = 34×17/60

となる。


これが,カイ二乗検定検定が独立性の検定と言われるゆえんである。


このようにして,各セルの期待値を求めると,次の表2になる。

 分割表2


カイ二乗検定の適用基準として,期待値が5未満のセルが,全体の20%以上になってはいけない,とされる。


これは,次のコクラン(1954)の論文が示した基準が,いまなお使われている。


Cochran (1954)

Some methods for strengthening the common x2 tests.

Biometrics 10: 417-451.


英語では,Cochran's ruleと書かれることも多いが,日本語では,まずそのような表記を見かけない。日本語解説でも,「コクランの規則」と明示すべきだろう。コクランの規則については,私の別の知恵ノートも参照して欲しい。


統計学の基準値の由来: 5%有意水準,カイ二乗検定(χ2検定),相関係数を巡って


繰り返すが,観察値でなく,期待値の大きさを調べるのである。つまり,表1でなく,表2の数値を見るのである。例えば,表1のBIの観察値は4である。しかし表2で,BIの期待値6.8であり5以上である。その他の期待値も5以上であり,カイ二乗検定の適用に問題ないと言える。


自由度は,

(縦セル数-1)×(横セル数-1)=1×2=2

である。


自由度の説明は通常,標本数から拘束条件数を引いたもの,とされるが,必要セル数として考えてみると理解しやすい。私が,知恵ノート「標本分散から,標本不偏分散へ」で示した説明と同じである。


今の場合は,最低限,縦も横も2セル必要である。そうでないと,そもそも比率を比較できないからである。1セルでは駄目,2セル以上必要ということが,縦横のセル-1となって現れている。


実際に,表1と2の観察値と期待値,および自由度2を用いて,カイ二乗検定を行うと

χ2 = 8.20, P = 0.017

となり,3群(3標本)間で比率が有意に異なることが分かる。


しかしながら冒頭述べたように,どの群の観察値に有意差があるかは不明である。それを明らかにする目的で行われるのが残差分析である。


まず,残差を前述のように求める。すなわち

残差=観察値-期待値

であり,各セルは以下の表3になる。

 分割表3


次に,残差を以下のように標準化(standardizeする。

 標準化残差


分母にある,期待値の平方根は,残差の標準偏差,つまり標準誤差(standard errorである。この変換は,私が知恵ノート「ノンパラメトリックな標準化Z変換」で示した方法と同様な考えである。


すなわち,この標準化残差(standardized residual) は,近似的に,平均0,分散1の標準正規分布に従う。それゆえ,この標準化残差は標準正規分布におけるZスコアと見なせる。


各セルの標準化残差を次の表4に示す。

 分割表4

 

この標準化残差を用いて,検定(P値算出)を行う方法も考えられる。しかし,注意して欲しいのは,表3の残差がIとIIで絶対値が等しいのに,標準化残差ではそれが違う点である。


この点を補正するために,次のような残差分散と呼ばれる値を求める。


残差分散


各セルの残差分散を次の表5に示す。

 分割表5

 

この残差分散と,前述の期待値をかけたものの平方根を,改めて,標準誤差と定義し直し,標準化残差を計算し直したものを,調整済み標準化残差(adjusted standardized residualと言う。


すなわち 

調整済み残差


場合によっては,これを標準化残差と呼ぶので注意が必要である。


各セルの 調整済み標準化残差 を次の表6に示す。

 分割表6

 

単純な残差と同じく,各群のIとIIで絶対値が等しくなっていることが分かる。 Haberman (1973) が示したこの調整済み標準化残差のほうが,標準正規分布に近くなる。


この値を標準正規分布のZスコアとして,それに相当するパーセント点を求めれば,最終的な残差検定となる。EXCEL関数を利用する場合は,

=2*(1-NORMSDIST(ABS(各調整済み標準化残差)))

のようにすれば,P値を求めることができる。ここで,ABSは絶対値にする関数である。


各群のP値を次の表7に示す。

 分割表7

 これによって,Cの比率が有意に異なっていることが分かる。


なお,このP値を多重比較するなら,有効数字を表7より多くとって,例えば,Benjamini & Hochberg法(BH法,Benjamini & Hochberg, 1995参照)を使って,以下のように計算される。


A: 0.12789 / (3/3)

B: 0.06820 / (2/3)

C: 0.00462 / (1/3)


この結果を表8にまとめた。

 

multiple-comparison.jpg

ただし,残差分析においては,必ずしも多重比較を考える必要はない。通常,多重比較と言えば,群間の比較,すなわち,A-B,A-C,B-Cの比較を言うのが,残差分析の多重比較では,各群において実測値と期待値を比較している。したがって,例えば,最初から最も残差が大きいC群だけに注目するならば,表7のP値を使えば良いのである。


Benjamini & Hochberg法の理論的解説として分かりやすいのは,例えば,大阪大学腎臓内科による「Benjamini & Hochberg法(BH法)によるFalse Discovery Rateの調整」である。


以上の検定を手っ取り早くオンラインでするなら, 信州大・田中敏氏のjs-STAR 2012。この中の,カイ二乗検定 i×j表を利用すれば,多重比較の結果も含めて出力される。これには,統計解析ソフトRのプログラムも出力される。


参考文献

Benjamini, Y. & Hochberg, Y. (1995) Controlling the false discovery rate: a practical and powerful approach to multiple testing. Journal of the Royal Statistical Society. Series B (Methodological), 57(1): 289-300.


このノートについて質問する

このノートについてライターの方に質問できます。

※ライターの方から必ず回答をいただけるとは限りません

※別ウィンドウで開きます

この知恵ノートのライター

グレード

グレード知恵ノートのグレード:2-3

iguchi_yuさん男性

ピックアップ

【iPhone】修理交換の申込方法...
 ※追記※2015/1/30現在iPhone6及び6+が発売されたのを受け、情...
知っておきたい無線LANルーター...
知っておきたい無線LANルーターの知識と選び方iPod touchやPS...
iTunesカードの基礎知識
はじめにiTunesStoreやAppStoreの決済には通常クレジットカー...
本文はここまでです このページの先頭へ