等分散検定から t検定・分散分析(ANOVA)・ウェルチ(Welch)検定への問題点

t検定

執筆責任:井口豊(長野県岡谷市・生物科学研究所


エクセル統計には,正規性も等分散性も仮定しないBrunner-Munzel検定が装備されている。その解説には,「マン=ホイットニーのU検定と異なり、2標本の等分散性を仮定せず」と明確に書いてある。後述するように,U検定も等分散を仮定することに注意が必要である。


なおエクセル統計は,MicrosoftのExcelと混同されるが,英語名はEkuseru-Toukeiである。


正規分布か否かという正規性検定の結果を受けて,パラメトリック検定かノンパラメトリック検定かと使い分ける場合も二段階検定であり,等分散検定と同じ問題が生ずる。これについては,私の研究室ブログ参照。



統計解析ソフト R に,多重比較を行なうのに便利な関数 pairwise.t.test がある。 それが,等分散を仮定したt検定なのか,ウェルチ(Welch)検定なのか,十分に理解されていないので,以下の知恵ノートで解説した。



誤解されている人がいるようだが,私は,F検定のような等分散検定自体が,研究において不要だと主張しているのではない。


以前,知恵袋質問

これにも書いたが,集団の特徴を表す重要な指標を知るのに,F検定のようなバラツキの検定は,それ単独で十分必要である。


また,次の私の研究室ブログも参照。

「そもそも,もし母分散が異なる,と結論されれば,母集団が異なるという意味である。このとき,母分散が異なる場合の代表値(平均や中央値)の差の検定法を考える前に,なぜ母分散が異なるのか,それを検討するほうが,ずっと重要なことである。理論的な話題でなく,実際に,医学,生物学,心理学などのようなデータを扱う場合は,もし母分散が異なると推定されれば,その原因こそ解明して欲しいものである。」


要するに,等分散検定の重要性は認めるが,それは通常の t 検定か, Welch 検定かの選択基準ではない,と言いたいのである。その点を十分理解してほしい。


研究室のブログ更新

Maxima も Welch 検定,内田論文を見て思ったこと


数式処理フリーソフトMaximaもRと同じく,平均値の差の検定を,デフォルトでWelch検定として行なう。情報教育分野の大学教員でさえ,なお,等分散検定のあとに,t検定の種類選択を行なうという不適切な方法を採用した論文を書いている。


2015年5月24日に福岡市で開催された日本臨床工学会の市民公開講座で,倉持龍彦は,「EZRで統計解析を実践しよう」と題して,EZRの利用法だけでなく,正規分布か否か,等分散か否か,などに分けて,適用される統計学的検定法を紹介した。私も,この資料作りに協力,助言した。ここでもWelch検定の適切な面が取り上げられた。


リッカート尺度(Likert scale)のデータに対しては,t検定とU検定が,多くの場合において,同等な検出力(power)を持つことを示した論文が次のものである。


De Winter, JCF. and Dodou, D. (2010) Five-point Likert items: t test versus Mann Whitney Wilcoxon. Practical Assessment Research & Evaluation 15(11): 1-16.


等分散でない場合は,ノンパラメトリック検定であるU検定でも妥当とは言えない。そのことに関しては,次の論文も参考になる。


富原一哉(2005)

日本の心理学研究論文におけるMann-WhitneyのU検定の誤用とその対策


さらに,t検定などを使う場合,等分散かどうかを事前に調べる,いわゆる2段階検定が望ましくない,と言う点で,次の論文も参考になる。


D. W. Zimmerman (2004)

Inflation of Type I Error Rates by Unequal Variances Associated with Parametric, Nonparametric, and Rank-Transformation Tests


この p.104

"it is inefficient to base a decision on preliminary tests of equality of variances and modern textbooks no longer recommend preliminary tests"(一部略)


等分散かどうかという事前検定は役立たないし,最近では推奨もされないのである。


Mann-Whitney U 検定や Kruskal-Wallis 検定を挙げて

" More recently it has become apparent that these nonparametric methods, also are strongly affected by variance heterogeneity"

とも書かれている。


つまり,いわゆるノンパラメトリック検定でも等分散でないと正しく結果が出ないのである。このノンパラメトリック検定の問題は,あとでまた触れる。


のちにウェルチ検定(Welch test)と名づけられる検定のアイデアは,次の論文に見られる。


Welch, B. L. (1938)

The significance of the difference between two means when the population variances are unequal

Biometrika, 350-362.


統計学発展の歴史を考える上でも重要な論文であり,私のブログでも触れた。


ウェルチ検定の意図とは: 標本サイズの誤解とExcel計算の話題も含めて


そのわりには,日本で,この論文に触れられることは少ない。少なくとも,一般向け,あるいは,学生向けの解説では,そのような傾向がある。ウィキペディアのウェルチのt検定の項目でも,この文献が挙がっていなかったので,追記しておいた(ウェルチのt検定の変更履歴,Iguchi-Y)。


分散が著しく異なる標本間では,U検定のような通常のノンパラメトリック検定もまた不適当である。ノンパラメトリック検定だからと言って,仮定フリーというわけではないのである。ノンパラメトリック検定が,どんなデータに対しても万能であるかのような錯覚を抱いている人は注意すべきである。この点に関しては,私のブログ参照。


Welch検定が主流,単純t検定やANOVAは時代遅れ:Statwingの話題から


このブログにも書いたが,最近,話題となっている統計解析ツールStatwingでも,等分散か否かに関わらず,デフォルトでWelch検定を採用している。また,正規性が満たされないデータには,ランク化されたt検定(ranked t-test)を採用。さらに,分散分析においても,Welch’s F Test ANOVAおよびランク化された同検定が採用されている。


この問題を巡り,北里大学・高岸聖彦氏の次の解説も非常に参考になる。

独立 2 群間の平均値の比較の際に生じる多重性の問題について


ただし,高岸氏がサンプル数と言っているものは,サンプルサイズが正しい。この間違いは非常に多いので注意すべきである。


例えば,30人と40人の身長の平均の差を検定するのに,

標本数は2

標本サイズは30と40

である。


通常,群数と言うのが標本数であり,この問題は,2群問題であり,2標本問題なのである。


話をt検定の多重性の問題に戻すと,統計学を教えている大学の先生と思われる人でも,この多重性問題を見過ごす場合があり,困ったものである。


例えば,t検定1(独立したサンプルのt検定)というウェブページ。検定の多重性に触れないどころか,盛んに5%水準で有意か否か判定している。URLから判断して,ある大学の先生と思ったのだが,もし本当に大学で教えているなら,検定上の問題点まできちんと教えてほしいものだ。


知恵袋の質問や回答でも,相変わらず,

等分散かどうか検定して・・・

と,何事もないかのように,通常のt検定,あるいは,ウェルチ検定を行おうとしている,あるいは,それらを勧めている例が見られる。


以下に述べる問題点は,かなり広く知られてきた(はず)と思っていた。後述するように統計解析ソフトRでは,デフォルトで,つまりオプションを特に指定しなければ,Welch検定が実行されるようになっている。つまり,通常の検定法が,「等分散を仮定しないt検定」なのである。


まだまだ理解が広まってないのだろうか?あるいは,日本の多くの大学では,未だに,この問題点に触れてないのだろうか?


海外に目を向けると,例えば,Hanover CollegeWilliam Altermattが書いたt検定の解説


Do not assume equal variance


太字でちゃんと書いてある。


内容を読むと,

The "Unequal Variance (Welch)" method will work whether your two groups have similar or dissimilar variance

ウェルチ検定なら,2群の分散が同じでも同じでなくても,検定できる

と,これまた,しっかりとした解説をしている。


こういう点を,きちんと教えてほしいものだ。


また,統計ソフトMinitabのアシスタント機能の解説では,わざわざ

2-SAMPLE t-TEST

という論文で,シミュレーションを行って,通常のt検定とウェルチ検定の比較を示している。


その結果が,p.3 Resultsに書かれている。


the theoretical superiority of the classical 2-sample test over Welch’s t-test has a little or no practical value. For this reason, the Assistant uses Welch’s t-test to compare the means of two populations.


つまり,ウェルチ検定は,等分散でない時に使う,ではなく,等分散か否か検討せずに使える,と考えたほうが良いのである。分析データが,この論文後半に書かれているので,興味ある人は見てほしい。


後述するように,この問題は,統計ソフトGraphPad Prismでも指摘されており,いろいろな統計ソフトでも,クリティカルな問題と捉えられているのが分かる。その点,解説がないExcelなどでの検定には十分注意が必要だ。


* * * * * * *


平均値の差をt検定するときに,基礎的な統計の教科書には,たいてい次のようなことが書かれている。


  1. まず等分散の検定(通常はF検定)を行い,
  2. その上で,等分散なら通常のt検定,等分散でなければ,いわゆるウェルチ(Welch)検定を行う


しかしながら,この2段階検定は,最終的には,それぞれを単独に検定する場合とは異なる有意値を出す。その点に気づいてない人が,教員も含め,かなりいるようである。これは,2群(2標本)のときのt検定だけでなく,3群(3標本)以上のときの分散分析(ANOVA)でも当然起きる問題である。


つまり,この2段階検定では,第1段階の等分散検定で,既に間違える可能性を含んでいるので,第2段階のウェルチ検定を合わせて行うと,最終結果は,単独の検定として設定した水準(例えば,5%)を超える有意確率を出してしまうのである。


例えば,宝くじに当たる確率を考えてほしい。1本当選する確率と2本続けて当選する確率は当然異なり,後者の方が確率が低いだろうことは直感的にも想像できる。


上記の検定でも同じことで,95%という言わば「安全確率」は,2度検定を続ければ下がってしまうことは理解できるだろう。


統計学で検定を学ぶ頃には,既に,確率論の基礎的な部分を学んでいるので,あえて,このような「わかりきったこと」は書かないという風潮もありそうだ。しかし,いきなり検定に臨もうとする初学者には迷惑な話だろう。


この問題を的確に指摘しているのは,例えば,


群馬大・青木氏

等分散であるかどうかを確かめてから,普通の t 検定を使うか,Welch の方法による t 検定にするかを決めるというのは,よくない。


愛知学院大・千野氏

F検定とt検定という統計検定をこの順で続けて2つ行うことによる 検定全体の統計的過誤のコントロールの問題。 これに対する対処法について記述している入門的テキストは極めて少ない。


弘前大学・対馬氏

分散分析の前に等分散性の検定を行うことは理論的に間違い。


帝京大の心理学サイト

多重比較のときと同様にあるデータに対して複数の検定を行う手順を実施するとき、各検定の有意水準を5%にすると手順全体における有意水準が5%にならない。


また最近は,統計ソフトでも利用ガイドで,この2段階検定の危険性を指摘しているものもある。


統計ソフト GraphPad Prism解説ページ真ん中付近

If you use the F test to compare variances to decide which t test to use (regular or Welch), you will have increased your risk of a Type I error.


さらに,三重大の奥村氏が,2段階検定では,5%1%水準で検定したつもりでも,実際は,それ以上の確率が出ていることをシミュレーションで示している。


この問題を回避するためには,例えば,5%水準で検定するなら,上述の二つの検定の水準を半分にし(2.5%),二つ合わせて5%にする方法がある。多重比較検定でのボンフェローニ補正に相当する。


ボンフェローニ補正については,名古屋大・玉岡賀津雄氏の授業向け解説が分かりやすい。


この方法を勧めているのは,統計の専門書では,竹内啓・大橋靖雄(1981) 入門・現代の数学11「統計的推測」 日本評論社。


ネット上では,上記の愛知学院大・千野氏や帝京大の心理学サイトである。


一方,思い切って,等分散検定(F検定)をやめて,ウェルチ検定のみをする方法もある。ウェルチ検定なら,分散が等しくても,等しくなくても,大きな過誤なく検定できるだろうという考えである。冒頭述べたWilliam Altermattの解説もそれを述べている。


それを勧めているのは,ネット上では,上記の群馬大・青木氏,愛知学院大・千野氏,三重大・奥村氏である。弘前大学・対馬氏も,等分散性の検定はあまり当てにならない,述べているので,ウェルチ検定単独を推奨するかもしれない。


フリーの統計解析ソフトRでは,t.test関数を使いt検定を行うとき,デフォルトで,つまりオプションを特に指定しなければ,Welch検定が実行されるようになっていることも注目すべきである。


また,次の論文では,通常のt検定やMann–Whitney U 検定でなく,常にWelch検定(本論文では,unequal variance t-test)を推奨している。


G. D. Ruxton (2006)

The unequal variance t-test is an underused alternative to Student's t-test and the Mann–Whitney U test

Behavioral Ecology 17: 688-69.


この雑誌ページにアクセスすると,全文がpdfまたはhtmlでフリーで読める。


最近では,すっかり,等分散検定をしないでWelch検定だけ行なうという手法が主流となっている感がある。


知恵袋のある回答者から,2段階で異なる検定なのだから多重性は生じない,というような趣旨の反論があった。しかし,ここまで述べたことから分かるように,検定の種類の問題ではなく,検定を繰り返すことの問題なのである。多段階検定は多重検定と同じ問題を含むのである。


いずれにしろ,千野氏が述べるように,初等的な統計教科書では触れられていない問題であり(著者自身は分かりきったこと,と思っている点もありそう),実際にデータ解析する際は注意が必要である。

本文はここまでです このページの先頭へ