ここから本文です

この知恵ノートを「知恵コレクション」に追加しました。

追加した知恵ノートはMy知恵袋の「知恵コレクション」ページで確認できます。

知恵コレクション」に登録済みです。

再登録しました。

追加に失敗しました。

ノートに戻り、もう一度やり直してください。

すでに1,000件のノートが登録されています。

新しく追加したい場合は、My知恵袋の「知恵コレクション」ページで登録されているノートを削除してください。

追加できませんでした。

ノートは削除されました。

母比率の検定: Excelによるカイ二乗検定,二項検定,Z検定,t検定,逆正弦変換検定の利用

ライターiguchi_yuさん(最終更新日時:2014/12/7)投稿日:2013/8/2 アドバイス受付中!

印刷用のページを表示する

  母比率

執筆責任:井口豊(長野県岡谷市・生物科学研究所


Excelを利用した母比率の検定として,カイ二乗検定,二項検定,Z検定,t検定,逆正弦変換検定を取り上げる。


ある町の男女の人数比が1対1と言えるか,というような母集団比率を検定する問題で,t検定やZ検定が使えることを知らない人が多いようである。


母比率の検定問題が,そのデータを0と1のコード化(ダミー変数化)することによって平均を求めると,母集団平均の検定問題に帰着されることは,例えば,以下の教科書に書かれている。


統計学―見方・考え方 (日評数学選書) 

脇本 和昌 (著)

p. 125


ymst_rintaさんから,逆正弦変換を利用した分散分析もできる,との指摘があり,その検定をページ末尾に追記した。ymst_rintaさんは,少なくとも統計学的な問題に関する限り,非常に優れた解説を与える人物だ。その意見は誰でも参考になる。

********


知恵袋の回答を見ていると,ときとして,腰を抜かすほど驚く回答に出会う。しかも,それがベスト・アンサーに選ばれていると,二重に驚く。例えばこの質問への回答である。


統計の母比率の検定についての質問です。

狭心症に対して有効なA薬の治療効果は65%であるとしられている。B薬の治療効果は43例中31例であった。B薬はA薬に比べて優れているといえるか。平均、分散、標準化について記して答えを求めよ。


そのBAが以下の通り。


>平均 、分散、標準化について記して答えを求めよ。

これは、無理難題。母比率には、無縁の用語です。


首を180度ひねりたくなるようなBAである。この回答は正しいか否かどころではなく,そもそも質問に答えていないのである。このBAは投票によって選ばれているので,それを選んだ質問者か,あるいは,第三者が,この問題の意味を全く理解してないのである。せっかく私が丁寧に回答を書いたが,結局,質問者あるいは投票者に理解してもらえなかったようだ。


これに関連するが,以前,知恵袋で,

母比率の差をExcelのt検定できるか?

という質問に対し

できない

という回答があったが,これも誤解である。もちろん,近似的だがExcelt検定で検定できる。冒頭の問題もまた,Excelの対応あるt検定で分析可能なのである。


では具体的に,どう分析するか,再度検討してみよう。なお,検定に使われる計算式自体はできるだけ省略し,Excel関数と統計解析ソフトRを利用し結果を得ていく。


統計学的検定に関して言えば,検定理論を理解していないため,Excelを十分に使いこなせてない人も多い気がする。


ここから,上記問題を分析を始める。Bの効果ありの母比率をpとすると,帰無仮説H0,対立仮説H1の設定は片側検定であるため,次のようになる。


H0: p = 0.65

H1: p > 0.65


まず思い浮かぶのが,適合度検定としてのカイ二乗検定である。


Bの効果あり31例,効果なし12例の比率を,期待比率0.65 : 0.35と比べるのである。2×2分割表を使うと,次のようになる。


表1.観察値と期待値の2×2分割表 

2×2分割表


ここで期待値は,全体の標本サイズに,それぞれの期待比率をかけて求められている。すなわち,


効果ありの期待値 = 43×0.65 = 27.95

効果なしの期待値 = 43×0.35 = 15.05


話は脇道にそれるが,用語の確認をしておきたい。


ここでのカイ二乗検定は,適合度検定であり,1標本検定である。つまり,

標本数(number of samplesk =1


1標本は,1群とも呼ばれ,こちらのほうが,むしろ馴染み深い。つまり

群数 = 標本数

という関係がある。


一方で,測定値の数は,

標本サイズ(sample sizen = 43

となる。


標本サイズは,サンプルサイズ,または,標本の大きさ,とも言われるが,それを標本数と呼ぶ間違いが非常に多い。標本数と標本サイズをきちんと区別しよう。


表1の検定は,Excelなら,CHITEST関数を使い,括弧内に,順に,観察値と期待値のセルをドラッグすれば良い。すなわち

=CHITEST(B1:C1, B2:C2)

結果は,P = 0.3295


ただし,この場合,出力されるのはP値だけなので,もしカイ二乗値を求めたければ,CHIINV関数を用いて,自由度1として,上記P値を引数にすれば良い。

=CHIINV(P, 1)


統計解析ソフトRを使うなら

chisq.test (c(31, 12), p=c(0.65, 0.35))

結果は

X-squared = 0.9509, df = 1, p-value = 0.3295

Excelと全く同じ結果となる。


最終的には,片側検定となるので

P = 0.3295/2

= 0.1647・・・①

片側5%水準で有意な差はない。


なお,いずれの計算でも,イェーツの連続性の補正(Yates' continuity correction)は行われていない。この補正をしても,さらにP値が大きくなるだけであり,ここでは意味がなく,詳しく触れない。


ここまでは,カイ二乗検定の利用法を示したが,より正確な検定を使うなら,二項検定が考えられる。効果の有無という事象は,コインの裏表と同じく,二項変数であると考えられるからである。


なお,カイ二乗検定の正確検定というと,すぐにFisherの正確確率検定だと思い込んでしまう人がいる。観察値と理論値の比較の場合,2×2分割表なら,二項検定が適用される。


Excelで二項検定を行うなら,BINOMDIST関数を使う。


ABテストを検定するというページでも,

エクセルでは、二項検定を一発で行う方法はないようです

と述べているが,これは理解不足である。


本問のケースで,二項検定し,P値を求めるなら,以下のような入力になる。


=1-BINOMDIST(30, 43, 0.65, TRUE)


最後の引数TRUEは,累積確率であることを示す。効果ありの例数は,31でなく,30と入力。

つまり,X130までの累積確率を,全体確率1から引いて,X31以上となる確率を求めている。すなわち,以下の図1のような右スソ面積に相当する確率(黄色部分)になる。


 二項分布

図1. n = 43,p = 0.65 の二項分布で,X≧31の累積確率



実際に,計算すると

P = 0.2092・・・②


のカイ二乗検定の結果より少し大きなP値で,もちろん片側5%水準で有意な差はない。


もし,統計ソフトRを利用するなら,

binom.test (31, 43, alternative="greater", p=0.65)

とすると,同じ結果が得られる。


さて,ここからが本題。


質問は,

A薬の効果は65%。B薬の効果は43例中31例。BAに比べて優れているといえるか

に関して,

平均,分散,標準化について記して答えよ

というものであった。


これに解答するには,まず,ド・モアブル-ラプラスの定理を考える必要がある。


ド・モアブル-ラプラスの定理

 標本サイズn,出現確率pの二項分布B(np)に従う確率変数は,nが十分大きくなると,近似的に,平均np,分散np(1-p)の正規分布N(npnp(1-p)に従う。また,標本比率X/nは,近似的に正規分布N(pp(1-p)/n)に従う。


この定理を使い,帰無仮説H0: p = 0.65の下での検定を考える。つまり,「標本比率は0.65に等しい」,が帰無仮説になる


すると,

  • 標本比率(31/43)から0.65を引くと平均0の確率変数,
  • それを分散0.65(1-0.65)/43)の平方根,つまり標準偏差で割ると,標本比率は標準化
  • その結果となる確率変数Zは,標準正規分布N(01)に従う,

と言える。すなわち

 Z検定


が,N(01)に従うのである。この統計量を用いて検定すれば良い。いわゆるZ検定(Z-testである。


以上の説明から,BA氏が述べた,

平均 ,分散,標準化は,母比率には無縁の用語

という回答は的外れであり,これらの用語は母比率に密接に関連すると分かる。


実際に計算すると

Z = 0.97516

となる。


この片側P値は,Excelならば,

P = 1-NORMSDIST(0.97516)

= 0.1647・・・③


のカイ二乗検定と同じ結果となった。


実は,これ当然なのである。 標準正規分布N(01)に従う確率変数Zの二乗,つまり,Z^2は,自由度1のカイ二乗分布になるのである。


つまり知恵袋の問題は,標準正規分布とカイ二乗分布の関連性の問題であった,と言っても良いのである。


再度,質問を取り上げると,

A薬の効果は65%。B薬の効果は43例中31例。BAに比べて優れているといえるか

というものであった。



前述のように,この問題には,平均と標準偏差という統計量が密接に関連する。それならば,t検定が適用できるだろう,少なくとも近似的にはそうできるだろう,と直感的にも分かる。


このためには,まず効果の有無にそれぞれ,10数字コード(numerical codeを割り当てる。つまり,ダミー変数(dummy variableとするのである。


すると,Bの平均m

m = (31*1+12*0)/43

= 31/43

となり,平均値がまさに,効果有りの比率となることが分かる。これを0.65と比べ,片側検定すれば良いのである。


統計ソフトRを使うなら,1標本t検定(片側)で次のようにする。


x<- rep(0:1, c(12, 31)) # 012個,131

t.test (x, mu=0.65, alternative="greater")


結果は,

t = 1.0248, df = 42, p-value = 0.1557・・・④


これをExcelを使ってするには,対応のあるt検定を利用する。対応のあるt検定は,本質的に1標本(1群)問題であるが,それを知らない人も結構いる。Rの解説で,1標本検定の項目に,対応のあるt検定が取り上げられているページがあるが,まさに正しい扱いなのである。


対応のあるt検定とは,実は,対応のあるデータを引き算して1群し,それが平均0の分布となるかどうかを検定している。例えば,以下のような例を計算するとよく分かる。ここでは,Rを使ってみる。


以下のような,xy2群(2標本)を考える。

x<- c(58, 57, 60, 58, 59)

y<- c(52, 49, 51, 57, 55)


対応のあるt検定を行うと

t.test(x, y, paired=TRUE)

結果は,

t = 3.9017df = 4p-value = 0.01752


一方,これらのペアデータを引き算(X-Y)して1群zにすると

z<- c(6, 8, 9, 1, 4)


平均0に対して,1標本t検定すると

t.test (z, mu=0)

結果は,

t = 3.9017, df = 4, p-value = 0.01752

対応のあるt検定の結果と一致する。


さらに,次のように全て0からなる1wを考える。

w<- c(0, 0, 0, 0, 0)


zwで対応のあるt検定を行う

t.test(z, w, paired=TRUE)

結果は,

t = 3.9017, df = 4, p-value = 0.01752

前述の二つの結果と一致する。


これで,“対応のあるt検定とは,対応のあるデータを引き算して1群し,それが平均0の分布となるかどうかを検定している”,ことが理解できると思う。


では,本題に戻って,

A薬の効果は65%。B薬の効果は43例中31例。BAに比べて優れているといえるか

を,Excelの対応あるt検定で分析してみよう。


そのためには,まず,012個,131個のダミー変数を作り,それぞれに,確率0.65を対応させる。これらを,次の表2のように,ずらっと1列に並べればよい。



表2. Excelワークシート上の0が12個,1が31個のダミー変数と対応する確率0.65


対応あるt検定は,1標本t検定


その上で,TTEST関数に,以下のように入力する。

= TTEST (A1:A43, B1:B43, 1, 1)

3番目と4番目の引数1は,それぞれ,片側検定で,対応のある検定であることを指定している。


その結果は,

P = 0.1557・・・⑤

つまり,統計ソフトRを用いた1標本t検定のP値④と一致する。もしこのときのt値を求めるなら,TINV関数を使う。このとき使うP値は,②を2倍した両側P値である。

=TINV(P*2, 自由度42)


Excelを用いた母比率に関する1標本t検定は,このようにする。Excel関数の基本的な使い方を知っていても,統計理論を知らないために,宝の持ち腐れになっているケースも多いのではないかと思う。


以上の検定(片側)結果を,問題文とともに,まとめておく。

A薬の効果は65%。B薬の効果は43例中31例。BAに比べて優れているといえるか


カイ二乗検定・・・P = 0.1647

二項検定・・・・・・P = 0.2092

Z検定・・・・・・・・・P = 0.1647

t検定・・・・・・・・・P = 0.1557


正確さという点から言えば,二項検定が良いのだが,本問に限って言えば,どれを使っても実質的問題はないと言える。t検定のP値が,カイ二乗検定やZ検定のP値に近いが,これは,t分布も標本サイズが大きくなると正規分布に近づくことに起因している。


・・・・追記・・・・

逆正弦変換を利用した検定


ymst_rintaさんから,逆正弦変換を利用した分散分析もできる,との指摘があった。


なるほど確かにその通りであり,それも考察してみよう。


なお,逆正弦変換(角変換)を利用した分散分析に関しては,例えば,日本女子大・岡本安晴の解説・比の差の分散分析を参照。また岡本氏は,この分析が出来るフリーソフトも開発していて,ウェブページ・比の差の分散分析からダウンロード利用できる。


また,逆正弦変換を利用した分散分析の参考文献としては,岡本氏が解説末尾に挙げたもの以外として,次のものが挙げられる。


岩原信九郎(1964

ノンパラメトリック法―新しい教育・心理統計


逆正弦変換自体は,角度の単位に度(°)を使っても,ラジアン(rad)を使っても良いのだが,ここでは一般に馴染み深い単位として度を用いて議論を進める。なお,上記の岩原(1964)でも,度を用いて逆正弦変換が説明されている。


ある比率pを,逆正弦変換によって,角度dに直したとすると以下のような式になる。

 逆正弦変換

これは

 逆正弦変換

とも書かれる。


Excelならば,

=DEGREES(ASIN(SQRT(p)))

とすれば,逆正弦変換した上で,度(°)に直せる。


表1のデータで,効果ありの比率を逆正弦変換した結果が,次の表3である。



表3.効果ありの比率の逆正弦変換(単位°

 逆正弦変換データ

逆正弦変換したデータは,正規分布になり,その分散σ2

 逆正弦変換分散

となる。この821は,しばしば定数のように用いられるので注意が必要である。


正規分布となった逆正弦変換値の差の検定には,前述のようにZ検定が使える。岡本の説明のように,逆変換値の分散分析には,χ2値を使う。しかし,本問の場合は,

自由度 = 2 1 = 1

なので,χ2値の平方根が,正規分布となることからも,Z検定が使えると分かる。


すなわち

 逆正弦変換Z値

この片側P値は,Excelならば,

P =1-NORMSDIST(1.003)

= 0.1579


この結果は,前記のt検定の結果と,ほぼ同じとなり,実質的には,逆正弦変換を利用したZ検定も利用できると分かる。


アドバイス(このノートのライターへのメッセージ)を送る

このノートはどうでしたか?  いいと思ったことや、こうしたらもっとよくなるといったメッセージを送りましょう! ノートの内容やライターについて質問がある場合は、Q&Aから質問してみましょう

アドバイスを送るには、
Yahoo! JAPAN IDでのログインおよび
Yahoo!知恵袋の利用登録が必要です。

利用登録ナビへ

感想アドバイス履歴

  • 送信日時:2013/08/27 09:29:40

    ymst_rintaさん

    ここが気になった

もっと見る

このノートに関するQ&A

このノートに関するQ&Aは、まだありません。

このノートについて質問する

このノートについてライターの方に質問できます。

※ライターの方から必ず回答をいただけるとは限りません

※別ウィンドウで開きます

この知恵ノートのライター

グレード

グレード知恵ノートのグレード:2-1

iguchi_yuさん男性

ピックアップ

妻のパート勤め、いくらまでな...
 はじめにパートやアルバイトの年収って、いったいいくら稼ぐ...
自動車税で「損」をしないため...
自動車やバイクなどを所有すると「税金」がかかりますが、そ...
【扶養内の働き方】103万の壁と...
何故103万円・130万の壁と言われるか?パートで得る所得は基...
知恵ノートを書いてみませんか?知恵ノートの書き方はこちら

知恵ノートとは?

役立つ知恵情報は、Yahoo!知恵袋公式Twitter@yahoochiebukuroをフォロー
本文はここまでです このページの先頭へ