ここから本文です

この知恵ノートを「知恵コレクション」に追加しました。

追加した知恵ノートはMy知恵袋の「知恵コレクション」ページで確認できます。

知恵コレクション」に登録済みです。

再登録しました。

追加に失敗しました。

ノートに戻り、もう一度やり直してください。

すでに1,000件のノートが登録されています。

新しく追加したい場合は、My知恵袋の「知恵コレクション」ページで登録されているノートを削除してください。

追加できませんでした。

ノートは削除されました。

標本分散から,標本不偏分散へ: n で割ることから,n - 1 で割ることへ,中心極限定理をからめた統計学の基礎的話題

ライターさん(最終更新日時:2015/8/11)投稿日:

  • ナイス!:

    12

  • 閲覧数:31930

印刷用のページを表示する

 不偏分散

執筆責任:井口豊(長野県岡谷市・生物科学研究所


標本分散の定義が複数あり,その名称が混乱を招く問題については,三重大・奥村晴彦氏の分散と標準偏差の解説も参照。


不偏標準偏差(標準偏差の不偏推定量)は,不偏分散の平方根ではないので,注意が必要である。前者は,サンプルサイズ(n)が大きくなると,近似的に,平均からの偏差平方和を n-1.5 で割った値の平方根として求められる。こうなると,なぜ1.5を引いた数で割るのか,直感で捉えるのは難しくなる。ウィキペディア(Wikipedia)の標準偏差の項目に,この式を私(Iguchi-Y)が追記したが,意外と知られていない公式だろう。


このページの話題では,「標本平均の平均」と「標本平均の分散」に対して,一般にデータから計算される「標本平均」と「標本分散」を混同しないように注意が必要である。


英語では,不偏分散のことをunbiased varianceと呼び,U^2で表される場合がしばしばある。さらに,不偏分散による標準偏差のことをSample standard deviation(標本標準偏差)と呼ぶことが多いが,そうでない場合もある。ウィキペディアの標準偏差の項目に,名称の混乱について追記したので参考にしてほしい。


そこにも書いたが, Wikipedia英語版のStandard deviationの説明では、不偏分散による標準偏差(平均からの偏差平方和を n-1で割った値の平方根)のことを Corrected sample standard deviationと表記し,平均からの偏差平方和を nで割った値の平方根をUncorrected sample standard deviationまたはThe standard deviation of the sampleと表記している。この補正非補正という名称が,分かりやすくて,すっきりする。

*************** 


統計データにおいて,標本から母集団の分散(母分散)を推定する時,平均からの偏差平方和を,標本数ー1,で割った形
Σ
xi - m)^2 / (n - 1)
を用いる。

ここで,なぜ,n でなく,n - 1 で割るのか,という疑問をしばしば耳にし,目にする。

もちろん,数学的には,母数の平均値(期待値)に位置する推定量として,不偏性が定義され,不偏分散が求まる。例えば,下記サイトに計算が,ずら~っと書かれている。

不偏分散を求めるときに n - 1 で割るわけ

しかし,一般の人は,このような数式を読むだけでも大変であり,かえって混乱するのではなかろうか?

以下の説明では,厳密な証明ということでなく,概念的な説明として,この話題を展開しようと思う。

なお,母集団確率分布の特徴を表す特性値として,母平均や母分散を母数と言う。母数という用語は,しばしば誤解されがちなので,あらためて知恵ノートも参考にしてほしい。
母数=分母?

まず,自由度という観点から,不偏分散を眺める。

冒頭に記した,分母 n - 1 は,自由度とも呼ばれる。しかし,ここで問題となるのは,自由度とな何だろうか,という点である。そもそも,何が「自由」なのだろうか?

母平均や母分散を推定する時,最低限いくつの標本が必要だろうか,そう考える時に使われるのが自由度であることを念頭に置いて欲しい。

通常の自由度の説明,標本数から拘束条件数を引いたもの,とは違う観点から説明してみようと思う。

例えば,母平均は母集団分布の位置を表す母数だが,これは,最低限として(誤差は最大になるが),1個の標本で足りる。

例えば,ネズミとゾウの体重を比べる時,最低,ひとつの測定値があれば,非常に大雑把だが,これらの生物の体重を推測し比較できる。

だから,標本平均では,分母 n として,母平均が求められる。
n = 0
は駄目だが,n ≧ 1 ならば,「自由に」使える,のである。
それを分母で表現している。

一方,バラツキの母数である母分散は,一つの測定値では推定できない。

例えば,A組のある生徒1人の体重が 50kg,B組のある生徒1人の体重が 60kg であったとして,どちらの組の生徒の体重がバラツキが大きいか,と問われても,さっぱりわからない。

この場合,体重のバラツキを推定しようとしたら,最低限もうひとつ,つまり各組2人ずつの測定値が必要だと分かる。

これが母分散を求めるときの自由度n-1 につながる。
n = 1 では不可(分母が0になる),n ≧ 2 ならば自由に使える,ということを分母で示している。

次に,数式として導く,という観点から,厳密な証明をせずに説明しよう。

母平均μ,母分散σ^2 の母集団から,大きさ n (つまり,n 個)の標本を抽出し,その平均を Xm とすると,Xm
平均 μ,分散 σ^2/n
の確率分布に従う。

つまり,n 個の標本を取り出し平均を求める,さらにまた,n 個の標本を取り出し平均を求める,という操作を繰り返していくと,
平均 μ,分散 σ^2/n
の確率分布が出来上がる,という意味である。


標本平均の平均,と,標本平均の分散,を求めたことになる。得られたデータから計算される標本平均と標本分散と混同しないように注意が必要である。


このときの標準偏差

standard-error.jpgこれを特に,標準誤差(standard error,SE)と呼ぶ。少し厳密に言えば,平均の標準誤差(standard error of the mean, SEM.)である。


標本サイズ n を大きくしていくと,この確率分布は,次第に正規分布に近づく。これが中心極限定理である。

この定理のすごいところは,もとがどんな分布であろうが,そこから取り出された標本平均の分布は正規分布に近づく,という点である。


この定理を利用して,母分散が既知の場合の平均値の検定,いわゆるZ検定が行われるのである。すなわち,標本平均 Xm は正規分布 N(μ,σ^2/n)に従うので,それを基準化すると 

z-value.jpg

この Z は,標準正規分布 N(0, 1)に従うのである。Z検定に関しては,私の別の知恵ノートも参照してほしい。


母比率の検定: Excelによるカイ二乗検定,二項検定,Z検定,t検定,逆正弦変換検定の利用


標本平均の平均は,母平均と見なしてよい(推定される)と証明されている。

一方,標本分散の平均は,母分散とならず,過小評価であることが証明されている。特に,標本数が少ない時ほど母分散とかけ離れたものになる。

例えば,1000個,100個,10個と抽出標本を減らしていくと,母集団のバラツキを小さく見積もりそうだ,ということは直感的にも分かるだろう。

ではいったい,どのくらい過小評価されるのか?

前述の平均の場合と同じく,今度は,n 個の標本を取り出し分散を求める,さらにまた,n 個の標本を取り出し分散を求める,さらにまた・・・,という操作を繰り返していく。もちろん,ここでの分散とは標本分散であり,n で割ったものである。

その結果得られる標本分散 s^2 の平均を m(s^2)とする。

すると,標本分散の平均 m(s^2)は,母分散σ^2より,
標本平均の分散 σ^2/n のぶんだけ小さいのである。

数式で示すと,
m(s^2) = σ^2 - σ^2/n
 ・・・①

すなわち
標本分散の平均 = 母分散 - 標本平均の分散

あるいは,右辺第二項を左辺に移項して
m(s^2) + σ^2/n = σ^2

すなわち
標本分散の平均 + 標本平均の分散 = 母分散
である。

数式や説明を長々と展開しても,最も重要なこの点を強調した説明は少ない。
式は,標本平均をいくつも(何度も)計算して,そのバラツキぐあいを見ると,それで,母分散の過小評価の程度が分かる,ということを意味する。

逆に言えば,標本平均をいくつも(何度も)計算して,バラツキが少なければ,標本分散(nで割った分散)が母分散に近い,と考えられるのである。

また,n が大きくなれば,σ^2/n 0 に近づき,標本分散(nで割った分散)が母分散に近くなることも理解できるであろう。

さらに,このとき中心極限定理によって,標本平均の分布は正規分布に近づく。n が十分大きければ,標本分散(n で割った分散)を母分散と見なし,平均値の推定や検定に t 分布を使わず,正規分布を使うことが出来るゆえんである。

式を変形すると
m(s^2) = σ^2 - σ^2/n
 
= (1 - 1/n) * σ^2
= (n - 1) / n * σ^2
・・・②

となり,ここで,n - 1 が登場することが分かる。

つまり,-1の部分は,標本平均の分散 σ^2/n がもたらしたものであり,中心極限定理と密接に関わっている部分なのである。

式を変形し, (n - 1) / n の逆数を両辺にかけると
/ (n-1) * m(s^2) = σ^2
となる。

一方,標本分散は,Σxi - m)^2 / n と表される。

したがって,標本分散にn / (n-1) をかけて
/ (n-1) * Σxi - m)^2 / n
= Σ
xi - m)^2 / (n -1)

の平均を取れば,それが母分散と推定され,標本不偏分散だとわかる。

このようにして,不偏分散の分母 n - 1 は現れたのである。

このノートに関するQ&A

このノートに関するQ&Aは、まだありません。

このノートについて質問する

このノートについてライターの方に質問できます。

※ライターの方から必ず回答をいただけるとは限りません

※別ウィンドウで開きます

この知恵ノートのライター

グレード

グレード知恵ノートのグレード:2-3

iguchi_yuさん男性

ピックアップ

【iPhone】修理交換の申込方法...
 ※追記※2015/1/30現在iPhone6及び6+が発売されたのを受け、情...
知っておきたい無線LANルーター...
知っておきたい無線LANルーターの知識と選び方iPod touchやPS...
iTunesカードの基礎知識
はじめにiTunesStoreやAppStoreの決済には通常クレジットカー...
本文はここまでです このページの先頭へ