ナレッジ

第5回 その2 – 統計的推論

3.正規分布からの標本

この項では特に母集団が正規分布からの標本分布を考えます。正規分布は第3回に述べたように統計学における基本の分布ですから、ここで導かれる統計量はさまざまな場面で活用される重要なものです。

 

正規分布は次の重要な性質をもっています。

 

(i)正規確率変数の線型変換は正規確率変数image039が正規分布image040に従うとき、image041は正規分布image042に従う。

 

(ii)独立な正規確率変数の和は正規確率変数image001を独立な確率変数とし、各image004は平均image043分散image044を持つ正規分布に従うとする。その時、image045の分布は、平均image046、分散image047の正規分布となる。

 

つまり独立で正規分布に従う確率変数は、和や差をとったり定数倍しても再び正規分布となるのです。

 

また、(i)より特に、image039が正規分布image040に従うとき、

 

 

image049

 

 

と変換するとimage050は標準正規分布image051に従います(標準化といいます)。

 

例えば、測量において、距離、方向及び比高などあらゆる観測値を標準偏差で割った標準化変数image050を使うことによって、こうした異種観測値が同時網平均できることになります。

 

3.1 標本平均の分布-分散が既知の時

大きさimage002の標本を考えましょう。

 

正規母集団の平均と分散をそれぞれimage027image028とすれば、標本平均はimage052ですから(ii)を適用して(image053とすればよい)、

 

image025の分布は、平均image027、分散image054 (標準偏差 image055)の正規分布となります。

 

これは、一つのものを繰り返し観測した場合、推定値の精度を2倍にしたければ観測数は4倍にしなければならないことを示しています。

 

また、image025を標準化した統計量

 

image056

 

は標準正規分布image051に従います。

 

3.2 標本分散の分布-image057(カイ二乗)分布

標本分散は、

 

image058

 

ですから、その分布を知るためには確率変数の二乗和が従う分布が必要になります。正規分布に従う確率変数の二乗和の分布がimage059(カイ二乗)分布です。

 

image059(カイ二乗)分布

確率変数image039が、image002を正の整数として次の形の確率密度関数を持つとき、自由度image002image059(カイ二乗)分布image060といいます(図1)。

 

image061

 

ここで、image062はガンマ関数という関数で、image063のとき、image064が成り立ち、image065という値をとります。

 

自由度image002image059分布の平均はimage002、分散はimage066です。

 

 

image067

図1.様々な自由度のimage057確率密度関数

 

さて、image001を正規母集団image040からのランダムサンプルとします。これを標準化してimage068とすると各image069は標準正規分布の確率変数となります。この時、それらの二乗和

 

image070

 

は、自由度image002image057分布をすることがわかっています。

 

それでは、標本分散image071との関係はどうなるでしょうか。

 

image072

 

と変形すると、左辺は自由度image002image059分布、右辺第2項は自由度1のimage059分布を持ちます。このことと(詳しい証明は省きますが)image074image075が独立なことから、右辺第1項が自由度image076image059分布に従うことがわかります。つまり、image075を正規母集団からの標本分散としたとき統計量、

 

 

image077

 

は自由度image076image057分布に従います。これを使えば、標本分散から母分散について統計的推論を行うことが可能になります。また、後に述べる最小二乗法では残差の二乗和に対してimage057分布を用いて検定を行います。

 

3.3 標本平均の分布-分散が未知の時:t分布

3.1で母集団の分散が既知ならば標本平均image074の分布は正規となり、image078は標準正規分布に従うことを見ましたが、一般的には母集団の分散は未知です。その場合、母分散の代わりに標本分散を使うことが考えられます。標本のサイズが大きい時はimage079と仮定でき中心極限定理によりimage080が近似的にimage051に従うことがわかります。しかし、標本が小さい場合この仮定は使えず、image080は(スチューデントの)t分布というものになることが知られています。t分布は、小標本image081 の場合に有用な分布です。

 

(スチューデントの)t分布

image082image083が独立の確率変数で、image082が自由度image002image057分布、image083image051に従うとします。その時、確率変数、

 

image084

 

が従う分布を自由度image002のt分布image085といいます。確率密度関数は、

 

image086

 

になります(図2)。t分布は左右対称なので平均は0、また、image087なら分散はimage088です。image002が大きくなるとt分布は標準正規分布に収束することが証明されており、図2からもわかるようにimage002が30以上では標準正規分布で近似しても問題ありません。

 

image089

図2.スチューデントのt分布image090と正規分布image051 (破線)

 

正規母集団からのランダムサンプルの場合、次が成り立ちます。

大きさimage002の標本平均と分散をそれぞれimage074image075、母集団平均と分散をそれぞれimage027image028とすると統計量、

 

image091

 

は、自由度image076のt分布に従います。

 

なぜなら、

 

image092

image093

 

となって、image074image075が独立なことからimage082image083も独立になり、t分布image095に従う統計量の定義(10)に合致するからです。

 

t分布は、正規分布の代用とも考えられますが、小標本の場合の厳密な確率分布です。図2を見ると正規分布はt分布よりピークがとがっています。そのため小標本の場合、正規分布を使うと平均からはずれる確率を過小評価していることになります。

 

例えば、2回の観測の平均値を採用した場合、正規分布を仮定すると1観測が標準偏差内に落ちる確率は68.3%です。t分布では自由度1ですから、標準偏差内に落ちる確率はt分布表から50%にすぎないことがわかります。すなわち、少ない観測値に対して標本分布として正規分布を仮定した場合、計画機関は品質の悪い成果を受け入れる可能性があります。逆に、作業機関である測量業者にとっては、成果検定が緩やかになる可能性があります。なお、公共測量作業規程の準則において、測量成果の品質管理にt分布は使われていません。

 

参考文献

1.蓑谷千凰彦(1995):推定と検定のはなし、東京図書.

2.中根勝見(2018):日本における誤差論の歴史的考察、写真とリモートセンシング Vol.57.No4、152-159. または、アイサンテクノロジー株式会社 Website

  https://atmsp.aisantec.com/atmspark/modules/IA_34/index.php?id=12

3.Ramachandran, K.M. & Tsokos, C.P.: Mathematical Statistics with Applications (2009), Elsevier Academic Press.

 

Share on FacebookTweet about this on TwitterShare on LinkedInEmail this to someonePrint this page