ナレッジ

第5回 その1 – 統計的推論

確率分布を取り扱う確率論は数学理論ですから、確率分布が与えられればそれに従う確率変数の振る舞いを数学的に厳密に解析することができます。私たちが取り扱う現実の問題では、観測して集めたデータや測定値(確率変数)は何らかの確率分布に従っている集団(母集団)からの標本(サンプル)と考えられます。私たちが知りたいのは、多くの場合データそのものではなく、データが持つ普遍的な性質、データが表す社会的動向や科学的真実です。つまりデータが属する母集団のパラメータ・性質ということになります。しかし、母集団を完全に知ることは困難な場合が多いので、持っているデータを用いて「推定」を行うことになります。その統計学的方法を推測統計学 (統計的推測)といいます。

1.記述統計学から推測統計学(統計的推測)へ

統計学は19世紀後半から20世紀初頭にかけて発展し、現在の統計学でも使われる基礎的概念が完成しました。観察されたデータを整理・要約しその集団的性質を明らかにする手法で記述統計学と呼ばれます。しかし、当時の統計学は標本の数を多くすれば真実に近くなるという大標本を前提とした理論で、データの背後にある母集団という概念は意識されていませんでした。その後20世紀に入って、集団全体を調べることができない場合でも部分的に選ばれたデータを分析して元の集団を推測するという統計的推測の方法が確立されました(参考文献1)。

 

測量・測地学の分野については、以下、参考文献2から引用しておきます。

「しかし,推測統計学は直ちに測地学へ導入されたわけでなく,統計的仮説検定が,本格的に測地学の論文及び教科書に使われるようになったのは,20世紀後半になってからである。とりわけ計算量の多い測地学では,電子計算機の実用化が不可欠であった。世界的には,現在の測位・測量成果の品質管理の誤差論に使われている。我が国の測量分野では,現在においても統計的仮説検定のような推計統計学の成果は,使われてない。」

2.標本分布

標本分布は確率論と統計的推測を結び付けるものです。確率変数である標本から作られた統計量の確率分布を決めることは統計的推測の重要なステップです。

 

標本と母集団については連載第1回でもふれましたが、基本的な概念をもう一度定義から述べたいと思います。

 

母集団:これから調べたいと思うすべての対象あるいは測定値の集まり。

一般に母集団は確率分布を持つと考えられ、それを母集団分布といいます。母集団分布は未知なことが普通です。母集団は有限の場合もありますが、測量などの測定値の場合は無限と考えるのが普通です。

 

標本(サンプル):観測可能な確率変数の組、image001image002を標本の大きさという。

 

ランダムサンプル:各確率変数が独立で同じ確率分布に従う場合の標本。

標本がランダムの場合、次に定義される統計量の計算が簡単になりますので、以下特に断らない限りランダムサンプルを扱います。

 

統計量:確率変数の組、image001の関数で未知のパラメータは含まない。

母集団の推測に使われるもので、標本平均や分散などは統計量の例です。統計量は確率変数の関数なので、当然確率変数となります。例えば、標本平均image003は確率変数image004の関数なのでやはり確率変数で、標本によってその値がばらつきます。従って、確率分布を持ちます。

 

標本分布:統計量の確率分布のこと。

次に例を示しましょう。

 

例1.標本平均の確率分布

簡単のために5個の有限母集団を考えます。母集団が数値image005からなるとします。これから3つを選んだ標本をすべて調べましょう。標本の選び方は、image006通りありますから、それぞれ平均をとって表にすると、

 

2019-11-05_15h33_00

 

表を見ると、例えばimage013あるいはimage014の標本では平均値image025image020になり、これが標本から母集団平均を推定した値です。平均値がimage020となる標本は10個のうち2つですから、その確率はimage026となります。このように平均値は標本によってばらつきますので、確率的な取り扱いが必要になります。

 

ここでいくつか重要な式を導いておきたいと思います(連載第1回も参照)
平均image027、分散image028の母集団から抽出した大きさimage002の標本をimage029とします。

 

標本平均の期待値

image004の期待値image030image027ですから、

 

image031

 

 

つまり、標本平均の期待値は母集団平均に等しくなります。

 

標本平均の分散

image032に注意して、

 

image033

 

となり、母集団分散のimage034になります。image002が大きくなると分散が0に近づきますから、image025(標本平均)→ image027(母平均)になることが証明されます(大数の法則)。

 

標本分散の期待値

第1回で標本分散を定義しました。

 

image036

 

この期待値を計算してみましょう。image037(連載第2回参照)を使うと、

 

image038

 

従って標本分散の期待値は母集団分散と等しくなります。

 

標本平均や標本分散のように期待値が母集団のものと一致することを「不偏」(平均的に過少でも過大でもなく正しい)といいます。その意味で、標本平均や標本分散は不偏推定量になっています。標本分散の場合は確率分布の定義から で割った分散を使うと不偏ではなくなるので注意が必要です。 が大きい場合はその差はほとんどありませんが、10以下ですと10%以上の差になります。

 

(第5回 その2 統計的推論 につづく)

 

参考文献

1.蓑谷千凰彦(1995):推定と検定のはなし、東京図書.

2.中根勝見(2018):日本における誤差論の歴史的考察、写真とリモートセンシング Vol.57.No4、152-159. または、アイサンテクノロジー株式会社 Website

  https://atmsp.aisantec.com/atmspark/modules/IA_34/index.php?id=12

3.Ramachandran, K.M. & Tsokos, C.P.: Mathematical Statistics with Applications (2009), Elsevier Academic Press.


 

Share on FacebookTweet about this on TwitterShare on LinkedInEmail this to someonePrint this page

ナレッジ

第5回 その2 – 統計的推論

3.正規分布からの標本

この項では特に母集団が正規分布からの標本分布を考えます。正規分布は第3回に述べたように統計学における基本の分布ですから、ここで導かれる統計量はさまざまな場面で活用される重要なものです。

 

正規分布は次の重要な性質をもっています。

 

(i)正規確率変数の線型変換は正規確率変数image039が正規分布image040に従うとき、image041は正規分布image042に従う。

 

(ii)独立な正規確率変数の和は正規確率変数image001を独立な確率変数とし、各image004は平均image043分散image044を持つ正規分布に従うとする。その時、image045の分布は、平均image046、分散image047の正規分布となる。

 

つまり独立で正規分布に従う確率変数は、和や差をとったり定数倍しても再び正規分布となるのです。

 

また、(i)より特に、image039が正規分布image040に従うとき、

 

 

image049

 

 

と変換するとimage050は標準正規分布image051に従います(標準化といいます)。

 

例えば、測量において、距離、方向及び比高などあらゆる観測値を標準偏差で割った標準化変数image050を使うことによって、こうした異種観測値が同時網平均できることになります。

 

3.1 標本平均の分布-分散が既知の時

大きさimage002の標本を考えましょう。

 

正規母集団の平均と分散をそれぞれimage027image028とすれば、標本平均はimage052ですから(ii)を適用して(image053とすればよい)、

 

image025の分布は、平均image027、分散image054 (標準偏差 image055)の正規分布となります。

 

これは、一つのものを繰り返し観測した場合、推定値の精度を2倍にしたければ観測数は4倍にしなければならないことを示しています。

 

また、image025を標準化した統計量

 

image056

 

は標準正規分布image051に従います。

 

3.2 標本分散の分布-image057(カイ二乗)分布

標本分散は、

 

image058

 

ですから、その分布を知るためには確率変数の二乗和が従う分布が必要になります。正規分布に従う確率変数の二乗和の分布がimage059(カイ二乗)分布です。

 

image059(カイ二乗)分布

確率変数image039が、image002を正の整数として次の形の確率密度関数を持つとき、自由度image002image059(カイ二乗)分布image060といいます(図1)。

 

image061

 

ここで、image062はガンマ関数という関数で、image063のとき、image064が成り立ち、image065という値をとります。

 

自由度image002image059分布の平均はimage002、分散はimage066です。

 

 

image067

図1.様々な自由度のimage057確率密度関数

 

さて、image001を正規母集団image040からのランダムサンプルとします。これを標準化してimage068とすると各image069は標準正規分布の確率変数となります。この時、それらの二乗和

 

image070

 

は、自由度image002image057分布をすることがわかっています。

 

それでは、標本分散image071との関係はどうなるでしょうか。

 

image072

 

と変形すると、左辺は自由度image002image059分布、右辺第2項は自由度1のimage059分布を持ちます。このことと(詳しい証明は省きますが)image074image075が独立なことから、右辺第1項が自由度image076image059分布に従うことがわかります。つまり、image075を正規母集団からの標本分散としたとき統計量、

 

 

image077

 

は自由度image076image057分布に従います。これを使えば、標本分散から母分散について統計的推論を行うことが可能になります。また、後に述べる最小二乗法では残差の二乗和に対してimage057分布を用いて検定を行います。

 

3.3 標本平均の分布-分散が未知の時:t分布

3.1で母集団の分散が既知ならば標本平均image074の分布は正規となり、image078は標準正規分布に従うことを見ましたが、一般的には母集団の分散は未知です。その場合、母分散の代わりに標本分散を使うことが考えられます。標本のサイズが大きい時はimage079と仮定でき中心極限定理によりimage080が近似的にimage051に従うことがわかります。しかし、標本が小さい場合この仮定は使えず、image080は(スチューデントの)t分布というものになることが知られています。t分布は、小標本image081 の場合に有用な分布です。

 

(スチューデントの)t分布

image082image083が独立の確率変数で、image082が自由度image002image057分布、image083image051に従うとします。その時、確率変数、

 

image084

 

が従う分布を自由度image002のt分布image085といいます。確率密度関数は、

 

image086

 

になります(図2)。t分布は左右対称なので平均は0、また、image087なら分散はimage088です。image002が大きくなるとt分布は標準正規分布に収束することが証明されており、図2からもわかるようにimage002が30以上では標準正規分布で近似しても問題ありません。

 

image089

図2.スチューデントのt分布image090と正規分布image051 (破線)

 

正規母集団からのランダムサンプルの場合、次が成り立ちます。

大きさimage002の標本平均と分散をそれぞれimage074image075、母集団平均と分散をそれぞれimage027image028とすると統計量、

 

image091

 

は、自由度image076のt分布に従います。

 

なぜなら、

 

image092

image093

 

となって、image074image075が独立なことからimage082image083も独立になり、t分布image095に従う統計量の定義(10)に合致するからです。

 

t分布は、正規分布の代用とも考えられますが、小標本の場合の厳密な確率分布です。図2を見ると正規分布はt分布よりピークがとがっています。そのため小標本の場合、正規分布を使うと平均からはずれる確率を過小評価していることになります。

 

例えば、2回の観測の平均値を採用した場合、正規分布を仮定すると1観測が標準偏差内に落ちる確率は68.3%です。t分布では自由度1ですから、標準偏差内に落ちる確率はt分布表から50%にすぎないことがわかります。すなわち、少ない観測値に対して標本分布として正規分布を仮定した場合、計画機関は品質の悪い成果を受け入れる可能性があります。逆に、作業機関である測量業者にとっては、成果検定が緩やかになる可能性があります。なお、公共測量作業規程の準則において、測量成果の品質管理にt分布は使われていません。

 

参考文献

1.蓑谷千凰彦(1995):推定と検定のはなし、東京図書.

2.中根勝見(2018):日本における誤差論の歴史的考察、写真とリモートセンシング Vol.57.No4、152-159. または、アイサンテクノロジー株式会社 Website

  https://atmsp.aisantec.com/atmspark/modules/IA_34/index.php?id=12

3.Ramachandran, K.M. & Tsokos, C.P.: Mathematical Statistics with Applications (2009), Elsevier Academic Press.

 

Share on FacebookTweet about this on TwitterShare on LinkedInEmail this to someonePrint this page

パラメータ情報

【地殻変動補正提供サービス】パラメータの生成と評価:2019年12月1日~12月31日

2019年12月1日から2019年12月31日を有効期間とする

地殻変動補正提供サービス パラメータを生成しましたので、お知らせいたします。

 

パラメータの精度評価結果は以下の通りです。

水平方向の推定誤差の平均値は、0.012 mです。

水平方向の推定誤差の標準偏差は、0.041 mです。

水平方向の推定誤差が4cm以下の地域の割合は、99.23%です。

 

なお、今回生成したパラメータは、すべての電子基準点のデータを使用し、

パラメータの生成および精度評価を行っています。

今後、パラメータと評価指標の精度向上のため、

解析条件を変更する可能性がありますので、予めご了承ください。

Share on FacebookTweet about this on TwitterShare on LinkedInEmail this to someonePrint this page