ナレッジ
第5回 その1 – 統計的推論
2019年11月06日
確率分布を取り扱う確率論は数学理論ですから、確率分布が与えられればそれに従う確率変数の振る舞いを数学的に厳密に解析することができます。私たちが取り扱う現実の問題では、観測して集めたデータや測定値(確率変数)は何らかの確率分布に従っている集団(母集団)からの標本(サンプル)と考えられます。私たちが知りたいのは、多くの場合データそのものではなく、データが持つ普遍的な性質、データが表す社会的動向や科学的真実です。つまりデータが属する母集団のパラメータ・性質ということになります。しかし、母集団を完全に知ることは困難な場合が多いので、持っているデータを用いて「推定」を行うことになります。その統計学的方法を推測統計学 (統計的推測)といいます。
1.記述統計学から推測統計学(統計的推測)へ
統計学は19世紀後半から20世紀初頭にかけて発展し、現在の統計学でも使われる基礎的概念が完成しました。観察されたデータを整理・要約しその集団的性質を明らかにする手法で記述統計学と呼ばれます。しかし、当時の統計学は標本の数を多くすれば真実に近くなるという大標本を前提とした理論で、データの背後にある母集団という概念は意識されていませんでした。その後20世紀に入って、集団全体を調べることができない場合でも部分的に選ばれたデータを分析して元の集団を推測するという統計的推測の方法が確立されました(参考文献1)。
測量・測地学の分野については、以下、参考文献2から引用しておきます。
「しかし,推測統計学は直ちに測地学へ導入されたわけでなく,統計的仮説検定が,本格的に測地学の論文及び教科書に使われるようになったのは,20世紀後半になってからである。とりわけ計算量の多い測地学では,電子計算機の実用化が不可欠であった。世界的には,現在の測位・測量成果の品質管理の誤差論に使われている。我が国の測量分野では,現在においても統計的仮説検定のような推計統計学の成果は,使われてない。」
2.標本分布
標本分布は確率論と統計的推測を結び付けるものです。確率変数である標本から作られた統計量の確率分布を決めることは統計的推測の重要なステップです。
標本と母集団については連載第1回でもふれましたが、基本的な概念をもう一度定義から述べたいと思います。
母集団:これから調べたいと思うすべての対象あるいは測定値の集まり。
一般に母集団は確率分布を持つと考えられ、それを母集団分布といいます。母集団分布は未知なことが普通です。母集団は有限の場合もありますが、測量などの測定値の場合は無限と考えるのが普通です。
標本(サンプル):観測可能な確率変数の組、。を標本の大きさという。
ランダムサンプル:各確率変数が独立で同じ確率分布に従う場合の標本。
標本がランダムの場合、次に定義される統計量の計算が簡単になりますので、以下特に断らない限りランダムサンプルを扱います。
母集団の推測に使われるもので、標本平均や分散などは統計量の例です。統計量は確率変数の関数なので、当然確率変数となります。例えば、標本平均は確率変数の関数なのでやはり確率変数で、標本によってその値がばらつきます。従って、確率分布を持ちます。
標本分布:統計量の確率分布のこと。
次に例を示しましょう。
例1.標本平均の確率分布
簡単のために5個の有限母集団を考えます。母集団が数値からなるとします。これから3つを選んだ標本をすべて調べましょう。標本の選び方は、通りありますから、それぞれ平均をとって表にすると、
表を見ると、例えばあるいはの標本では平均値がになり、これが標本から母集団平均を推定した値です。平均値がとなる標本は10個のうち2つですから、その確率はとなります。このように平均値は標本によってばらつきますので、確率的な取り扱いが必要になります。
ここでいくつか重要な式を導いておきたいと思います(連載第1回も参照)。
平均、分散の母集団から抽出した大きさの標本をとします。
標本平均の期待値
つまり、標本平均の期待値は母集団平均に等しくなります。
標本平均の分散
となり、母集団分散のになります。が大きくなると分散が0に近づきますから、(標本平均)→ (母平均)になることが証明されます(大数の法則)。
標本分散の期待値
第1回で標本分散を定義しました。
この期待値を計算してみましょう。(連載第2回参照)を使うと、
従って標本分散の期待値は母集団分散と等しくなります。
標本平均や標本分散のように期待値が母集団のものと一致することを「不偏」(平均的に過少でも過大でもなく正しい)といいます。その意味で、標本平均や標本分散は不偏推定量になっています。標本分散の場合は確率分布の定義から で割った分散を使うと不偏ではなくなるので注意が必要です。 が大きい場合はその差はほとんどありませんが、10以下ですと10%以上の差になります。
(第5回 その2 統計的推論 につづく)
参考文献
1.蓑谷千凰彦(1995):推定と検定のはなし、東京図書.
2.中根勝見(2018):日本における誤差論の歴史的考察、写真とリモートセンシング Vol.57.No4、152-159. または、アイサンテクノロジー株式会社 Website
https://atmsp.aisantec.com/atmspark/modules/IA_34/index.php?id=12
3.Ramachandran, K.M. & Tsokos, C.P.: Mathematical Statistics with Applications (2009), Elsevier Academic Press.