誤差論と最小二乗法

第1回 その1 – 誤差と統計

はじめに

 

測量には誤差がつきものです。

 

というよりも測定・観測されたデータは必ず誤差を含んでいます。そして、測量の目的である成果(点の位置など)は、生データではなくデータを理論的に解析して求められるものです。従って、良い成果を得るためにはデータに含まれる誤差の性質と誤差のあるデータの解析法を知らなければなりません。

 

この連載では、データ解析の際に必要となる誤差論とデータ解析の基本的手法であるとともに最も良く使われている最小二乗法について平易に解説したいと思います。

 

誤差論や最小二乗法の基礎となるのが統計学です。

 

ガウスの時代から19世紀にかけて「記述統計学」が発展しましたが、20世紀に入ってそれに代わる「推測統計学」が生まれました。大量のデータを前提にした集団の性質を記述する記述統計学に対し、推測統計学は少ないサンプルから元の集団(母集団)の特性を推定し、それを検証する問題を扱うことができます。現在の衛星測位・測量成果の品質管理は、この推測統計学によって評価されています。

 

本講座は推測統計学に基づいていますが、お話の性質上、聞きなれない「母集団」のような用語や数式が出てくるのは避けられません。そのため高校程度の簡単な微分・積分、線形代数の知識は前提としますが、必要に応じて補足したいと思います。

 

1.誤差とは

1.1 観測・測定と誤差

私たちは、様々な目的のために観測・測定(注1)を行い、データを集めます。

しかし、データには同じ装置、同じ設定で測定等を繰り返したとしても、まったく同じ結果が得られることはないという不確実性が常に伴っています。不確実性の原因はさまざまな事柄が考えられます。

 

例えば、測定装置の問題、外部条件の変化、測定対象そのものの性質などですが、観測者・測定者の大きな目的の一つはそのような不確実性をなるべく小さくすることでしょう。

 

伝統的に、誤差とは

測定値-真の値(1)

と定義されます。

 

ただし、ここで注意していただきたいことは、私達は真の値(注2)を(理論値または定義された常数値の場合以外)厳密に知ることができないということです。知ることができるのは、真値の推定値にすぎません。

 

逆に言えば、真の値を知っていれば、その測定をする意味はないとも言えます。経験的には、同じ測定を何回も繰り返し平均をとれば、その値はある一定値に近づくと期待されます。

 

もし、その平均値(推定値)が「真値」に近づけばよい測定をしているといえるのですが、真値を知らないのでそれだけでは正しい推定値を導くことはできません。

 

  • (注1) 観測と測定はここでは同義語として使っていますが、厳密にいえば、観測は対象を客観的に観察して記録し解析の基礎となるデータを得ること、測定は特に機器を用いて数値的データを得ることを指すようです。

 

  • (注2) ISOやJISでは、真とみなす値を参照値と定義し、真値の実在を扱っています。例えば、航空レーザー標高に対して、水準測量から得られた標高は参照値となり、真値とみなされます。私達の測量成果は「mm」単位で正確であればよいわけで、その範囲での正確な値は真値として扱うことができます。

 

1.2 測定値に含まれる誤差

一般に測定値には、以下に述べるランダム(偶然)誤差と系統誤差が含まれていると考えられます。

 

ランダム誤差

同じ測定を繰りかえした時に常に同じ結果を得るとは限りません。

 

結果は一致しないでばらつきますが、ばらつきの大きさや符号などが事前に確実にはわからない時、その測定にはランダム(偶然)誤差があるといいます。ランダム誤差は、確率論的に現れます。

 

確率論的という意味は、測定数を増やしていったとき、例えば、平均より大きい値と小さい値の数は等しくなる傾向にある、平均から大きく離れた値は少ない、などの性質を示すことです。

 

系統誤差

系統誤差は、(真値からの)偏りともいいますが、一定あるいは何らかの規則性(法則)によって確定できるものです。

 

系統誤差を除去するには、可能性のある原因を特定し、偏りの量を推定して測定値に補正を加えなくてはなりません。例えば、測定機器の較正が適切に行われていない場合や気象など外部条件の変化によって測定値にずれが生じます。

 

ただしランダム誤差と系統誤差は、上に述べたように概念的には違うものですが、実際には明確に分けることができない場合も多くあります。また、系統誤差であっても多くの測定を行ったときにランダム化が生じ、偶然誤差として扱う場合があります。例えば、光波測距儀による測定では日中や夜中では系統誤差となって現れますが、24時間観測でランダム化を行えば、偶然誤差として扱われます。

 

測定の誤差は上に述べたもののほかに、大きな誤差が観測者のミスや外部条件の一時的で急激な変化などで生ずる場合もあります。GNSS測位におけるマルチパスの影響も含まれます。この種の誤差(過失誤差)は、明らかにそれとわかることが多いので、注意深く観測を行うことで防ぐことができます。

 

1.3 精度と(正)確度

精度とは測定のばらつき(ランダム誤差)の尺度で、ランダム誤差が小さいほど精度が良いといいます。

一方、確度とは偏り(系統誤差)の尺度です。系統誤差が小さい時、確度が高いといいます。

 

図1に精度と確度について水平位置の測位の例をあげました。ただし、広い意味ではばらつきと偏りを同時に考えて、どちらも小さい時、精度が良いということもあります。

 

また、新しい測定値評価のための概念として「不確かさ」というものもあります。これについては参考を見ていただきたいと思います。

 

image1

図1.精度と確度(a. 低精度・高確度、b. 高精度・低確度) 

参考

測定誤差と不確かさ

測定結果の信頼性を表す指標として、近年では「不確かさ」という概念が登場しました。

 

不確かさは測定結果のばらつきの指標ですが、私達が測定しているのは真値ではなく真値に近いと思われる測定量であり、測定結果から得られるものはその推定値に過ぎないという考えが元になって定義されています。

 

測定誤差は真値という原理的に不可知な量から定義されるので、系統誤差も厳密には知りえず、誤差を使う測定結果の評価方法は明確には定義できないためです。

 

不確かさは、度量衡に関する測定機器の較正やトレーサビリティの確保、国際比較などに利用されるようになっています。

 

(不確かさについては、例えば、産業技術総合研究所による

https://unit.aist.go.jp/mcml/rg-mi/uncertainty/uncertainty.html

を参照してください。)

 

 

(第1回 誤差と統計 その2につづく)

 

Share on FacebookTweet about this on TwitterShare on LinkedInEmail this to someonePrint this page