誤差論と最小二乗法

第7回 線形モデル – その1

今回から、線形モデルとその解法に入ります。線形モデルは前回も紹介したようにデータ(の期待値)とパラメータの関係が線形であるようなモデルです。例えば、P、Qの座標をそれぞれimage001とし点PQ間のGNSS基線ベクトルをimage002と表せば、image003となり観測値との座標の関係は1次(線形)関係で表せます。実は測量では多くの場合(辺長や角観測と座標の関係など)、モデルは線形ではありませんが線形になるように近似して解いています。非線形モデルの線形近似については後の回でお話しします。

 

線形モデルの記述にはベクトルや行列を用いるのが便利ですので、それらを取り扱う線形代数の基礎的な事柄を付録にまとめておきました。必要に応じて参照していただければと思います。

 

1.線形モデルの表現

image004個の測定データのベクトルを、

 

image005

 

image006個の未知パラメータからなるベクトルを

 

image007

 

ランダム誤差のベクトルを

 

image008

 

としたとき、線形モデルは次のように表されます。

 

image009

 

image010image011行列で計画(モデル)行列と呼ばれ、各成分は既知の定数です。

また、

 

image012

 

を仮定しておきます。image013image014と同じです。image015は確率変数で観測値は誤差を含みますが、その期待値がパラメータの線形式で表せるということです。

 

上式でimage016は期待値、image017は共分散をとることを示します。期待値や分散の定義については第2、4回で紹介していますが、複数個の変数がある場合、ベクトル及び行列で表現すると取り扱いが便利です。具体的に書くと、以下のようになります。

 

確率変数ベクトルimage015の期待値は

 

image018

 

確率変数間の分散を成分に持つ共分散行列(誤差行列)が次のように定義されます。

 

image019

 

線型モデルでは、

 

image020

image021

です。

 

また、image022image023をそれぞれ定数行列及びベクトルとした時、image015の線形変換image024に関して次の式が成り立ちます。

 

image025

image026

 

2番目の式は誤差伝播則と呼ばれています。確率変数を変換したとき、その誤差は元の変数の誤差で表せる(誤差が伝わってゆく)という意味です。

 

誤差伝播の例:

①観測値の和と差

 

2つの独立な観測値image027image028の和(差)

image029

 

の分散はimage027とのimage028の分散をそれぞれimage030image031とすると、image032 なので(6)から

 

image033

 

標準偏差は、image034となります。

 

②観測値の定数倍

 

      image035 なら

image037

 

です。

 

③平均値の誤差

ある量image038(例えば基線長)をimage039回観測したとします。すると平均値image040と(標本)分散image041は、

 

image042

 

です(第1回参照)。平均値の誤差(分散)を求めてみましょう。観測値ベクトルは

 

image043

 

です。平均値の式は

 

image044

 

と書けますからimage038の線形式です。従って、平均値の分散は(6)より

 

image045

 

となり、1観測の分散のimage046になります。また、標準偏差は平方根をとるのでimage047になります(①と②を応用してimage048image049image050からimage039まで足したものと考えれば、分散はimage051=image052と求まります。)。

 

これから線形モデルを用いてパラメータの推定や検定を行うわけですが,今回は(2)の条件の他に計画行列image010はフルランクimage053と仮定しておきます(2.でわかるように正規方程式が逆行列で解ける場合です)。そうでない場合(ランク落ちという)は、後の回で取り上げます。一つだけ例をあげれば、GNSSによる基線ベクトル観測から位置を求める場合、最低1点の3次元座標を固定することにより、正規方程式の逆行列が存在します。固定点がないとランク落ちとなり逆行列では解けません。

 

2. パラメータ推定法とその性質1:最小二乗法

2.1 線形モデルの幾何学

線形モデルを幾何学的に考えてみましょう。観測ベクトルimage038は、image054次元空間(データ空間)内のある点を示します。image055は計画行列を

 

image056

 

と列ベクトルに分けると

 

image057

 

と書けます。各列ベクトルはimage054次元ですからデータ空間内にあり、image010の列ベクトルが張る空間(image058:推定空間といいます)はデータ空間の部分空間となっています。そしてimage055image059の値に応じた推定空間内の点を表しています。それと観測値のベクトルimage038との差が誤差ベクトルimage060となります。問題は、image059image061も未知ということです。しかし、image038はデータですから既知、また、image014は推定空間内にあります。

 

以上のことを3次元(image062)でイメージできるように図1で示しました。データimage015は3次元空間内にあり、image058image063image064で張られる3次元空間内の平面でその中にimage055があります。

 

 

image065

図1.線形モデルの幾何学

 

最小二乗の条件:推定値image066

 

image067

 

を満たすとき最小二乗解といいます(image068は最小値を示します)。

 

これは、image069image038の距離が最小になるということです。そして、そのようなベクトルは、残差image070が推定空間と直交するものとして与えられることがわかります(図2)。式で書くと残差のベクトルは計画行列の列ベクトルと直交するので(付録、(4))、

 

image071

 

となります。従って、

 

image072

 

つまり次式が成り立ちます。

 

image073

 

これを正規方程式といいます。

 

image074がフルランクとするとimage075のランクはimage006となって逆行列が存在します。従って正規方程式を解いて

 

image076

 

が、最小二乗解となります。

 

image077および誤差image061の推定値は

 

image078

 

image079

 

となり、観測値は以下のように分解できます。

 

image080

 

image081は直交射影と呼ばれるもので、今の場合image038image082へ垂直に投影したもの(正射影)を与えます。image083は、次のような性質を持っています。

 

image084

 

また、image082への正射影はただ一つに決まることが証明されます。従って最小二乗解も一意に決定されます。

 

image085

図2.最小二乗法の幾何学

 

古い最小二乗法の教科書では、正規分布から最小二乗条件を導き出し、観測値Yを正規分布に従うと仮定していました。しかし、図2に示すように、最小二乗解は幾何学的に導かれ、観測値の正規分布の仮定は必要ありません。

 

簡単な例として、前回紹介した直線回帰の問題を見てみましょう(図3)。

モデルとして、

 

image086

 

image087各誤差image088の平均はimage089、分散はimage090

を考えます。ベクトルと行列で表現すると、

 

image091

image092

 

となります。image093は正則ですから逆を持ち、image059の最小二乗解が、

 

image094

 

と求まります。

 

image095

図3.簡単な直線回帰

 

 

2.2 最小二乗解の性質

最小二乗解は重要な性質をもっていますので、以下に述べたいと思います。まず、

最小二乗解の不偏性です。

最小二乗解の期待値をとると

image096

image097

image098

 

となり不偏(期待値が真値に等しい)であることわかります。

 

最小二乗解の分散

最小二乗解は観測ベクトルの線形関数として与えられますから、誤差伝播により分散を持ちます。分散行列は、

 

image099

image100      (6)より

image101

image102

 

となります。

 

ここで、image103は、未知量image066の重み係数行列と呼ばれ、未知量の精度に関係しています。正方行列image104のi番目の対角要素image105は、i番目の未知数の標準偏差image106で表されます。例えば、GNSS測位で観測点の位置をローカル座標系で表した場合、image104は4行4列で、緯度(n)、経度(e)、高さ(u)及び時間(t)が要素になっています。この要素からHDOPimage107(水平DOP)が導かれます。

 

最良不偏推定値BLUE

推定値を求める時の基準としてBLUEというものがあります。BLUEとは(Best Linear Unbiased Estimator)の頭文字で最小の分散を持つ不偏な線形の推定値という意味です。これに関しては有名な次の定理があります。

 

ガウス‐マルコフの定理

線形モデル

 

image108

 

において,image109が推定可能ならばそのBLUEはimage110である。ここで、image066は、正規方程式image111を満たす最小二乗解である。

 

推定可能とは、image038の線形式からなるimage109の不偏推定量が存在するということです。今回の仮定ではimage066自体が最小二乗解として不偏ですからimage059は推定可能です。image074がフルランクでない場合はimage059の適当な一次式が推定可能となります。証明はここでは省略しますが、一般の教科書に載っていますので(例えば、参考文献2)興味ある方は参照してください。

 

2.3 誤差分散image0901_1の推定

残差の二乗和を考えましょう。モデルに最小二乗解を代入すると残差は、

 

image112

 

となります。ここで、image113

 

ですから、残差image114は誤差ベクトルのみに依存することがわかります。そこで残差二乗和の期待値をとると、

 

image115_2

 

となることがわかっています(参考文献2等参照)。従って、image090は残差二乗和から

 

image116

 

と推定できることになります。image117を自由度といいます。image118image074がフルランクなら未知パラメータの数image006と同じです。

 

次回は、一般の最小二乗法について紹介し、測量における線形モデルの簡単な例とその解についてお話ししたいと思います。

 

『第7回付録 線形(線型)代数の基礎』へ

 

『第8回 線形モデル – その2』へ

 

参考文献

1.Christensen, R.: Plane Answers to Complex Questions: The Theory of Linear Models (2011), Springer Texts in Statistics, New York.

2.東京大学教養学部統計学教室編: 自然科学の統計学(2016), 東京大学出版会.

 

 

Share on FacebookTweet about this on TwitterShare on LinkedInEmail this to someonePrint this page