誤差論と最小二乗法

第7回 線形モデル-その1

今回から、線形モデルとその解法に入ります。線形モデルは前回も紹介したようにデータ(の期待値)とパラメータの関係が線形であるようなモデルです。例えば、P、Qの座標をそれぞれimage001とし点PQ間のGNSS基線ベクトルをimage002と表せば、image003となり観測値との座標の関係は1次(線形)関係で表せます。実は測量では多くの場合(辺長や角観測と座標の関係など)、モデルは線形ではありませんが線形になるように近似して解いています。非線形モデルの線形近似については後の回でお話しします。

 

線形モデルの記述にはベクトルや行列を用いるのが便利ですので、それらを取り扱う線形代数の基礎的な事柄を付録にまとめておきました。必要に応じて参照していただければと思います。

 

1.線形モデルの表現

image004個の測定データのベクトルを、

 

image005

 

image006個の未知パラメータからなるベクトルを

 

image007

 

ランダム誤差のベクトルを

 

image008

 

としたとき、線形モデルは次のように表されます。

 

image009

 

image010image011行列で計画(モデル)行列と呼ばれ、各成分は既知の定数です。

また、

 

image012

 

を仮定しておきます。image013image014と同じです。image015は確率変数で観測値は誤差を含みますが、その期待値がパラメータの線形式で表せるということです。

 

上式でimage016は期待値、image017は共分散をとることを示します。期待値や分散の定義については第2、4回で紹介していますが、複数個の変数がある場合、ベクトル及び行列で表現すると取り扱いが便利です。具体的に書くと、以下のようになります。

 

確率変数ベクトルimage015の期待値は

 

image018

 

確率変数間の分散を成分に持つ共分散行列(誤差行列)が次のように定義されます。

 

image019

 

線型モデルでは、

 

image020

image021

です。

 

また、image022image023をそれぞれ定数行列及びベクトルとした時、image015の線形変換image024に関して次の式が成り立ちます。

 

image025

image026

 

2番目の式は誤差伝播則と呼ばれています。確率変数を変換したとき、その誤差は元の変数の誤差で表せる(誤差が伝わってゆく)という意味です。

 

誤差伝播の例:

①観測値の和と差

 

2つの独立な観測値image027image028の和(差)

image029

 

の分散はimage027とのimage028の分散をそれぞれimage030image031とすると、image032 なので(6)から

 

image033

 

標準偏差は、image034となります。

 

②観測値の定数倍

 

      image035 なら

image037

 

です。

 

③平均値の誤差

ある量image038(例えば基線長)をimage039回観測したとします。すると平均値image040と(標本)分散image041は、

 

image042

 

です(第1回参照)。平均値の誤差(分散)を求めてみましょう。観測値ベクトルは

 

image043

 

です。平均値の式は

 

image044

 

と書けますからimage038の線形式です。従って、平均値の分散は(6)より

 

image045

 

となり、1観測の分散のimage046になります。また、標準偏差は平方根をとるのでimage047になります(①と②を応用してimage048image049image050からimage039まで足したものと考えれば、分散はimage051=image052と求まります。)。

 

これから線形モデルを用いてパラメータの推定や検定を行うわけですが,今回は(2)の条件の他に計画行列image010はフルランクimage053と仮定しておきます(2.でわかるように正規方程式が逆行列で解ける場合です)。そうでない場合(ランク落ちという)は、後の回で取り上げます。一つだけ例をあげれば、GNSSによる基線ベクトル観測から位置を求める場合、最低1点の3次元座標を固定することにより、正規方程式の逆行列が存在します。固定点がないとランク落ちとなり逆行列では解けません。

 

2. パラメータ推定法とその性質1:最小二乗法

2.1 線形モデルの幾何学

線形モデルを幾何学的に考えてみましょう。観測ベクトルimage038は、image054次元空間(データ空間)内のある点を示します。image055は計画行列を

 

image056

 

と列ベクトルに分けると

 

image057

 

と書けます。各列ベクトルはimage054次元ですからデータ空間内にあり、image010の列ベクトルが張る空間(image058:推定空間といいます)はデータ空間の部分空間となっています。そしてimage055image059の値に応じた推定空間内の点を表しています。それと観測値のベクトルimage038との差が誤差ベクトルimage060となります。問題は、image059image061も未知ということです。しかし、image038はデータですから既知、また、image014は推定空間内にあります。

 

以上のことを3次元(image062)でイメージできるように図1で示しました。データimage015は3次元空間内にあり、image058image063image064で張られる3次元空間内の平面でその中にimage055があります。

 

 

image065

図1.線形モデルの幾何学

 

最小二乗の条件:推定値image066

 

image067

 

を満たすとき最小二乗解といいます(image068は最小値を示します)。

 

これは、image069image038の距離が最小になるということです。そして、そのようなベクトルは、残差image070が推定空間と直交するものとして与えられることがわかります(図2)。式で書くと残差のベクトルは計画行列の列ベクトルと直交するので(付録、(4))、

 

image071

 

となります。従って、

 

image072

 

つまり次式が成り立ちます。

 

image073

 

これを正規方程式といいます。

 

image074がフルランクとするとimage075のランクはimage006となって逆行列が存在します。従って正規方程式を解いて

 

image076

 

が、最小二乗解となります。

 

image077および誤差image061の推定値は

 

image078

 

image079

 

となり、観測値は以下のように分解できます。

 

image080

 

image081は直交射影と呼ばれるもので、今の場合image038image082へ垂直に投影したもの(正射影)を与えます。image083は、次のような性質を持っています。

 

image084

 

また、image082への正射影はただ一つに決まることが証明されます。従って最小二乗解も一意に決定されます。

 

image085

図2.最小二乗法の幾何学

 

古い最小二乗法の教科書では、正規分布から最小二乗条件を導き出し、観測値Yを正規分布に従うと仮定していました。しかし、図2に示すように、最小二乗解は幾何学的に導かれ、観測値の正規分布の仮定は必要ありません。

 

簡単な例として、前回紹介した直線回帰の問題を見てみましょう(図3)。

モデルとして、

 

image086

 

image087各誤差image088の平均はimage089、分散はimage090

を考えます。ベクトルと行列で表現すると、

 

image091

image092

 

となります。image093は正則ですから逆を持ち、image059の最小二乗解が、

 

image094

 

と求まります。

 

image095

図3.簡単な直線回帰

 

 

2.2 最小二乗解の性質

最小二乗解は重要な性質をもっていますので、以下に述べたいと思います。まず、

最小二乗解の不偏性です。

最小二乗解の期待値をとると

image096

image097

image098

 

となり不偏(期待値が真値に等しい)であることわかります。

 

最小二乗解の分散

最小二乗解は観測ベクトルの線形関数として与えられますから、誤差伝播により分散を持ちます。分散行列は、

 

image099

image100      (6)より

image101

image102

 

となります。

 

ここで、image103は、未知量image066の重み係数行列と呼ばれ、未知量の精度に関係しています。正方行列image104のi番目の対角要素image105は、i番目の未知数の標準偏差image106で表されます。例えば、GNSS測位で観測点の位置をローカル座標系で表した場合、image104は4行4列で、緯度(n)、経度(e)、高さ(u)及び時間(t)が要素になっています。この要素からHDOPimage107(水平DOP)が導かれます。

 

最良不偏推定値BLUE

推定値を求める時の基準としてBLUEというものがあります。BLUEとは(Best Linear Unbiased Estimator)の頭文字で最小の分散を持つ不偏な線形の推定値という意味です。これに関しては有名な次の定理があります。

 

ガウス‐マルコフの定理

線形モデル

 

image108

 

において,image109が推定可能ならばそのBLUEはimage110である。ここで、image066は、正規方程式image111を満たす最小二乗解である。

 

推定可能とは、image038の線形式からなるimage109の不偏推定量が存在するということです。今回の仮定ではimage066自体が最小二乗解として不偏ですからimage059は推定可能です。image074がフルランクでない場合はimage059の適当な一次式が推定可能となります。証明はここでは省略しますが、一般の教科書に載っていますので(例えば、参考文献2)興味ある方は参照してください。

 

2.3 誤差分散image0901_1の推定

残差の二乗和を考えましょう。モデルに最小二乗解を代入すると残差は、

 

image112

 

となります。ここで、image113

 

ですから、残差image114は誤差ベクトルのみに依存することがわかります。そこで残差二乗和の期待値をとると、

 

image115_2

 

となることがわかっています(参考文献2等参照)。従って、image090は残差二乗和から

 

image116

 

と推定できることになります。image117を自由度といいます。image118image074がフルランクなら未知パラメータの数image006と同じです。

 

次回は、一般の最小二乗法について紹介し、測量における線形モデルの簡単な例とその解についてお話ししたいと思います。

 

(第7回付録 線形(線型)代数の基礎)

 

参考文献

1.Christensen, R.: Plane Answers to Complex Questions: The Theory of Linear Models (2011), Springer Texts in Statistics, New York.

2.東京大学教養学部統計学教室編: 自然科学の統計学(2016), 東京大学出版会.

 

 

Share on FacebookTweet about this on TwitterShare on LinkedInEmail this to someonePrint this page

誤差論と最小二乗法

第7回付録 線形(線型)代数の基礎

ベクトル、行列、ベクトル空間とその線型変換に関する数学の分野が線形(線型)代数ですが、統計学や最小二乗法で必要となる基本的なことをまとめておきます。

 

A0.集合及び演算の記号

集合に関して以下のような記号を使います。集合とはある定義されたものの集まりで、集合を構成するものを元といいます。

 

image001

image002

image003

image004

image005

image006

image007

      image008

image009

 

 また、

 

image010

 

A1.ベクトル、ベクトル空間、行列

ベクトルは二次元や三次元空間の位置ベクトルなどでおなじみでしょう。ここでは、まずベクトル空間の定義をします。

 

ベクトル空間:集合image011があってその任意の元image012とスカラーimage013に関して和とスカラー倍が定義されて、以下のような法則が成り立つときimage011をベクトル空間といい、image011の元をベクトルといいます。(スカラーとはベクトルではない普通の数のことです)

 

image014

image015

image016

image017

 

つまり、ベクトルとは和とスカラー倍が定義され、和と積の(普通の)法則がみたされているものと考えられます。ベクトル空間のことを線形(線型)空間ともいいます。

また、ベクトルは太字(ボールド体)で書くことにします。

 

ベクトルは抽象的な概念ですが、私たちが取り扱うのはほとんど image018の場合で、スカラーも実数です。その時は、image019をn次元数ベクトル空間と考え、以下のように各ベクトルをn個の実数を縦に並べた列ベクトルとして書きます。

 

image020

 

縦ベクトルと同じように横ベクトルも定義されます。横ベクトルは、「’」をつけて

 

image022

 

となります。

 

部分(ベクトル)空間image011の部分集合image023がそれ自体ベクトル空間の時、image023を部分(ベクトル)空間といいます。言い換えると、image023に含まれる元がまたベクトルとして和とスカラー倍の法則を満たすということです。

 

部分空間の例

3次元数ベクトル空間は、image024ですが、

 

image025は、その部分空間でimage026平面となります。また、image027は、image028軸でこれも部分空間です。

image023は2次元の、image029は1次元のベクトル空間です(図A 1)。

 

image030

図A1. 部分空間の例(image031

 

 

線形(一次)結合:いくつかのベクトルから和とスカラー倍で生じるベクトルを一次(線形)結合といいます。

 

image032

 

ベクトルimage033の一次結合全体からなる部分空間をimage033で張られる空間といいます。

 

一次独立と一次従属image034が成り立つのが、image035がすべて0である場合、image033は一次独立といい、そうでないとき一次従属といいます(図A2)。

 

基底:一次独立なimage033が張る空間をimage011とするとき、image037image011の基底といいます。

ある空間の基底となるベクトルの数は一定です。

 

部分空間のランク:部分空間image011の基底の元の数を、その部分空間image011のランクといい、image038と書きます(図A3)

 

image039

図A2.image040において、image041あるいはimage042は一次独立、image043は一次従属.

 

image044

図A3.image045は基底image046で張られ、ランクは2.

 

 

ベクトルの内積、直交、長さ、距離image019においてはベクトルの内積が定義されます。

 

image047のとき、image048

 

ここで、image049は横ベクトルです。「’」 は転置といって縦と横を逆にすることを示す記号です(行列の項参照)。

 

image051の内積が0 (image052 の場合、image053は直交します。        (4)

 

2つの部分空間image054が直交するとは、image055ならimage056となることです(図A4)。

 

ベクトルimage057の長さは、image058

 

 

image059の距離とは、差のベクトルの長さimage060です。           (6)

 

image061

図A4.直交部分空間の例:image062

 

行列:行列は数あるいは変数(要素)を長方形に並べたものです。また、ベクトルと同じようにここで取り扱う各行列要素はほとんどの場合実数です。行列は大文字のボールド体で書くことにします。

 

image063

 

image064の縦(列)横(行)の長さを明記する時は、n行m列の行列、またはimage065行列といいます。

同じ型の行列には和とスカラー倍が定義され、

 

image066のとき、

 

image067

 

ベクトルと同じ法則(1)を満たします。

 

image068

 

image069など。

 

従ってimage083行列全体もベクトル空間を構成していることになります。

 

image064の列数とimage071の行数が等しい時に積image072が定義されます。image073のとき、image074型で、image075とすると

 

image076

 

です。行列の積はスカラー倍とは違って、結果が掛ける順序に依存します。一般に

 

image077

 

であることに注意してください。

image078次元縦ベクトルはimage079、横ベクトルはimage080行列と考えられます。ベクトルの内積(3)は、image080ベクトルとimage079ベクトルの積です。

 

行列の列空間:image083行列 image064の各列は、image019のベクトルです。

 

image086,

 

行列の列ベクトルが張る空間を列空間といいimage087と書きます。

 

image088

 

と書けますが、image057をm次元ベクトル

 

image089

 

とすれば、

 

image090

 

です。image087のランクを行列image064のランクといい、image092と書きます。ランクは空間を張る一次独立なベクトル(基底)の数でしたから、image092は一次独立な列ベクトルの数となります。実は一次独立な行ベクトルの数も同じです。

 

image094image095ならば、image064はフルランクといいます。ランクは一次独立な列(行)の数ですから、この場合可能な最大値をとります。また、

 

image097

 

が成り立ちます。

 

行列image098を行ベクトル、列ベクトルに分けて以下のように書くと、

 

image099

 

image101

 

つまり、積image102image103要素は内積image104となります。

 

行列の種類:いくつか定義をあげます。

正方行列:列と行の数が等しい行列。

 

転置行列:行と列を入れ替えた行列で、image105の転置行列をimage106と書くと、image107です。また、image108です。

 

対称行列:image109なら対称行列といいます。対称行列は正方行列です。

 

対角行列:正方行列で対角成分以外が0の行列を対角行列といいます。image110です。特に、対角成分がすべて1の対角行列を単位行列といいimage111と書きます。

 

単位行列は、積における1(単位元)で、image112が成り立ちます。ただし、image064image083なら最初のimage111image115、つぎのimage111image116です。

 

逆行列:正方行列image064に対し、image118となる行列image119がある時、image064は正則であるといいimage119image064の逆行列といいます。image115行列image064が正則となる必要十分条件はimage122、つまりimage064の列がimage019の基底となることです。

また、image064が正則ならimage124も正則で、逆行列は

 

image125

 

image064image071が同じ大きさの正則行列ならimage072も正則で、逆行列は

 

image127

 

です。

 

その他の重要な行列の演算については後の回にまわすことにします。

 

 

参考文献

線形代数に関してはたくさんの教科書が出ています。例えば、

1.佐竹一郎: 線型代数学(2000), 裳華房.

2.有馬哲: 線型代数入門(1975), 東京図書.

 

Share on FacebookTweet about this on TwitterShare on LinkedInEmail this to someonePrint this page