データ分析理論

多変量正規分布における条件付き独立とその判定方法

本記事では、多変量正規分布に従う確率変数の条件付き独立を解説します。

多変量正規分布は、統計学・機械学習の中でも非常に重要な確率分布で、様々な重要な性質を持ちます。

しかし、その中でも「条件付き独立」という性質は、理論的にも実践的にも特に重要です。

この記事では、この魅力的なトピックについて、直感的な理解と数学的な厳密さのバランスを保ちつつ詳細に解説します。

具体的には、多変量正規分布に従う変数群がどのようにして条件付き独立性を持つか、そしてその判定方法までを深掘りします。

多変量正規分布での条件付き独立の概要

ここでは、多変量正規分布での条件付き独立が、どのようなロジックで成立するのかの大まかな流れ・枠組みを説明します。

多変量正規分布で条件付き独立が成立するロジック

まず、n次元確率変数ベクトル\(\mathbf{X} =(X_1, \cdots, X_n)^\top\)が、n次元期待値ベクトル\(\boldsymbol{\mu}\)、n次分散共分散行列\(\Sigma\)のn次元多変量正規分布に従っているとします。

多変量正規分布に従う確率変数では、

\[
X_i\mathrm{と}X_j\mathrm{が無相関} \Rightarrow X_i\mathrm{と}X_j\mathrm{は独立}
\]

が成り立ちます。\( X_i,X_j\) が無相関であることが分かれば、それは、\( X_i,X_j\)が独立であることを保証するわけです。

この性質は、多変量正規分布だからこそ成り立つ特別な性質であり、それ以外の確率分布では成り立ちません。

多変量正規分布に従う確率変数の条件付き独立の判定には、この性質をフル活用します。

つまり、多変量正規分布に従う変数対\( X_i,\,X_j\)の条件付き独立は、\( X_i,\,X_j\)以外のn-2個の変数で条件付けたときの\( X_i,\,X_j\)の条件付き多変量正規分布で、これら2つが無相関であれば成立するということです。

無相関かどうかは、\( X_i,\,X_j\)の条件付き確率密度関数の分散共分散行列の非対角成分で確認できて、それが\(0\)であるなら、\( X_i,\,X_j\)は、条件付き無相関=条件付き独立になる、ということです。

このように、多変量正規分布に従う2つの確率変数\( X_i,\,X_j\)の条件付き独立は、多変量正規分布の「無相関\( \rightarrow\)独立」という性質のおかげで、\( X_i,\,X_j\)の条件付き確率密度関数の分散共分散行列の非対角成分(共分散)に着目することで判定ができるわけです。

条件付き独立と精度行列との’意外な’関係性

ただ、一つ問題があります。それは、条件付き分布を求めるのは手間がかかるし面倒だということです。理論的には、これまでの話で事足りるのですが、実用の場面では不便です。

もちろん、このような不便さに対して、実用的な解決策があります。

それは、「条件付き多変量正規分布の分散共分散行列は、条件付けする前の通常の多変量正規分布の分散共分散行列の逆行列(精度行列)に見出すことができる」という事実です。

なんと、わざわざ条件付き分布とそれの分散共分散行列を求めなくても、条件付けする前の多変量正規分布の分散共分散行列\( \Sigma\) の逆行列を求めれば済んでしまうわけです。

【用語に使い方に関して】

先ほど、条件付き多変量正規分布の導出の元となった多変量正規分布を、「’条件付けする前’の多変量正規分布」という呼び方をしました。

しかし、この呼び方だと長いので、以降では、’条件付けする前’の多変量正規分布を’元の’多変量正規分布、または、’元のn次元’多変量正規分布と呼びます。

 

以降では、この一連の流れ・詳細を数式を用いながら確認していきます。その際、以下の3ステップで解説をしていきます。

  1. 元の多変量正規分布から条件付き多変量正規分布の確率密度関数とその分散共分散行列を導出する
  2. 元の多変量正規分布の分散共分散行列の逆行列を分割行列として表す
  3. ②での分割行列の1つが、条件付き多変量正規分布の分散共分散行列と一致することを確認する

 

条件付き多変量正規分布の確率密度関数の導出

ここでは、元の\( n\) 次元多変量正規分布に対して、\( p (< n)\)個の確率変数に関して、\( q = n – p\) で条件付けたときの\( p\) 次元の条件付き多変量正規分布の確率密度関数を導出していきます。

確率変数ベクトルの分割

まずは、これ以降の考察の土台となる仮定を以下のように定めます。

n次元確率変数ベクトル\(\mathbf{X}\)が、n次元多変量正規分布\(N(\boldsymbol{\mu},\, \Sigma)\)に従っているとします。

\(\boldsymbol{\mu} \) は、n次元期待値ベクトルで、\(\Sigma\)はn次分散共分散行列です。このとき、\(\mathbf{X}\)の確率密度関数は、

\[
f(\mathbf{x}) = \frac{1}{\sqrt{(2\pi)^n \: |\Sigma|}} \exp \left[-\frac{1}{2}(\mathbf{x} – \boldsymbol{\mu})^\top \Sigma^{-1}(\mathbf{x} – \boldsymbol{\mu})\right]
\]

で表されます。

ここで、\(\mathbf{X}\)を、\(\mathbf{X} = (\mathbf{X}_{1}^\top,\, \mathbf{X}_{2}^\top)^\top\)と分割します。

分割する理由は、条件付き分布を導出するためです。当面の目標は、\(\mathbf{X}_2\)で条件付きたときの\(\mathbf{X}_1\)の条件付き分布を求めることでしたね。

\[
\mathbf{X}_1 = \begin{pmatrix}X_1 \\ \vdots \\ X_p\end{pmatrix} \:\:\: \mathbf{X}_2 = \begin{pmatrix}X_{p+1} \\ \vdots \\ X_{q}\end{pmatrix}
\]

\(\mathbf{X}_1\)はp次元ベクトル、\(\mathbf{X}_2\)はq(=n-p)次元ベクトルで、\(n = p + q\)です。

また、この分割に合わせて、期待値ベクトル\(\boldsymbol{\mu}\)と分散共分散行列\(\Sigma\)を以下のように分割します。

\[
\underset{n \times 1}{\boldsymbol{\mu}} = \begin{pmatrix}
\underset{p\times 1}{\boldsymbol{\mu}_1} \\ \underset{q\times 1}{\boldsymbol{\mu}_2}
\end{pmatrix} \:\:\: \underset{n \times n}{\Sigma} = \begin{pmatrix}
\underset{p \times p}{\Sigma_{11}} & \underset{p \times q}{\Sigma_{12}} \\
\underset{q \times p}{\Sigma_{21}} & \underset{q \times q}{\Sigma_{22}}
\end{pmatrix}
\]

\(\boldsymbol{\mu}_1\)は\(\mathbf{X}_1\)に対応したp次元期待値ベクトル、\(\boldsymbol{\mu}_2\)は\(\mathbf{X}_2\)に対応したq次元期待値ベクトルです。

同様に、\(\Sigma_{11}\)は、\(\mathbf{X}_1\)に対応したp次分散共分散行列、\(\Sigma_{22}\)は、\(\mathbf{X}_2\)に対応したq次分散共分散行列です。

\(\Sigma_{12}\)と\(\Sigma_{21}\)は、\(\mathbf{X}_1\)と\(\mathbf{X}_2\)の共分散が格納された行列です。しかし、ここで抑えるべきは、\(\Sigma_{12}\)と\(\Sigma_{21}\)の間には、以下の関係が成り立っているということです。

\[
\Sigma_{12}^\top = \Sigma_{21}
\]

以上の設定の下、\(\mathbf{X}_2\)で条件付けたときの\(\mathbf{X}_1\)の条件付き分布を求めていきます。

すなわち、n次元確率変数ベクトル\(\mathbf{X}\)の確率密度関数\(f(\mathbf{x})\)を

\[ f(\mathbf{x}) = f(\mathbf{x}_1,\mathbf{x}_2) = f(\mathbf{x}_1|\mathbf{x}_2)f(\mathbf{x}_2) \]

と\(\mathbf{X}_2\)に関する周辺確率密度関数\(f(\mathbf{x}_2)\)と\(\mathbf{X}_2\)を固定したときの\(\mathbf{X}_1\)の条件付き確率密度関数\(f(\mathbf{x}_1|\mathbf{x}_2)\)の積に分解します。

そして、\(f(\mathbf{x}_1|\mathbf{x}_2)\)が多変量正規分布になるという事実をもとに、これの分散共分散行列がどのように表されるかを確かめます。

そこで以降では、\(\mathbf{X}\)の確率密度関数\(f(\mathbf{x})\)にある分散共分散行列の行列式\(|\Sigma|\)と2次形式\((\mathbf{x} – \boldsymbol{\mu})^\top \Sigma^{-1}(\mathbf{x} – \boldsymbol{\mu})\)を積の形に分解していく作業を行います。

\(f(\mathbf{x}) \) を分解するためには、分解できる形に\(f(\mathbf{x}) \)を式変形しなければならないからです。

分散共分散行列の行列式\(|\Sigma|\)の分解

まずは、分割行列の行列式に成り立つ以下の公式を確認します。

分割行列の行列式の分解公式

分割行列の行列式において、\(A\)をp次正方行列、\(D\)を\(q\)次正方行列、\(B\)を\(p \times q\)行列、\(C\)を\(q \times p\)行列とし、\(|D| \neq 0\)ならば、以下が成り立つ。

\[
|Z| = \begin{vmatrix}
A & B \\
C & D
\end{vmatrix} = |D||A – BD^{-1}C|
\]

この公式の証明は、本記事では省略します。参考文献にある「統計学のための数学入門30講」を参照してください。

では、この公式を\(|\Sigma|\)に適用していきます。\( \Sigma\) は、

\[\Sigma = \begin{pmatrix} \Sigma_{11} & \Sigma_{12} \\ \Sigma_{21} & \Sigma_{22} \end{pmatrix}\]

と設定したので、

\begin{align*}
|\Sigma| &= |\Sigma_{22}||\Sigma_{11} – \Sigma_{12} \Sigma_{22}^{-1}\Sigma_{21}| \\
&= |\Sigma_{22}||\Sigma_{11\cdot 2}|
\end{align*}

となります。以降のことも考慮して、\(\Sigma_{11\cdot 2} = \Sigma_{11} – \Sigma_{12} \Sigma_{22}^{-1}\Sigma_{21}\)とおきました。

2次形式\((\mathbf{x} – \boldsymbol{\mu}) \Sigma^{-1}(\mathbf{x} – \boldsymbol{\mu})\)の分解

先ほどと同様に、分割されたベクトルと行列の2次形式において以下の公式が成り立ちます。

分割行列の2次形式の分解公式

\(\mathbf{x}_1\)をp次元ベクトル、\(\mathbf{x}_2\)をq次元ベクトル、\(A\)と\(D\)をp次と\(q\)次の正則な対称行列、\(B\)を\(p \times q\)行列とすると、以下が成り立つ。

\begin{align}
(\mathbf{x}_{1}^\top, \mathbf{x}_{2}^\top) \begin{pmatrix}
A & B \\
B^\top & D
\end{pmatrix}^{-1} \begin{pmatrix}\mathbf{x}_1 \\ \mathbf{x}_2 \end{pmatrix} &= \mathbf{x}_{2}^\top D^{-1} \mathbf{x}_2 \\
&+ (\mathbf{x}_1 – B D^{-1} \mathbf{x}_2)^\top (A – B D^{-1} B^\top)^{-1} (\mathbf{x}_1 – B D^{-1} \mathbf{x}_2)
\end{align}

証明は、参考文献「統計学のための数学入門30講」を参照してください。

この公式を\((\mathbf{x} – \boldsymbol{\mu}) \Sigma^{-1}(\mathbf{x} – \boldsymbol{\mu})\)に適用します。

\begin{align}
(\mathbf{x} – \boldsymbol{\mu}) \Sigma^{-1}(\mathbf{x} – \boldsymbol{\mu}) &= \{(\mathbf{x}_1 – \boldsymbol{\mu}_1)^\top, (\mathbf{x}_2 – \boldsymbol{\mu}_2)^\top\}\Sigma^{-1}\begin{pmatrix}\mathbf{x}_1 – \boldsymbol{\mu}_1 \\ \mathbf{x}_2 – \boldsymbol{\mu}_2\end{pmatrix} \\
&= \{(\mathbf{x}_1 – \boldsymbol{\mu}_1)^\top, (\mathbf{x}_2 – \boldsymbol{\mu}_2)^\top\}\begin{pmatrix}
\Sigma_{11} & \Sigma_{12} \\
\Sigma_{21} & \Sigma_{22}
\end{pmatrix}^{-1}\begin{pmatrix}\mathbf{x}_1 – \boldsymbol{\mu}_1 \\ \mathbf{x}_2 – \boldsymbol{\mu}_2\end{pmatrix} \\
&= (\mathbf{x}_2 – \boldsymbol{\mu}_2)^\top \Sigma_{22}^{-1}(\mathbf{x}_2 – \boldsymbol{\mu}_2) \\
&+ \{(\mathbf{x}_1 – \boldsymbol{\mu}_1) – \Sigma_{12}\Sigma_{22}^{-1}(\mathbf{x}_2 – \boldsymbol{\mu}_2)\}^\top \; \Sigma_{11\cdot 2}^{-1}\; \{(\mathbf{x}_1 – \boldsymbol{\mu}_1) – \Sigma_{12}\Sigma_{22}^{-1}(\mathbf{x}_2 – \boldsymbol{\mu}_2)\}
\end{align}

だいぶ複雑でしたが、これで、\(f(\mathbf{x})\)を分解する準備が整いました。

確率密度関数\(f(\mathbf{x})\)の分解

ここからは、これまでの分解をもとに、n次元確率変数ベクトル\(\mathbf{X}\)の確率密度関数\(f(\mathbf{x})\)を周辺確率密度関数と条件付き確率密度関数の積に分解していきます。

すなわち、以下の分解公式

\[
f(\mathbf{x}) = f(\mathbf{x}_1, \mathbf{x}_2) = f(\mathbf{x}_1|\mathbf{x}_2)f(\mathbf{x}_2)
\]

に基づき、\(\mathbf{X}_2\)の周辺確率密度関数\(f(\mathbf{x}_2)\)と\(\mathbf{X}_2\)を固定したときの\(\mathbf{X}_1\)の条件付き確率密度関数\(f(\mathbf{x}_1|\mathbf{x}_2)\)の積に分解するわけです。

まず、\(\mathbf{X}\)の確率密度関数は、

\[
f(\mathbf{x}) = \frac{1}{\sqrt{(2\pi)^n \: |\Sigma|}} \exp \left[-\frac{1}{2}(\mathbf{x} – \boldsymbol{\mu}) \Sigma^{-1}(\mathbf{x} – \boldsymbol{\mu})\right]
\]

でした。分散共分散行列の行列式\(|\Sigma|\)の分解と2次形式\((\mathbf{x} – \boldsymbol{\mu}) \Sigma^{-1}(\mathbf{x} – \boldsymbol{\mu})\)の分解を\(f(\mathbf{x})\)に代入すれば、\(f(\mathbf{x})\)は以下のように分解される。

ただ、代入→分解のプロセスは、あまりにも煩雑になるので、本記事では省略して、分解の結果だけを示します。

\[
f(\mathbf{x}_2) = \frac{1}{\sqrt{(2\pi)^q \: |\Sigma_{22}|}}\exp \left[-\frac{1}{2}(\mathbf{x}_2 – \boldsymbol{\mu}_2)^\top \Sigma_{22}^{-1}(\mathbf{x}_2 – \boldsymbol{\mu}_2)\right]
\]

\begin{align}
f(\mathbf{x}_1|\mathbf{x}_2) = \frac{1}{\sqrt{(2\pi)^p \: |\Sigma_{11\cdot 2}|}}\exp \biggl[-&\frac{1}{2}\, \{(\mathbf{x}_1 – \boldsymbol{\mu}_1) – \Sigma_{12}\Sigma_{22}^{-1}(\mathbf{x}_2 – \boldsymbol{\mu}_2)\}^\top \\
& \times \Sigma_{11\cdot 2}^{-1}\; \{(\mathbf{x}_1 – \boldsymbol{\mu}_1) – \Sigma_{12}\Sigma_{22}^{-1}(\mathbf{x}_2 – \boldsymbol{\mu}_2)\} \biggl]
\end{align}

これで、元のn次元多変量正規分布の同時確率密度関数\(f(\mathbf{x})=f(\mathbf{x}_1, \mathbf{x}_2)\)を、\(\mathbf{X}_2\)の周辺確率密度関数\( f(\mathbf{x}_2)\) と、\(\mathbf{X}_2\)を固定したときの\(\mathbf{X}_1\)の条件付き確率密度関数\(f(\mathbf{x}_1|\mathbf{x}_2)\)に分解することができました。

ひとまず、第1の目標は達成です!

この分解結果に関して、周辺分布\(f(\mathbf{x}_2) \) と条件付き分布\(f(\mathbf{x}_1|\mathbf{x}_2)\)のどちらも、多変量正規分布になっていることは注目ポイントです。

つまり、元のn次元多変量正規分布\(f(\mathbf{x} )\) を周辺分布と条件付き分布に分解しても、これらどちらも、分解後も変わらず多変量正規分布になるということです。

特に重要なのは、後者の\(\mathbf{X}_2\)を固定した下での\(\mathbf{X}_1\)の条件付き確率密度関数\(f(\mathbf{x}_1|\mathbf{x}_2)\)です。

これは、p次元期待値ベクトル\(\boldsymbol{\mu}_1 + \Sigma_{12}\Sigma_{22}^{-1}(\mathbf{x}_2 – \boldsymbol{\mu}_2)\)、p次分散共分散行列\(\Sigma_{11\cdot 2} = \Sigma_{11} – \Sigma_{12} \Sigma_{22}^{-1}\Sigma_{21}\)のp次元多変量正規分布の確率密度関数ですね。

ここまでで、ステップ1「元の多変量正規分布から条件付き多変量正規分布の確率密度関数とその分散共分散行列を導出する」は完了です。

次は、ステップ2「元の多変量正規分布の分散共分散行列の逆行列を分割行列として表し、それが条件付き多変量正規分布の分散共分散行列と一致することを確認する」へと移ります。

分散共分散行列の逆行列

まずは、元の多変量正規分布の分散共分散行列の逆行列を分割行列として表していきます。

つまり、直前で導出した条件付き確率密度関数\(f(\mathbf{x}_1|\mathbf{x}_2)\)の分散共分散行列\(\Sigma_{11\cdot 2}\)が、元のn次元多変量正規分布の確率密度関数\(f(\mathbf{x})\)の共分散行列\(\Sigma\)の逆行列\(\Sigma^{-1}\)に一致することを見ていきます。

分散共分散行列の逆行列の分割

最初に、元のn次元多変量正規分布のn次分散共分散行列\(\Sigma\)を、条件付き確率密度関数を導出したときと同じ方法で4分割します。

\[ \underset{n \times n}{\Sigma} = \begin{pmatrix}
\underset{p \times p}{\Sigma_{11}} & \underset{p \times q}{\Sigma_{12}} \\
\underset{q \times p}{\Sigma_{21}} & \underset{q \times q}{\Sigma_{22}}
\end{pmatrix}\]

次に、この分散共分散行列\(\Sigma\)の逆行列を\(\Sigma^{-1}\)として、\(\Sigma^{-1}\)を、\(\Sigma\)と同じ4分割の区分けで以下のようにおきます。

\[\underset{n \times n}{\Sigma^{-1}} = \begin{pmatrix}
\underset{p \times p}{C_{11}} & \underset{p \times q}{C_{12}} \\
\underset{q \times p}{C_{21}} & \underset{q \times q}{C_{22}}
\end{pmatrix} = \begin{pmatrix}
\Sigma_{11} & \Sigma_{12} \\
\Sigma_{21} & \Sigma_{22}
\end{pmatrix}^{-1} \]

上記は、分散共分散行列の逆行列\( \Sigma^{-1} \)の各分割ブロック行列\( C_{ij} \)を、分散共分散行列\( \Sigma \)の分割ブロック行列\( \Sigma_{ij} \)を用いて表しています。

このように表せば、\( \Sigma^{-1} \)に対して、分割行列の逆行列の公式を適用できて、\( \Sigma^{-1} \)の各分割ブロック行列\( C_{ij} \)を\( \Sigma \)の各分割ブロック行列\( \Sigma_{ij} \)との関係式の形で表現できます。

これにより、多変量正規分布の条件付き確率密度関数\( f(\mathbf{x}_1|\mathbf{x}_2) \)の分散共分散行列\( \Sigma_{11 \cdot 2} \)が、元の多変量正規分布\( f(\mathbf{x}_1, \mathbf{x}_2) \)の分散共分散行列\( \Sigma \)の逆行列\( \Sigma^{-1} \)と等しいことを確認できるわけです。

分散共分散行列の’逆行列’を分散共分散行列で表す

ここまでで、準備が整いました。

以降では、分散共分散行列の逆行列\( \Sigma^{-1} \)の各分割ブロック行列\( C_{ij} \)を、分散共分散行列\( \Sigma \)の分割ブロック行列\( \Sigma_{ij} \)との関係式として表していきます。

最初に、分割行列の逆行列の公式を確認しておきます。

分割行列の逆行列の公式

\( A \)をp次正則行列、\( D \)を\( q \)次正則行列、\( B \)を\( p \times q \)行列、\( C \)を\( q \times p \)行列、\( E=(A – BD^{-1}C)^{-1} \)とおけば、

\[
\begin{pmatrix}
A & B \\
C & D
\end{pmatrix}^{-1} = \begin{pmatrix}
E & -EBD^{-1} \\
-D^{-1}CE & D^{-1} + D^{-1}CEBD^{-1}
\end{pmatrix}
\]

\( \Sigma^{-1} \)の\( (1,1) \)区画のp次正方ブロック行列\( C_{11} \)に対して、この公式の対応する部分\( E=(A – BD^{-1}C)^{-1} \)を適用します。

\[
C_{11} = (\Sigma_{11}-\Sigma_{12}\Sigma_{22}^{-1}\Sigma_{21})^{-1}
\]

この関係式が、元の多変量正規分布における分散共分散行列(右辺)とその逆行列(左辺)の関係式になっている点に注意してください。

また、この関係式の右辺からは、ステップ1で導出した条件付き分布の分散共分散行列の面影、というか実態そのものが見えていることに気づいたでしょうか?

では、この関係式に対して、両辺の逆行列をとります。

\[
(C_{11})^{-1} = \Sigma_{11}-\Sigma_{12}\Sigma_{22}^{-1}\Sigma_{21}
\]

右辺は、元のn次元多変量正規分布を\( \mathbf{x}_2 \)で条件付けたときの条件付き多変量正規分布の確率密度関数\( f(\mathbf{x}_1|\mathbf{x}_2) \)の分散共分散行列\( \Sigma_{11\cdot 2} \)ですね。

一方で、左辺は、元のn次元多変量正規分布の分散共分散行列の逆行列\( \Sigma^{-1} \)の分割ブロック行列\( C_{11} \)の逆行列です。

\( \Sigma^{-1} \)の分割行列\( C_{11} \)に対して、さらに、その逆行列をとっているので、やや混乱するかもしれません。

しかし、落ち着いて考えれば、\( (C_{11})^{-1}\) は、結局のところ、\( \Sigma^{-1} \)の一部分に他ならないことが分かるはず、、!

このように、多変量正規分布に従う確率変数の条件付き独立を判定するのに使う条件付き確率密度関数の分散共分散行列は、元の多変量正規分布の分散共分散行列\( \Sigma \)の逆行列\( \Sigma^{-1} \)に見出すことができわけです!

\( p=2 \)の分散共分散行列の逆行列と偏相関係数

ここからは、ここまでの理論展開において、\( p = 2 \)のケースで具体的に見ていきます。

\( p=2 \)の分散共分散行列の逆行列

つまり、n次元多変量正規分布\( N(\mathbf{\mu}, \Sigma) \)に従うn次元確率変数ベクトル\( \mathbf{X} \)を

\[
\mathbf{X}_1 = \begin{pmatrix}X_1 \\ X_2 \end{pmatrix} \:\:\: \mathbf{X}_2 = \begin{pmatrix}X_{3} \\ \vdots \\ X_{q}\end{pmatrix}
\]

と分割します。このとき、分散共分散行列\( \Sigma \)の逆行列\( \Sigma^{-1} \)のブロック行列\( C_{11} \)は\( 2 \times 2 \)対称行列になり、成分を\( c_{ij} \)とすれば、

\[
C_{11} = \begin{pmatrix}
c_{11} & c_{12} \\
c_{21} & c_{22}
\end{pmatrix}
\]

ですね。ここで、\( c_{ij} \)はスカラーです。

\( C_{11} \)の逆行列\( (C_{11})^{-1} \)が、\( (n-2) \)次元確率変数ベクトル\( \mathbf{X}_2 \)で条件付けたときの2次元確率変数ベクトル\( \mathbf{X}_1 = (X_1, X_2)^\top \)の条件付き確率密度関数\( f(\mathbf{x}_1|\mathbf{x}_2) \)の分散共分散行列\( \Sigma_{11 \cdot 2} \)に等しい、ということでした。

よって、\( C_{11} \)に\( 2\times 2 \)行列の逆行列の公式を適用すれば、

\[
\Sigma_{11 \cdot 2} = (C_{11})^{-1} = \frac{1}{c_{11}c_{22}-c_{12}c_{21}}\begin{pmatrix}
c_{22} & -c_{12} \\
-c_{21} & c_{11}
\end{pmatrix}
\]

です。

重要なので、何度も繰り返します。

これが、\( (n-2) \)次元確率変数ベクトル\( \mathbf{X}_2 \)で条件付けたときの2次元確率変数ベクトル\( \mathbf{X}_1 = (X_1, X_2)^\top \)の条件付き確率密度関数\( f(\mathbf{x}_1|\mathbf{x}_2) \)の分散共分散行列です。

そして、これを、元の多変量正規分布の分散共分散行列の逆行列から求めました。

また、これの非対角成分が、\( \mathbf{X}_2 \)で条件付けたときの\( X_1 \)と\( X_2 \)の共分散で、対角成分が\( \mathbf{X}_2 \)で条件付けたときの\( X_1 \)と\( X_2 \)の分散になります。

冒頭でも言ったように、多変量正規分布では、「無相関\(\Rightarrow\)独立」が成り立ちます。

共分散と相関は、似ている概念ですが、明確に異なります。ただし、無相関、つまり、相関係数が0に関しては、共分散が0と同じ意味です。

従って、共分散に相当する非対角成分\(-c_{12}/(c_{11}c_{22}-c_{12}c_{21})\)、つまり、\(c_{12}\)が\(0\)であるなら、\(\mathbf{X}_2\)で条件付けたとき\(X_1\)と\(X_2\)は無相関\(\Rightarrow\)独立です。

すなわち、\(X_1\)と\(X_2\)は残りに\(X_3, X_4, \cdots, X_q\)を与えた下で条件付き独立です。

\(X_1\)と\(X_2\)の偏相関係数

次に、\(\mathbf{X}_2\)で条件付けたときの\(X_1\)と\(X_2\)の相関係数を求めていきます。

一般に、相関係数は、2つの確率変数の共分散を、それぞれの標準偏差で割った値として定義されますね。

よって、今回のケースでは、\((C_{11})^{-1}\)の\((1,2)\)成分を\((1,1)\)成分と\((2,2)\)成分それぞれの平方根を取った積で割ることになります。つまり、

\[
\rho_{12|\mathrm{rest}} = \frac{-c_{12}}{\sqrt{c_{11}}\sqrt{c_{22}}}
\]

分母、分子で\(-c_{12}/(c_{11}c_{22}-c_{12}c_{21})\)が相殺されて消え去ることに注意しましょう。

このような条件付き確率密度関数における相関係数を偏相関係数といいます。今回のケースでは、\(\mathbf{X}_2\)で条件付けたときの\(X_1\)と\(X_2\)の偏相関係数です。

当然ながら、\(\rho_{12|\mathrm{rest}} = 0\)も、\(X_1\)と\(X_2\)がその他\(X_3, \cdots, X_q\)全ての与えた下で条件付き独立になります。

というか、これが多変量正規分布に従う2つの確率変数の条件付き独立の本来の意味とより合致しますね。

なお、\(\rho_{12|\mathrm{rest}}\)における、restの意味は、\(X_1, X_2\)を除いた残り全ての変数\(X_3, \cdots, X_q\)を指します。

さて、ここで議論の一般性に関して少し補足をしておきます。

振り返ると、ここまでは、\(X_1\)と\(X_2\)で考察を進めてきた。しかし、2次元確率変数ベクトル\(\mathbf{X}_1\)の成分となる2つの確率変数\(X_i, X_j\)を任意に選んで、残った\(n-2\)個の確率変数を\(\mathbf{X}_2\)の成分とすれば、これまでの理論展開をそのまま適用できます。

つまり、ここまでの理論展開は\(X_1, X_2\)固有ではなく、一般的であるということです。

多変量正規分布の条件付き独立の必要十分条件

長い考察の末に、「多変量正規分布の条件付き独立の必要十分条件」を以下のようにまとめることができます。

多変量正規分布の条件付き独立の必要十分条件

n組の確率変数\(X_1, \cdots, X_n\)が、n次元期待値ベクトル\(\boldsymbol{\mu}\)、n次分散共分散行列\(\Sigma\)のn次元多変量正規分布に従うとする。

このとき、\(X_i\)と\(X_j\,(1 \leq i < j \leq n)\)がその他の全ての変数を与えたとき、条件付き独立になる必要十分条件は、分散共分散行列\(\Sigma\)の逆行列\(\Sigma^{-1}\)の\((i,j)\)成分が\(0\)になることである。すなわち、偏相関係数\(\rho_{ij|rest}\)が\(0\)になることである。

偏相関係数の別の解釈

ここまでの議論で、偏相関係数\(\rho_{ij|\mathrm{rest}}\)は、\(X_3,\cdots, X_q\)を与えた下での条件付き分布における\(X_1\)と\(X_2\)の相関係数と意味付けしてきました。

一方で、偏相関係数\(\rho_{ij|\mathrm{rest}}\)は、\(\mathrm{rest} = X_3,\cdots, X_q\)の影響を除いた除いた下での\(X_1\)と\(X_2\)の相関係数とも解釈されます。

こちらの意味づけの方が偏相関係数の本来の姿をより直感的に理解できるかもしれません。

つまり、偏相関係数(\rho_{ij|\mathrm{rest}}\)とは、\(X_3,\cdots, X_q\)の影響を全て取り去った後に残る、\(X_1\)と\(X_2\)の直接・本質的な(線形)関係性の指標である、ということです。

こちらの意味に関しては、「」でより詳細に解説しているので参考にしてください。

参考書籍

本記事の執筆にあたり、大いに参考にさせて頂いた書籍は以下の2冊です。

統計学のための数学入門30講

分割行列の各種公式とこれらを活用した元の多変量正規分布から条件付き多変量正規分布の確率密度関数を導出する一連の過程は、この本を参考にしました。

グラフィカルモデリング

条件付き多変量正規分布の分散共分散行列が元の多変量正規分布の分散共分散行列の逆行列に一致することを中心とする多変量正規分布の条件付き独立の理論展開は、この本を参考にしました。

この本は、本記事で紹介した基礎基礎理論をもとにした共分散選択に関する理論も詳しく解説しています。

複数の確率変数の絡み合いに関する解析理論を知りたい方にはおすすめ書籍です。