情報幾何学におけるダイバージェンス

この記事は、6/21に書いた記事を清書したものです。

◇概要

情報幾何学は、確率分布を統計多様体上の点とみなし、統計多様体の幾何的な性質を解析する学問である。統計多様体が双対平坦な場合には、確率分布間の「距離の2乗」に該当する正準ダイバージェンスを導入することができる。3つの確率分布および、正準ダイバージェンスに対し、余弦定理に対応する三角関係式が成り立つことが知られている。特殊な場合において、三角関係式は拡張ピタゴラスの定理に帰着し、射影に関して基礎的な定理となる。

本記事では、三角関係式を用いて、主に二つの性質を示す。

まず、正準ダイバージェンスから新しいダイバージェンス(幾何ダイバージェンス(仮称)を導入し、正準ダイバージェンス、幾何ダイバージェンスともに、2つのアファイン座標の測地線上で、単調性を有することを示す。

次に、確率分布同士の「ベクトル和」演算を導入し、4つの確率分布が「平行四辺形」の頂点上にあるとき、幾何ダイバージェンスに対して、平行四辺形の法則(中線定理)が成り立つことを示す。

◇基本的な定義[1]

$\theta$ を統計多様体におけるアファイン座標、 $\eta$ をその双対座標（期待値座標）とする。

統計多様体の二点 $p$ , $q$ を考え、 $q$ の $\theta$ 座標を $\theta(p)$ , $q$ の $\eta$ 座標を $\eta(q)$ とする。

このとき、二点間の正準ダイバージェンスを

$D(p||q)\equiv \psi(\theta(p) )+\phi(\eta(q) )-\theta(p)^i\eta_i(q)$

で定義する。

上付き添え字、下付き添え字がペアで現れたときは、 $\sum$ の記号を省略するものとする。（Einsteinの縮約規則）

$\phi(\theta)$ , $\psi(\eta)$ はポテンシャルであり、互いにLegendre変換の関係にある。即ち、

$\phi(\eta)=\theta^i\eta_i-\psi(\theta)$

以下では、 $\psi(\theta(p) )$ を $\psi(p)$ , $\phi(\eta(p) )$ を $\phi(p)$ のように略記する。

$\theta,\eta,\psi,\phi$ は次の関係式を満たす。

$\theta^i=\partial^i\phi$ , $\eta_i=\partial_i\psi$ , $g_{ij}=\partial_i\eta_j$ , $g^{ij}=\partial^i\theta^j$

ここで、 $g_{ij}$ はFisher情報量から導出されるRiemann計量とする。

指数型分布族の場合、おおむね $\psi$ は負の自由エネルギーを表し、 $\phi$ は負のエントロピーを表す。

詳細は参考文献[1]を参照のこと。

◇幾何ダイバージェンスの定義

$D_{G}(p,q)\equiv D(p||q)+D(q||p)$ と定義し、 $D_G(p,q)$ を幾何ダイバージェンスと呼ぶことにする。

幾何ダイバージェンスは、Euclid空間のL2ノルムと類似した性質を示す（後述）。

定義から、幾何ダイバージェンスは点p,qに対し対称である。

また、指数型分布族に対しては、幾何ダイバージェンスは、Kullbalk-Leiblerダイバージェンスの対称和にほぼ一致する。

$D_G(p,q)=d_{KL}(p||q)+d_{KL}(q||p)$

命題1.

幾何ダイバージェンスは、アファイン座標を用いて $D_G(p,q)=(\eta_i(q)-\eta_i(p) )(\theta^i(q)-\theta^i(p) )$ と表される。

また、 $D_G(p,q)\geq 0$ であり、 $D_G(p,q)=0$ となるのは、 $p=q$ のみである。

証明

正準ダイバージェンスの三角関係式 $D(p||q)+D(q||r)-D(p||r)=(\eta_i(r)-\eta_i(q) )(\theta^i(p)-\theta^i(q) )$

において、 $p=r$ と置くことで、 $D_G(p,q)=(\eta_i(q)-\eta_i(p) )(\theta^i(q)-\theta^i(p) )$ を得る。

後半は、正準ダイバージェンスが $D(p||q)\geq 0$ (等号成立は $p=q$ のみ)から従う。

Riemann空間における微小距離の2乗は $d\eta_id\theta^i$ と書けることから、幾何ダイバージェンスも距離の2乗のような振る舞いをすると予想される。

◇測地線における単調性

正準ダイバージェンス、幾何ダイバージェンスとも測地線の方向ベクトルに対し、単調増加関数となる。これは、距離において望まれる性質である。

定理 1.

正準ダイバージェンス $D(p||q)$ は、pを固定し、qを $\eta$ もしくは、 $\theta$ -測地線に沿って動かした場合、測地線の方向ベクトルに対し、単調増加関数となる。

qを固定してpを動かした場合も同様である。

証明

$\begin{align}\partial_{q,i}D(p||q)=g_{ij}(q)(\theta^j(q)-\theta^j(p) )\tag{1}\end{align}$

$\begin{align}\partial_q^iD(p||q)=\theta^i(q)-\theta^i(p)\tag{2} \end{align}$

を用いる。

$\theta$ -測地線の場合、 $\theta^i(q)=\theta^i(p)+a^it$ と書けるので、

(1)を用いると、

$\begin{align}\frac{dD(p||q)}{dt}=a^j\partial_{q,j}D(p||q)=ta^jg_{ij}(q)a^i\tag{3}\end{align}$

右辺は、計量の正定値性より、tの符号と一致する。よって、単調性が示せた。

$\eta$ -測地線は、 $\eta_i(q)=\eta_i(p)+a_it$ と書ける。(2)より、

$\begin{align}\frac{dD(p||q)}{dt}=a_i\partial_q^iD(p||q)=a_i(\theta^i(q)-\theta^i(p) )=\frac{1}{t}(\eta_i(q)-\eta_i(p)(\theta^i(q)-\theta^i(p) )=\frac{1}{t}D_G(p,q)\end{align}$

$\begin{align}\tag{4}\end{align}$ となる。

命題1より、 $D_G\geq 0$ であるから、右辺はtの符号と一致し、単調性が示せた。

pに関して

$\begin{align}\partial_p^iD(p||q)=g^{ij}(p)(\eta_j(q)-\eta_j(p) )\tag{5}\end{align}$

$\begin{align}\partial_{p,i}=\theta^i(q)-\theta^i(p)\tag{6}\end{align}$

となることから、同様に証明できる。

式(3)を $\frac{dD(p||q)}{dt}=\frac{1}{t}\{g_{ij}(a^it)(a^jt)\}$

と書き直すと、 $g_{ij}(a^it)(a^jt)$ はRiemann空間における距離の2乗のようなものなので、式(4)と対を成す。

系1.

幾何ダイバージェンス $D_G(p,q)$ は、 $\theta$ , $\eta$ -測地線に沿ってp,qを動かしたとき単調性を示す。

定理1より、即座に導かれる。

◇内積、ベクトル和の定義

内積を以下の式で定義する。

$\langle q,r\rangle_p\equiv\frac{1}{2}(\eta_i(q)-\eta_i(p) )(\theta^i(r)-\theta^i(p) )+\{q\leftrightarrow r\}$

$\leftrightarrow$ は記号の入れ替えを意味する。

特に、 $q=r$ であれば、 $\langle q,q\rangle_p=D_G(p,q)$ である。

点q,rのベクトル和を以下の式で定義する。

$s=(q+r)_\theta$ と書いたとき、すべてのiに対し、 $\theta^i(s)=\theta^i(q)+\theta^i(r)$ を満たす点であるとする。

同様に、 $s=(q+r)_\eta$ と書いたとき、 $\eta_i(s)=\eta_i(q)+\eta_i(r)$ を満たす点であるとする。

このように導入された内積は、内積の線形の定義を満たさないことに注意。

系2. （余弦定理の拡張）

幾何ダイバージェンスは、Euclid空間のL2ノルムと同様、

$\begin{align}D_G(p,q)+D_G(p,r)-2\langle q,r\rangle_p=D_G(q,r)\tag{7}\end{align}$

を満たす。

証明

正準ダイバージェンスの三角関係式そのものである。

定理 2.(ベクトル和の公式)

点p,q,r,sが $(s+p)_\theta=(q+r)_\theta$ もしくは、 $(s+p)_\eta=(q+r)_\eta$ を満たすとき、

$\begin{align}D_G(q,s)+D_G(r,s)+2\langle q,r\rangle_p=D_G(p,s)\tag{8}\end{align}$ が成り立つ。

また、対称性から、pとsを入れ替えた式も成り立つ。

証明

$(s+p)_\theta=(q+r)_\theta$ の場合について証明する。

$D_G(p,s)=(\theta^i(s)-\theta^i(p) )(\eta_i(s)-\eta_i(p) )=(\theta^i(r)-\theta^i(p) )(\eta_i(s)-\eta_i(p) ) + (\theta^i(q)-\theta^i(p) )(\eta_i(s)-\eta_i(p) )$