趣味の研究

趣味の数学を公開しています。初めての方はaboutをご覧ください。

情報幾何学におけるダイバージェンス

この記事は、6/21に書いた記事を清書したものです。

 

◇概要

情報幾何学は、確率分布を統計多様体上の点とみなし、統計多様体の幾何的な性質を解析する学問である。統計多様体が双対平坦な場合には、確率分布間の「距離の2乗」に該当する正準ダイバージェンスを導入することができる。3つの確率分布および、正準ダイバージェンスに対し、余弦定理に対応する三角関係式が成り立つことが知られている。特殊な場合において、三角関係式は拡張ピタゴラスの定理に帰着し、射影に関して基礎的な定理となる。

本記事では、三角関係式を用いて、主に二つの性質を示す。

まず、正準ダイバージェンスから新しいダイバージェンス(幾何ダイバージェンス(仮称)を導入し、正準ダイバージェンス、幾何ダイバージェンスともに、2つのアファイン座標の測地線上で、単調性を有することを示す。

次に、確率分布同士の「ベクトル和」演算を導入し、4つの確率分布が「平行四辺形」の頂点上にあるとき、幾何ダイバージェンスに対して、平行四辺形の法則(中線定理)が成り立つことを示す。

◇基本的な定義[1]

\thetaを統計多様体におけるアファイン座標、\etaをその双対座標(期待値座標)とする。

統計多様体の二点p, qを考え、q\theta座標を\theta(p), q\eta座標を\eta(q)とする。

このとき、二点間の正準ダイバージェンス

D(p||q)\equiv \psi(\theta(p) )+\phi(\eta(q) )-\theta(p)^i\eta_i(q)

で定義する。

上付き添え字、下付き添え字がペアで現れたときは、\sumの記号を省略するものとする。(Einsteinの縮約規則)

\phi(\theta), \psi(\eta)はポテンシャルであり、互いにLegendre変換の関係にある。即ち、

\phi(\eta)=\theta^i\eta_i-\psi(\theta)

以下では、\psi(\theta(p) )\psi(p), \phi(\eta(p) )\phi(p)のように略記する。

\theta,\eta,\psi,\phiは次の関係式を満たす。

\theta^i=\partial^i\phi\eta_i=\partial_i\psig_{ij}=\partial_i\eta_jg^{ij}=\partial^i\theta^j

ここで、g_{ij}はFisher情報量から導出されるRiemann計量とする。

指数型分布族の場合、おおむね\psiは負の自由エネルギーを表し、\phiは負のエントロピーを表す。

詳細は参考文献[1]を参照のこと。

 

 ◇幾何ダイバージェンスの定義

D_{G}(p,q)\equiv D(p||q)+D(q||p)と定義し、D_G(p,q)を幾何ダイバージェンスと呼ぶことにする。

幾何ダイバージェンスは、Euclid空間のL2ノルムと類似した性質を示す(後述)。

定義から、幾何ダイバージェンスは点p,qに対し対称である。

また、指数型分布族に対しては、幾何ダイバージェンスは、Kullbalk-Leiblerダイバージェンスの対称和にほぼ一致する。

D_G(p,q)=d_{KL}(p||q)+d_{KL}(q||p)

 

命題1. 

幾何ダイバージェンスは、アファイン座標を用いてD_G(p,q)=(\eta_i(q)-\eta_i(p) )(\theta^i(q)-\theta^i(p) )と表される。

また、D_G(p,q)\geq 0であり、D_G(p,q)=0となるのは、p=qのみである。

 

証明 

正準ダイバージェンスの三角関係式D(p||q)+D(q||r)-D(p||r)=(\eta_i(r)-\eta_i(q) )(\theta^i(p)-\theta^i(q) )

において、p=rと置くことで、D_G(p,q)=(\eta_i(q)-\eta_i(p) )(\theta^i(q)-\theta^i(p) )を得る。

後半は、正準ダイバージェンスD(p||q)\geq 0(等号成立はp=qのみ)から従う。

 

Riemann空間における微小距離の2乗はd\eta_id\theta^iと書けることから、幾何ダイバージェンスも距離の2乗のような振る舞いをすると予想される。

 

◇測地線における単調性

正準ダイバージェンス、幾何ダイバージェンスとも測地線の方向ベクトルに対し、単調増加関数となる。これは、距離において望まれる性質である。

 

定理 1.

正準ダイバージェンスD(p||q)は、pを固定し、qを\etaもしくは、\theta-測地線に沿って動かした場合、測地線の方向ベクトルに対し、単調増加関数となる。

qを固定してpを動かした場合も同様である。

 

証明

\begin{align}\partial_{q,i}D(p||q)=g_{ij}(q)(\theta^j(q)-\theta^j(p) )\tag{1}\end{align}  

\begin{align}\partial_q^iD(p||q)=\theta^i(q)-\theta^i(p)\tag{2} \end{align}

を用いる。

\theta-測地線の場合、\theta^i(q)=\theta^i(p)+a^itと書けるので、

(1)を用いると、

\begin{align}\frac{dD(p||q)}{dt}=a^j\partial_{q,j}D(p||q)=ta^jg_{ij}(q)a^i\tag{3}\end{align} 

右辺は、計量の正定値性より、tの符号と一致する。よって、単調性が示せた。

\eta-測地線は、\eta_i(q)=\eta_i(p)+a_itと書ける。(2)より、

\begin{align}\frac{dD(p||q)}{dt}=a_i\partial_q^iD(p||q)=a_i(\theta^i(q)-\theta^i(p) )=\frac{1}{t}(\eta_i(q)-\eta_i(p)(\theta^i(q)-\theta^i(p) )=\frac{1}{t}D_G(p,q)\end{align}

\begin{align}\tag{4}\end{align}となる。

命題1より、D_G\geq 0であるから、右辺はtの符号と一致し、単調性が示せた。

 
pに関して
\begin{align}\partial_p^iD(p||q)=g^{ij}(p)(\eta_j(q)-\eta_j(p) )\tag{5}\end{align}  
\begin{align}\partial_{p,i}=\theta^i(q)-\theta^i(p)\tag{6}\end{align}      
となることから、同様に証明できる。
 
式(3)を\frac{dD(p||q)}{dt}=\frac{1}{t}\{g_{ij}(a^it)(a^jt)\}
と書き直すと、g_{ij}(a^it)(a^jt)はRiemann空間における距離の2乗のようなものなので、式(4)と対を成す。
 
系1.
幾何ダイバージェンスD_G(p,q)は、\theta, \eta-測地線に沿ってp,qを動かしたとき単調性を示す。
定理1より、即座に導かれる。
 

内積、ベクトル和の定義

内積を以下の式で定義する。
\langle q,r\rangle_p\equiv\frac{1}{2}(\eta_i(q)-\eta_i(p) )(\theta^i(r)-\theta^i(p) )+\{q\leftrightarrow r\}
\leftrightarrowは記号の入れ替えを意味する。
特に、q=rであれば、\langle q,q\rangle_p=D_G(p,q)である。
 
点q,rのベクトル和を以下の式で定義する。
s=(q+r)_\thetaと書いたとき、すべてのiに対し、\theta^i(s)=\theta^i(q)+\theta^i(r)を満たす点であるとする。
同様に、s=(q+r)_\etaと書いたとき、\eta_i(s)=\eta_i(q)+\eta_i(r)を満たす点であるとする。
このように導入された内積は、内積の線形の定義を満たさないことに注意。
系2. (余弦定理の拡張)
幾何ダイバージェンスは、Euclid空間のL2ノルムと同様、
\begin{align}D_G(p,q)+D_G(p,r)-2\langle q,r\rangle_p=D_G(q,r)\tag{7}\end{align}      
を満たす。
 
証明
正準ダイバージェンスの三角関係式そのものである。
 
定理 2.(ベクトル和の公式)
点p,q,r,sが(s+p)_\theta=(q+r)_\thetaもしくは、(s+p)_\eta=(q+r)_\etaを満たすとき、
\begin{align}D_G(q,s)+D_G(r,s)+2\langle q,r\rangle_p=D_G(p,s)\tag{8}\end{align}が成り立つ。  
 また、対称性から、pとsを入れ替えた式も成り立つ。
 
証明
(s+p)_\theta=(q+r)_\thetaの場合について証明する。
 
D_G(p,s)=(\theta^i(s)-\theta^i(p) )(\eta_i(s)-\eta_i(p) )=(\theta^i(r)-\theta^i(p) )(\eta_i(s)-\eta_i(p) ) + (\theta^i(q)-\theta^i(p) )(\eta_i(s)-\eta_i(p) )
D_G(q,s)=(\theta^i(s)-\theta^i(q) )(\eta_i(s)-\eta_i(q) )=(\theta^i(r)-\theta^i(p) )(\eta_i(s)-\eta_i(q) )
D_G(r,s)=(\theta^i(s)-\theta^i(r) )(\eta_i(s)-\eta_i(r) )=(\theta^i(q)-\theta^i(p) )(\eta_i(s)-\eta_i(r) )
 
を代入することにより、示すことができる。
この定理はp,q,r,sが平行四辺形の頂点である場合に対応する。
 
系3.(平行四辺形の定理の拡張)
点p,q,r,sが
(p+s)_\theta=(q+r)_\thetaもしくは、(p+s)_\eta=(q+r)_\etaを満たすとき、
\begin{align}D_G(p,q)+D_G(q,s)+D_G(s,r)+D_G(r,p)=D_G(q,r)+D_G(p,s)\tag{9}\end{align}が成り立つ。
 
これは、Euclid空間において、四角形p,q,r,sが平行四辺形の時に成り立つ平行四辺形の定理の拡張である。
 
証明
(8)に(7)を代入すればよい。
 
特に、p=sとおくと、
\theta(p)=\frac{1}{2}(\theta(q)+\theta(r) )もしくは、\eta(p)=\frac{1}{2}(\eta(q)+\eta(r) )を満たす点p,q,rに対し
D_G(q,p)+D_G(p,r)=\frac{1}{2}D_G(q,r)が成り立つ。
 

References

[1]甘利 俊一, "情報幾何とその応用"