趣味の研究

趣味の数学を公開しています。初めての方はaboutをご覧ください。

カルバック・ライブラー情報量と平行四辺形

機械学習の分野でよく用いられるクロスエントロピーや、カルバック・ライブラー情報量に関する関係を導き出したので、要約を書いておきます。

今回見つけたことは、ざっくり言うと、

4つの確率分布が、「平行四辺形」の各頂点にあるとき、確率分布間の「距離」に対し、平行四辺形の法則(中線定理)が成り立つ

というものです。「」をつけて書いたのは、通常の意味の平行四辺形や、距離とは異なるからです。

なるべく式を使わずに内容を書いていきます。

詳細は6/21の記事(清書版)、6/22の記事をご覧ください。

 

確率分布 

\begin{align}p(x)=\exp(\sum_i \theta^iF_i(x)-\psi(\theta) )\tag{1}\end{align}

を考えます。ここで、\theta^iのiはベキ乗の意味ではなく、変数の添え字です。上についていることには意味がありますが、ここでは無視してください。

このような形の確率分布は、指数型分布族と呼ばれ、正規分布、指数分布、ポアソン分布など

多くの分布が該当します。

 

次にカルバック・ライブラー情報量を考えます。

これは、確率分布同士がどれくらい似ているかを表す量で、距離のようなものです。

これをd_{KL}(p||q)と書きます。

クロスエントロピーとの関係は、クロスエントロピーH(p,q), エントロピーH(p)と書くと、

 

d_{KL}(p||q)=H(p,q)-H(p)です。

この量は、p,qに対して対称ではないので、pとqをひっくり返したものを足して、あらたに

\begin{align}D_G(p,q)\equiv d_{KL}(p,q)+d_{KL}(q,p)\tag{2}\end{align}

という量を考えます。

 

次に、確率分布を4つ考え、p, q, r, s

とします。これらの確率分布は、すべて(1)式の形で書けるとし、パラメータ\theta\psi(\theta)の部分だけが異なるとします(つまりF_i(x)の部分は同じ)。

 

いよいよ今回見つけた関係式の説明に入ります。

上の確率分布の間に

\theta^i(p)+\theta^i(s)=\theta^i(q)+\theta^i(r)

または、

E[F_i]_p+E[F_i]_s=E[F_i]_q+E[F_i]_rの関係式がすべてのiに対して成り立つとします。F_i(x)xは省略して記載しました。

 

E[ ]_pは確率分布pにおける期待値の意味です。この関係式は、p, q, r, sが普通のベクトルの場合、p, q, r, sが平行四辺形の頂点であることを意味します。

 

もし、確率分布間に上のいずれかの関係が成り立つと、

(2)で定義したD_Gに対して

\begin{align}D_G(p,q)+D_G(q,s)+D_G(s,r)+D_G(r,p)=D_G(p,s)+D_G(q,r)\tag{3}\end{align}

が成り立ちます。

(3)、D_G(p,q)を距離の2乗とみなしたとき、平行四辺形p, q, r, sの辺の2乗の和が対角線の2乗の和と等しいことを意味しています。

これは、幾何で習う平行四辺形の法則(中線定理)の関係式そのものです。

確率分布でも同じ関係が成り立つのは、なんだか不思議です。