カルバック・ライブラー情報量と平行四辺形
機械学習の分野でよく用いられるクロスエントロピーや、カルバック・ライブラー情報量に関する関係を導き出したので、要約を書いておきます。
今回見つけたことは、ざっくり言うと、
4つの確率分布が、「平行四辺形」の各頂点にあるとき、確率分布間の「距離」に対し、平行四辺形の法則(中線定理)が成り立つ
というものです。「」をつけて書いたのは、通常の意味の平行四辺形や、距離とは異なるからです。
なるべく式を使わずに内容を書いていきます。
詳細は6/21の記事(清書版)、6/22の記事をご覧ください。
確率分布
を考えます。ここで、のiはベキ乗の意味ではなく、変数の添え字です。上についていることには意味がありますが、ここでは無視してください。
このような形の確率分布は、指数型分布族と呼ばれ、正規分布、指数分布、ポアソン分布など
多くの分布が該当します。
次にカルバック・ライブラー情報量を考えます。
これは、確率分布同士がどれくらい似ているかを表す量で、距離のようなものです。
これをと書きます。
クロスエントロピーとの関係は、クロスエントロピーを, エントロピーをと書くと、
です。
この量は、p,qに対して対称ではないので、pとqをひっくり返したものを足して、あらたに
という量を考えます。
次に、確率分布を4つ考え、p, q, r, s
とします。これらの確率分布は、すべて(1)式の形で書けるとし、パラメータとの部分だけが異なるとします(つまりの部分は同じ)。
いよいよ今回見つけた関係式の説明に入ります。
上の確率分布の間に
または、
の関係式がすべてのiに対して成り立つとします。のは省略して記載しました。
は確率分布pにおける期待値の意味です。この関係式は、p, q, r, sが普通のベクトルの場合、p, q, r, sが平行四辺形の頂点であることを意味します。
もし、確率分布間に上のいずれかの関係が成り立つと、
(2)で定義したに対して
が成り立ちます。
(3)、を距離の2乗とみなしたとき、平行四辺形p, q, r, sの辺の2乗の和が対角線の2乗の和と等しいことを意味しています。
これは、幾何で習う平行四辺形の法則(中線定理)の関係式そのものです。
確率分布でも同じ関係が成り立つのは、なんだか不思議です。