チェビシェフ不等式で遊ぶ
arXivに投稿したプレプリントの内容を確認するためのpythonサンプルコードです。
まずは、結果のグラフから。
このグラフは、平均値からの距離が以上の領域における確率密度関数の最大値が既知の場合、その領域全体の確率の上限を算出した結果です。
(この結果を1から引けば、]に含まれる確率の下限が求まります)
"Probability"は正規分布の場合に計算した例、"Chebyshev"がチェビシェフ不等式に基づいて算出した確率の上限、"New bound"が今回のプレプリントの内容をもとに算出した確率の上限です。
ここからpythonのサンプルコードです。
# -*- coding: utf-8 -*-
"""
Created on Thu Aug 30 10:04:20 2018
@author: Nishiyama
"""
import numpy as np
import matplotlib.pyplot as plt
from scipy import stats
import sympy
k_max =50
delta = 0.1
sigma = 1 #standard deviation
mu= 1 #mean
Probability = np.zeros(k_max , dtype=float)
Chebyshev = np.zeros(k_max , dtype=float)
bound= np.zeros(k_max , dtype=float)
epsilon = np.zeros(k_max , dtype=float)
########Calculate probability bound##########
def calc_probability(mu, sigma, epsilon, sup):
#sup : #supremum of PDF
t = sympy.Symbol('t')
m_e = sigma * sup
eq = 0.5 / (np.pi * np.e) * t**3 + epsilon / np.e * t**2 + epsilon**2 * t - 1/ m_e
tmp = np.array(sympy.solve(eq), dtype=complex)
return np.abs(tmp[0]) * m_e
#######Example of normal distribution#######
for i in range(0,k_max):
print(i)
epsilon[i] = i * delta + 1
pos_R = epsilon[i] * sigma + mu
pos_L = -epsilon[i]* sigma + mu
#calculate supremum of PDF
sup= max(stats.norm.pdf(x=pos_L, loc=mu, scale=sigma), stats.norm.pdf(x=pos_R, loc=mu, scale=sigma))
tmp_probability = stats.norm.cdf(x=pos_R, loc=mu, scale=sigma) - stats.norm.cdf(x=pos_L, loc=mu, scale=sigma)
Probability[i] = 1 - tmp_probability
bound[i]= calc_probability(mu, sigma, epsilon[i], sup)
Chebyshev = 1 / epsilon**2
plt.show()
plt.ylabel("probability")
plt.xlabel("epsilon")
prange = np.arange(0 ,k_max)
p1 = plt.plot(epsilon[prange], Probability[prange])
p2 = plt.plot(epsilon[prange], Chebyshev[prange])
p3 = plt.plot(epsilon[prange], bound[prange])
plt.legend((p1[0], p2[0], p3[0]), ("Probability", "Chebyshev", "New bound"), loc=5)
プレプリントのリンク(月曜日にグラフを微修正したバージョンをアップロード予定です)
[1808.10770] Improved Chebyshev inequality: new probability bounds with known supremum of PDF
チェビシェフ不等式に関する結果のまとめ
内容のまとめ
これまで書いた内容を順番にまとめておきます。
内容の整理は、ぼちぼちと進めます。
1. 確率微分方程式(ブラウン運動モデル)を用いたコラッツ問題の解析
深堀したいのですが、コラッツ問題にこのモデルを適用する正当性がうまく
説明できずにいます。
2.素数定理と情報エントロピー
お遊び的な内容です。
3.Renyiエントロピー不等式の関数不等式への活用
4.(Renyi)エントロピーのentropy power inequalityに関する考察
5.Chebyshev不等式の拡張
地味な内容ですが、こちらもそのうち深堀したいです。
6. wavelet変換と混合確率分布の関係に関する考察
あまり厳密ではありません。
7. ダイバージェンスに関する考察(arXivに投稿しました)
[1808.06482] Divergence functions in dually flat spaces and their properties
[1808.06148] Generalized Bregman and Jensen divergences which include some f-divergences
カルバック・ライブラー情報量と平行四辺形
機械学習の分野でよく用いられるクロスエントロピーや、カルバック・ライブラー情報量に関する関係を導き出したので、要約を書いておきます。
今回見つけたことは、ざっくり言うと、
4つの確率分布が、「平行四辺形」の各頂点にあるとき、確率分布間の「距離」に対し、平行四辺形の法則(中線定理)が成り立つ
というものです。「」をつけて書いたのは、通常の意味の平行四辺形や、距離とは異なるからです。
なるべく式を使わずに内容を書いていきます。
詳細は6/21の記事(清書版)、6/22の記事をご覧ください。
確率分布
を考えます。ここで、のiはベキ乗の意味ではなく、変数の添え字です。上についていることには意味がありますが、ここでは無視してください。
このような形の確率分布は、指数型分布族と呼ばれ、正規分布、指数分布、ポアソン分布など
多くの分布が該当します。
次にカルバック・ライブラー情報量を考えます。
これは、確率分布同士がどれくらい似ているかを表す量で、距離のようなものです。
これをと書きます。
クロスエントロピーとの関係は、クロスエントロピーを, エントロピーをと書くと、
です。
この量は、p,qに対して対称ではないので、pとqをひっくり返したものを足して、あらたに
という量を考えます。
次に、確率分布を4つ考え、p, q, r, s
とします。これらの確率分布は、すべて(1)式の形で書けるとし、パラメータとの部分だけが異なるとします(つまりの部分は同じ)。
いよいよ今回見つけた関係式の説明に入ります。
上の確率分布の間に
または、
の関係式がすべてのiに対して成り立つとします。のは省略して記載しました。
は確率分布pにおける期待値の意味です。この関係式は、p, q, r, sが普通のベクトルの場合、p, q, r, sが平行四辺形の頂点であることを意味します。
もし、確率分布間に上のいずれかの関係が成り立つと、
(2)で定義したに対して
が成り立ちます。
(3)、を距離の2乗とみなしたとき、平行四辺形p, q, r, sの辺の2乗の和が対角線の2乗の和と等しいことを意味しています。
これは、幾何で習う平行四辺形の法則(中線定理)の関係式そのものです。
確率分布でも同じ関係が成り立つのは、なんだか不思議です。
情報幾何学におけるダイバージェンス
この記事は、6/21に書いた記事を清書したものです。
◇概要
情報幾何学は、確率分布を統計多様体上の点とみなし、統計多様体の幾何的な性質を解析する学問である。統計多様体が双対平坦な場合には、確率分布間の「距離の2乗」に該当する正準ダイバージェンスを導入することができる。3つの確率分布および、正準ダイバージェンスに対し、余弦定理に対応する三角関係式が成り立つことが知られている。特殊な場合において、三角関係式は拡張ピタゴラスの定理に帰着し、射影に関して基礎的な定理となる。
本記事では、三角関係式を用いて、主に二つの性質を示す。
まず、正準ダイバージェンスから新しいダイバージェンス(幾何ダイバージェンス(仮称)を導入し、正準ダイバージェンス、幾何ダイバージェンスともに、2つのアファイン座標の測地線上で、単調性を有することを示す。
次に、確率分布同士の「ベクトル和」演算を導入し、4つの確率分布が「平行四辺形」の頂点上にあるとき、幾何ダイバージェンスに対して、平行四辺形の法則(中線定理)が成り立つことを示す。
◇基本的な定義[1]
を統計多様体におけるアファイン座標、をその双対座標(期待値座標)とする。
統計多様体の二点, を考え、の座標を, の座標をとする。
このとき、二点間の正準ダイバージェンスを
で定義する。
上付き添え字、下付き添え字がペアで現れたときは、の記号を省略するものとする。(Einsteinの縮約規則)
, はポテンシャルであり、互いにLegendre変換の関係にある。即ち、
以下では、を, をのように略記する。
は次の関係式を満たす。
, , ,
ここで、はFisher情報量から導出されるRiemann計量とする。
指数型分布族の場合、おおむねは負の自由エネルギーを表し、は負のエントロピーを表す。
詳細は参考文献[1]を参照のこと。
◇幾何ダイバージェンスの定義
と定義し、を幾何ダイバージェンスと呼ぶことにする。
幾何ダイバージェンスは、Euclid空間のL2ノルムと類似した性質を示す(後述)。
定義から、幾何ダイバージェンスは点p,qに対し対称である。
また、指数型分布族に対しては、幾何ダイバージェンスは、Kullbalk-Leiblerダイバージェンスの対称和にほぼ一致する。
命題1.
幾何ダイバージェンスは、アファイン座標を用いてと表される。
また、であり、となるのは、のみである。
証明
正準ダイバージェンスの三角関係式
において、と置くことで、を得る。
後半は、正準ダイバージェンスが(等号成立はのみ)から従う。
Riemann空間における微小距離の2乗はと書けることから、幾何ダイバージェンスも距離の2乗のような振る舞いをすると予想される。
◇測地線における単調性
正準ダイバージェンス、幾何ダイバージェンスとも測地線の方向ベクトルに対し、単調増加関数となる。これは、距離において望まれる性質である。
定理 1.
正準ダイバージェンスは、pを固定し、qをもしくは、-測地線に沿って動かした場合、測地線の方向ベクトルに対し、単調増加関数となる。
qを固定してpを動かした場合も同様である。
証明
を用いる。
-測地線の場合、と書けるので、
(1)を用いると、
右辺は、計量の正定値性より、tの符号と一致する。よって、単調性が示せた。
-測地線は、と書ける。(2)より、
となる。
命題1より、であるから、右辺はtの符号と一致し、単調性が示せた。
系1.
◇内積、ベクトル和の定義
系2. (余弦定理の拡張)
定理 2.(ベクトル和の公式)
系3.(平行四辺形の定理の拡張)
References
[1]甘利 俊一, "情報幾何とその応用"
Mixture distribution(e.g. GMM) and wavelet transform
Can we represent the arbitrary function by mixture distribution?
I thought this problem by using the analogy of wavelet transform.
Definition.
Let be a probability density function in .
for distribution function
indicates .
In the following, we omitte the arguments of function in the same way.
We confirm is probability density function easily.
Proposition
Let be probability density function.
and class function such that
<
We can expand any probability density function ,
(1)
We represent the expansion coefficients as below.
(2)
We ommitte the integral range in the case the integral range is .
Where, is Fourier transform of .
We have Gaussian mixture model if is normal distribution p.d.f.
Proof.
We can prove in the same way as continuous wavelet transform.([1]Theorem4.4)
The right integral
in (1) can be rewritten as the sum of convolution.
indicates convolution, the "." indicates the variable over which the convolution is caliculated.
We define .
In the same way, we have
混合確率分布とウェーブレット変換
任意の確率密度関数は別の確率密度関数の混合確率分布で表されるのか?
という問題に対し、ウェーブレット変換の手法を用いて考えてみます。
⚪︎定義
で定義された確率密度関数に対し、
と定義する。
また、は、を、は、を表すものとする。
も確率密度関数になることは容易に確かめることができる。
以下では、細字の添え字についてもベクトルを表すものとする。
○命題?
を上で定義された二乗可積分な確率密度関数とする。さらに、は級であるとする。
このとき、を
と展開可能である。
以下では、特に断りがない限り、積分範囲はであるとする。
展開係数は例えば、
と表すことができる。
ここで、はのフーリエ変換である。
特に、として、正規分布をとれば、混合ガウス分布の展開公式になる。
証明
連続ウェーブレット変換を導く場合([1]のTheorem4.4)と同様の考え方である。
とおくと、
ここで、は畳み込みを表し、内のは畳み込みに関する変数を表す。また、である。
同様に、