Entropy inequalities
Definition.
Let be Renyi entropy,
for probability density function
is Shannon entropy.
and .
and
.
We derive some properties by assuming
.
where is covariant matrix and is constant.
Theorem 1 ( joint entropy inequatliy)
Let be probability variables in and .
Let and be eigen values of .
If for all ,
This inequaity is the extension of the inequality in discrete case
.
Theorem 2 (d-dimentinal reverse EPI)
Let be uncorrelated probability variables in .
Let for all k, and let
be eigen values of .
If d = 1,
for .
If for all and ,
for .
These are the reverse EPI.
Theorem 3. (Renyi EPI for order p < 1)
Let be independent probability variables in .
Let for all k.
where, is covariant matrix.
Then,
for <,
This inequality is the extension of Renyi EPI for p<1.
where
Proposition 1.
This inequality holds either discrete case or continuous case.
We easily show these results by using .
Proposition 2.(entropy upper bound)
For discrete or continuous d-dimentional probability variable ,
.
Lemma 1.
For continuous probability variable,
if .
Proof of Theorem 1.
Using Proposition2 and Lemma1,
eq(1)
By the asuumption and ,
eq(2)
By combining Proposition 1., eq(1) and eq(2),
Using Jensen's Inequality,
.
We derive
Proof of Theorem 2.
For , using Proposition2.,
Using , and uncorrelated condition ,
we derive
By assumption ,
.
By combining Proposition 1. and assumption ,
.
Proof of Theorem 3.
Lemma 2.
For <,
We can derive this inequality from Proposition 1.3. in [4].
By Proposition 1.3. in [4],
maximise Renyi entropy.
Using and the definition of beta function,
we derive
where
.
For any probability variable with covariant matrix ,
.
Lemma 3.
Let Y be for independent probability variable .
This Lemma is shown as Theorem 2.14. in [1].
By combining the assumption and Lemma 2.,
.
By combining Lemma 3. and Proposition 1,
.
References.
[1] A.Marsiglietti, V.Kostina2, P.Xu. "A lower bound on the differential entropy of log-concave random vectors with applications"
[2] E.Ram, I.Sason. "On Renyi Entropy Power Inequalities".
[3] A. Marsiglietti, V.Kostina."A lower bound on the differential entropy of log-concave random vectors with applications"
[4]O.Johnson , C.Vignat ."Some results concerning maximum Rényi entropy distributions"
The graph of probability bound
I show the graph of probability bound.
Theorem1
Let be a continuous random variable with expected value and variance .
Let be a probability density function.
Let be .
Then,
where
is a real root of 3-order equation.
.
Corollary 1.
Let be a discrete random variable with expected value and variance .
Let be a probability mass function.
Let be .
Then,
where
is a real root of 3-order equation.
.
.
About the proof, please see the article on April 11th.
The example of normal distribution.
The example of Poisson distribution.
"Probability" is the result of actual normal distribution, "Chebyshev" is Chebyshev inequality, and "New bound" is the result of Theorem 1. and Corollary 1.
The python code is
# -*- coding: utf-8 -*-
"""
Created on Tue Apr 10 22:09:53 2018
@author: HobbyMath
"""
import numpy as np
import matplotlib.pyplot as plt
from scipy import stats
import sympy
k_max =50
sigma=np.sqrt(3)
mu=3
Pr = np.ones(k_max , dtype=float)
chebyshev= np.ones(k_max , dtype=float)
bound= np.ones(k_max , dtype=float)
t = sympy.Symbol('t')
for i in range(1,k_max + 1):
print(i)
delta = 0.1
k = i * delta + 1
pos = k * sigma + mu
pos2 = - k* sigma + mu
pos_int = np.floor(k * sigma + mu) + 1
pos2_int = np.floor(-k * sigma + mu)
##########normal distribution######
# m = stats.norm.pdf(x=pos, loc=mu, scale=sigma)
# Pr[i] = 1 - stats.norm.cdf(x=pos, loc=mu, scale=sigma) + stats.norm.cdf(x=pos2, loc=mu, scale=sigma)
#########Poisson distribution######
m = max(stats.poisson.pmf(pos_int, mu), stats.poisson.pmf(pos2_int - 1, mu))
Pr[i] = 1 - stats.poisson.cdf(pos, mu) + stats.poisson.cdf(pos2, mu)
#########binomal distribution######
# n=10
# p=0.5
# sigma = np.sqrt(n * p * (1 - p))
# mu=n * p
# m=max(stats.binom.pmf(pos_int, n, p), stats.binom.pmf(pos2_int - 1, n, p))
# Pr[i] = 1 - stats.binom.cdf(pos, n, p) + stats.binom.cdf(pos2, n, p)
chebyshev[i] = 1 / k**2
r = np.sqrt(1 + 1 / (12 * sigma ** 2))
#r = 1
eq = 0.5 / np.pi * t**3 + k * t**2 / r + np.e * k**2 / r**2 * t - np.e / (m * r * sigma)
tmp = np.array(sympy.solve(eq), dtype=complex)
# bound[i]=np.abs(tmp[0]) * m * r * sigma
bound[i]=np.abs(tmp[0]) * m * r * sigma + stats.poisson.pmf(pos2_int , mu)
plt.title("Poisson distribution(mu=1, sigma=1")
plt.ylabel("probability")
plt.xlabel("k")
#plt.yscale('log')
prange = np.arange(1 ,k_max)
x = prange.astype(np.float64) * delta + 1.0
p1 = plt.plot(x, Pr[prange])
p2 = plt.plot(x, chebyshev[prange])
p3 = plt.plot(x, bound[prange])
plt.legend((p1[0], p2[0], p3[0]), ("Probability", "Chebyshev", "New bound"), loc=5)
まとめ:Renyiエントロピーとモーメント
今回、考察の動機になったのは、Renyiエントロピーの指数関数とq次のモーメントのq乗根がスケール変換 に対して、全て同じ変換を受けるということでした。
そこで予想したのが
ある定数cが存在し、
が成り立つのではないか?ということです。
左側の不等式は、一般的な連続確率変数に対して成り立ちそうにみえます。右側の不等式は一般には成り立ちません。
Renyiエントロピーでは、確率密度関数の上界と結びついています。
p=1の場合は、Shannonのエントロピーになります。
特に、確率密度関数がlog-凹関数と仮定すれば、両側の不等式が成り立つことを示しました。
p=1, q=1,2の場合の左側の不等式を用いて、チェビシェフ不等式をより厳しくした上限を導き、q=2の場合の両側の不等式を用いて、Renyiエントロピーのentropy power inequalityを導きました。
The motivation.
The motivation of research is the transformation of and are the same for scale transformation.
where, is Renyi entropy.
I think and derive Renyi EPI and extended Chebyshev inequality.
チェビシェフ不等式の拡張(続き)
正規分布に対して、以前の記事で導いた不等式と、今回導いたlog凹関数版の不等式を比較してみます。
"1-CDF"が実際の正規分布の値、"New bound1"がr=3で計算した値、"New bound2(log-concavity)"がlog凹関数版の不等式でr=1で計算した値です。
log凹関数版の不等式は、kが大きいところでは、rの値を0に近づけた方が近似精度が高くなります。
一方で、kが小さいところでの精度は悪化します。
計算に用いたpythonのコードです。
# -*- coding: utf-8 -*-
"""
Created on Fri Mar 30 22:52:40 2018
@author: HobbyMath
"""
import numpy as np
import matplotlib.pyplot as plt
from scipy import stats
k_max =50
sigma=1
mu=1
cdf = np.ones(k_max , dtype=float)
chebyshev= np.ones(k_max , dtype=float)
bound= np.ones(k_max , dtype=float)
bound2= np.ones(k_max , dtype=float)
bound3= np.ones(k_max , dtype=float)
for i in range(1,k_max + 1):
print(i)
delta = 0.1
k = i * delta + 1
##########normal distribution######
pos = k * sigma + mu
m = stats.norm.pdf(x=pos, loc=mu, scale=sigma)
cdf[i] = stats.norm.cdf(x=pos, loc=mu, scale=sigma)
chebyshev[i] = 1 / k**2
r = 3
bound[i]=(2 * m*sigma * k**3/ (2*r-1) ) **(1/(r+1)) / k**2
# r = 0.5
# bound2[i]=(2*m*sigma * k**3/ (k**2 * 0.5 + 2*r-1) ) **(1/(r+1)) / k**2
#
r = 1
bound2[i]=(2*m*sigma * k**3/ (k**2 * 0.5 + 2*r-1) ) **(1/(r+1)) / k**2
#bound[i]=(m*sigma * k**3/ (k + 2*r-1) ) **(1/(r+1)) / k**2
plt.title("normal distribution(mu=1, sigma=1)")
plt.ylabel("probability")
plt.xlabel("k")
#plt.yscale('log')
prange = np.arange(1 ,k_max)
x = prange.astype(np.float64) * delta + 1.0
p1 = plt.plot(x, 2 * (1-cdf[prange]))
#p2 = plt.plot(x, chebyshev[prange])
p2 = plt.plot(x, bound[prange])
p3 = plt.plot(x, bound2[prange])
#p4 = plt.plot(x, bound3[prange])
plt.legend((p1[0], p2[0], p3[0]), ("1-CDF", "New bound1(r=3)", "New bound2(log-concavtiy r=1)"), loc=5)
チェビシェフ不等式の拡張(続き)
定理
を平均値 、分散 の確率変数とする。
を確率密度関数かつ対数凹関数であるとする。
かすべてのに対し成り立ち、
の極限で
に収束するものとする。
m(K)をで定義する。
このとき、すべての で
か成り立つ。
また、においては、
が成り立つに対して、同様の不等式が成り立つ。
特に , , の場合はそれぞれ
.
.
となる。
証明
仮定より、 に対し、対数凹関数の不等式
が成り立つ。
両辺から を引き、で除算しての極限をとると、
となる。
とおくと、
eq(1)
この不等式から、 かつ、なるxに対し、 が成り立つ。
即ち、はで単調減少する。
同様に、はで単調増加する。
よって、 が成り立つ。
をeq(1)に乗算し、区間で積分して、左辺を部分積分すると、
また、右辺に対しては、
を得る。
これらを合わせて、
eq(2)
ここで、
と置いた。
Prの定義から、 かつ、
はで凸関数であり、
が成り立つ。
eq(2)の右辺の項に対して、Jensenの不等式を適用すると、
.
を得る。ここで、
であり、
が成り立つ。
まとめると、eq(2)は
となり、が成り立つならば、不等式を変形して、
.
となって求める式を得る。
The extension of Chebyshev inequality 2
Theorem
Let be a log-concave random variable with expected value and variable .
Let be a probability distribution function and hold for all .
Let as .
Let be .
Then, for any ,
.
For , if k satisfies the condition , the same inequality holds.
The simple examples are , , .
We have
.
.
.
Proof of Theorem
By assumption of log-concavity, the inequality follows on .
We subtract , devide by for this inequality and the limit , we have
.
We put , then we have
eq(1)
By this inequality, holds for x which satisfies and . So monotonically decreases on .
In the same way, we find monotonically increases on .
Then, we have .
We multiply and integrate eq(1) on , and apply integration by parts for LHS,
For RHS, we have
From these results, we have
eq(2)
Here, we put .
By definition of Pr, , and
is convex function for , and .
We can apply Jesen's inequality for the RHS term of eq(2).
.
We define as .
satisfies
Then we have
If the condition holds, deforming this inequality, we have
.