Teoria da Informaç˜ao - Departamento de Engenharia de

Propaganda
Teoria da Informação
Charles Casimiro Cavalcante
[email protected]
Grupo de Pesquisa em Telecomunicações Sem Fio – GTEL
Programa de Pós-Graduação em Engenharia de Teleinformática
Universidade Federal do Ceará – UFC
http://www.gtel.ufc.br/∼charles
c C. C. Cavalcante
Teoria da Informação
“A principal função de um sistema de comunicação é reproduzir,
exatamente ou de forma aproximada, uma informação proveniente
de outro ponto diferente.”
Claude Shannon, 1948
c C. C. Cavalcante
Teoria da Informação
Conteúdo do curso
1
Revisão de probabilidade
2
Informação e Entropia
3
Codificação de fontes
4
Codificação e capacidade de canal
5
Complexidade de Kolmogorov
6
Funções de otimização
7
Independent Component Analysis
c C. C. Cavalcante
Teoria da Informação
Parte II
Informação e Entropia
c C. C. Cavalcante
Teoria da Informação
O que é informação?
Medida da quantidade de incerteza de um processo que ocorre
com alguma probabilidade
Definição de Shannon, 1948
Ferramentas probabilı́sticas
Contexto
Fonte discreta
Alfabeto finito: A = {a0 , a1 , · · · , aK−1 }
Probabilidades: Pr(A = ak ) = pk em que
K−1
P
k=0
c C. C. Cavalcante
Teoria da Informação
pk = 1
Definição
Informação
1
I(ak ) = logα
Pr(ak )
1
= logα
pk
= − logα (pk )
Unidade da informação depende da base α, e.g.
1
2
α = 2 ⇒ informação em bits
α = e ⇒ informação em nats
c C. C. Cavalcante
Teoria da Informação
(23)
O que mede a informação?
De uma forma mais informal, informação é a surpresa da
ocorrência de um evento
Quanto mais surpresa (incerteza) mais informação e, de forma
contrária, quanto menos incerteza menos informação
c C. C. Cavalcante
Teoria da Informação
Propriedades da informação
1
I(ak ) = 0 se pk = 1
2
I(ak ) ≥ 0 para 0 ≤ pk ≤ 1
Nunca há perda de informação!
3
I(ak ) > I(ai ) para pk < pi
4
I(ak ai ) = I(ak ) + I(ai ) se ak e ai são estatisticamente
independentes
c C. C. Cavalcante
Teoria da Informação
Quantidade de informação
10
Bits
Nats
Quantidade de informação
9
8
7
6
5
4
3
2
1
0
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
Probabilidade de ocorrência
c C. C. Cavalcante
Teoria da Informação
0.9
1
Informação pontual e informação média
Pode-se desejar então calcular a quantidade média de
informação de uma fonte A
A essa média da informação denomina-se entropia
H(A) =
K−1
X
pk · I(ak )
k=0
K−1
X
=−
k=0
(24)
pk · logα (pk )
A entropia mede a quantidade de informação média por
sı́mbolo da fonte
c C. C. Cavalcante
Teoria da Informação
Propriedades da entropia
0 ≤ H(A) ≤ logα (K)
(25)
H(A) = 0 se e somente se a probabilidade de ocorrência pk
de um certo evento ak for pk = 1 e todas as demais forem
iguais à zero. Neste ponto não existe nenhuma incerteza e
conseqüentemente a entropia é mı́nima.
H(A) = logα (K) se e somente se as probabilidades de todos
os eventos ak forem iguais,
ou seja, os eventos forem
1
eqüiprováveis pk = K .
c C. C. Cavalcante
Teoria da Informação
Entropia de uma fonte binária
Seja uma fonte binária com p0 e p1 as probabilidades dos sı́mbolos
a0 e a1 . A entropia é dada por:
H(A) = −p0 logα (p0 ) − p1 logα (p1 )
= −p0 logα (p0 ) − (1 − p0 ) logα (1 − p0 )
c C. C. Cavalcante
Teoria da Informação
Entropia de uma fonte binária - gráfico H(p0) × p0
1.1
1
0.9
Entropia H(p0 )
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
Probabilidade de ocorrência (p0 )
c C. C. Cavalcante
Teoria da Informação
0.9
1
Entropia - observações
A entropia pode ainda ser representada matematicamente
como
H(A) = − {log(pA (a))} ,
(26)
E
em que pA (a) é a função de densidade de probabilidade de A.
O que a entropia fornece é a de quanto de informação há, em
média, num determinado sı́mbolo de uma fonte. Isto será de
grande interesse no projeto de codificadores de fonte.
c C. C. Cavalcante
Teoria da Informação
Entropia conjunta
Até o momento foi vista a entropia de uma única variável
aleatória
Estendendo o conceito para duas variáveis tem-se novas
definições
Entropia conjunta
H(A, B) = −
=−
XX
p(a, b) log[pA,B (a, b)]
a∈A b∈B
E {log[pA,B (a, b)]}
(27)
Fornece a quantidade de informação média na ocorrência de
duas v.a.
c C. C. Cavalcante
Teoria da Informação
Entropia condicional
Entropia condicional
X
H(A|B) =
pB (b) · H(A|B = b)
b∈B
=−
=−
=−
X
pB (b)
pA|B (a|b) log[pA|B (a|b)]
a∈A
b∈B
XX
X
(28)
pA,B (a, b) log[pA|B (a|b)]
b∈B a∈A
E log[pA|B (a|b)]
Medida da quantidade média de informação de uma v.a. dada
a ocorrência de outra
c C. C. Cavalcante
Teoria da Informação
Entropia - Relações importantes
1
Regra da cadeia
H(A, B) = H(A) + H(B|A)
(29)
A entropia de um par de variáveis é igual a entropia de uma
mais a entropia condicional.
2
Corolário da regra da cadeia
H(A, B|C) = H(A|C) + H(B|A, C),
c C. C. Cavalcante
Teoria da Informação
(30)
Entropia relativa
Entropia relativa: é a medida de “distância” entre duas
distribuições. Pode ser entendido como uma medida de
ineficiência de assumir que uma v.a. tem distribuição p(x)
quando a verdadeira distribuição é g(x).
X
p(x)
D(pkg) =
p(x) · log
g(x)
x∈X
(31)
p(x)
= p(x) log
g(x)
E
A Equação (31) é também conhecida como Divergência de
Kullback-Leibler (KLD) ou ainda entropia cruzada
c C. C. Cavalcante
Teoria da Informação
Entropia relativa
Propriedades
1
2
é sempre de valor positivo ou zero; KLD é zero para o caso
especı́fico de px (x) = gx (x).
é invariante com relação às seguintes mudanças nos
componentes do vetor x;
permutação de ordem
escalonamento de amplitude
transformação monotônica não-linear
3
4
não é uma distância no espaço euclidiano pois
D(pkg) 6= D(gkp)
é uma distância no espaço das distribuições de probabilidade
(espaço de Riemann)
c C. C. Cavalcante
Teoria da Informação
Informação mútua
Definição: para duas variáveis aleatórias A e B, a
informação mútua é a entropia relativa entre a distribuição
conjunta de A e B e o produto das distribuições marginais.
XX
pA,B (a, b)
I(A, B) =
pA,B (a, b) log
pA (a)pB (b)
a∈A b∈B
= D (pA,B (a, b)kpA (a)pB (b))
pA,B (a, b)
= A,B log
pA (a)pB (b)
E
c C. C. Cavalcante
Teoria da Informação
(32)
Informação mútua e entropia - relações importantes
1
Redução da incerteza de A devido ao conhecimento de B
I(A, B) = H(A) − H(A|B)
2
Simetria da relação 1
I(A, B) = H(B) − H(B|A)
3
(34)
Soma de entropias
I(A, B) = H(A) + H(B) − H(A, B)
4
(33)
(35)
Auto-informação mútua
I(A, A) = H(A) − H(A|A) = H(A)
c C. C. Cavalcante
Teoria da Informação
(36)
Informação mútua e entropia - relações importantes
H(A, B)
H(A|B)
I(A, B)
H(A)
c C. C. Cavalcante
H(B|A)
H(B)
Teoria da Informação
Extensão de uma fonte discreta sem memória
Utilização de blocos de dados, cada bloco com n sı́mbolos da
fonte
Cada bloco pode ser entendido como sendo produzido por
uma fonte estendida
Alfabeto An com K n blocos distintos, com K o número de
sı́mbolos na fonte original
Considerando que os sı́mbolos da fonte são estatisticamente
independentes
P (s[An ]) =
n
Y
P (si [A])
(37)
i=1
Daı́, podemos escrever então
H(An ) = n · H(A)
c C. C. Cavalcante
Teoria da Informação
(38)
Definições importantes
Informação condicional mútua de v.a. X e Y dado Z
I(X, Y |Z) = H(X|Z) − H(X|Y, Z)
p(X, Y |Z)
= p(x,y,z) log
P (X|Z)p(Y |Z)
E
(39)
Entropia relativa condicional
D (p(y|x)kq(y|x)) =
X
p(x)
x
=
EX,Y
c C. C. Cavalcante
X
p(y|x) log
y
p(y|x)
log
q(y|x)
Teoria da Informação
p(y|x)
q(y|x)
(40)
Variáveis contı́nuas
Entropia
H(A) = −
Z∞
pA (a) log (pA (a)) da
(41)
−∞
Divergência de Kullback-Leibler
D(pkq) =
Z∞
−∞
p(x) log
p(x)
q(x)
dx
(42)
Nota: Vamos estudar mais detalhes destas grandezas a seguir!
c C. C. Cavalcante
Teoria da Informação
Entropia diferencial
Embora a entropia definida por Shannon seja aplicada ao caso
discreto, podemos expandir o conceito para variáveis contı́nuas
A semelhança entre os casos discreto e contı́nuo é bastante
grande, mas algumas diferenças são importantes e o uso de
tal conceito merece cuidado
Quando as variáveis são contı́nuas a entropia recebe o nome
de entropia diferencial
c C. C. Cavalcante
Teoria da Informação
Entropia diferencial - cont.
Definição
A entropia diferencial H(X) de uma variável aleatória contı́nua X
com densidade de probabilidade pX (x) é definida por
H(X) = −
Z
S
pX (x) · log [pX (x)] dx
(43)
em que S é o conjunto suporte da v.a.
Como no caso discreto, a entropia diferencial só depende da
densidade de probabilidade, sendo por vezes escrita como
H [pX (x)] ao invés de H(X)
Lembrete: como em qualquer problema envolvendo integral
ou densidade de probabilidade, nós precisamos garantir que
elas existem.
c C. C. Cavalcante
Teoria da Informação
Entropia diferencial - cont.
Exemplo - Distribuição uniforme
Seja uma v.a. distribuı́da uniformemente entre 0 e a, então sua
densidade é 1/a entre 0 a a e 0 caso contrário. Então sua entropia
diferencial é
H(X) = −
Za
0
1
1
· log
dx = log(a)
a
a
(44)
Note que, para a < 1, temos log(a) < 0 e a entropia diferencial é
negativa. Daı́ ao contrário da entropia discreta, a entropia
diferencial pode ser negativa. Entretanto, 2H(X) = 2log(a) = a é o
volume do conjunto suporte, o qual é sempre não-negativo, como
esperado.
c C. C. Cavalcante
Teoria da Informação
Entropia diferencial - cont.
Exemplo - Distribuição normal
Seja X ∼ N (0, σ 2 ) em que denotamos pX (x) = φ(x). Então,
calculando a entropia diferencial em nats, temos
Z
H [pX (x)] = − φ(x) ln[φ(x)] dx
Z
√
x2
2
= − φ(x) − 2 − ln( 2πσ ) dx
2σ
2
E{X } 1
=
+ ln(2πσ 2 )
2σ 2
2
(45)
1 1
2
= + ln(2πσ )
2 2
1
1
= ln(e) + ln(2πσ 2 )
2
2
1
2
= ln(2πeσ ) nats
2
c C. C. Cavalcante
Teoria da Informação
Entropia diferencial - cont.
Entropia diferencial conjunta
Definição
Seja um conjunto de N v.a. X1 , X2 , . . . , XN com densidade
pX (x) = pX (x1 , x2 , . . . , xN ), a entropia diferencial é definida como
Z
H [pX (x)] = − pX (x) · log [pX (x)] dx
Z Z
Z
=−
· · · pX1 ,X2 ,...,XN (x1 , x2 , . . . , xN )·
· log [pX1 ,X2 ,...,XN (x1 , x2 , . . . , xN )] dx1 dx2 . . . dxN
(46)
c C. C. Cavalcante
Teoria da Informação
Entropia diferencial - cont.
Entropia diferencial condicional
Definição
Se X, Y têm uma função de densidade conjunta pX,Y (x, y),
podemos definir a entropia diferencial condicional H(X|Y ) como
H(X|Y ) = −
Z Z
pX,Y (x, y) · log pX|Y (x|y) dx dy
(47)
Uma vez que em geral pX|Y (x|y) = pX,Y (x, y)/pY (y), podemos
também escrever
H(X|Y ) = H(X, Y ) − H(Y )
(48)
Deve-se entretanto garantir que nenhuma das entropias diferenciais
seja infinita.
c C. C. Cavalcante
Teoria da Informação
Regras da cadeia
Entropia
H(A1 , A2 , · · · , An ) =
n
X
H(Ai |Ai−1 , Ai−2 , · · · , A1 )
(49)
n
X
I(Ai ; B|Ai−1 , Ai−2 , · · · , A1 )
(50)
i=1
Informação mútua
I(A1 , A2 , · · · , An ; B) =
i=1
Entropia relativa
D (pA,B (a, b)kqA,B (a, b)) = D (pA (a)kqA (a))+D pB|A (b|a)kqB|A (b|a)
(51)
c C. C. Cavalcante
Teoria da Informação
Entropia diferencial - cont.
Propriedades da entropia diferencial, entropia relativa e informação mútua
1
D(pkg) ≥ 0
2
I(X, Y ) ≥ 0 com igualdade se mantendo se e somente se X e
Y são independentes
3
H(X|Y ) ≤ H(X), com igualdade se mantendo se e somente
se X e Y são independentes
4
H(X + c) = H(X) - translação não altera entropia
5
H(cX) = H(X) + log(|c|)
6
Para vetores e matrizes temos: H(CX) = H(X) + log(|C|),
em que |C| é o determinante da matrix C
c C. C. Cavalcante
Teoria da Informação
Entropia diferencial - cont.
Decomposição Pitagórica
Seja um vetor de N amostras aleatórias X formado de amostras
independentes, ou seja,
pX (x) =
N
Y
pXi (xi )
(52)
i=1
e seja um vetor Y definido em termos de x como Y = AX, em
que A é uma matriz não-diagonal. Seja peYi (yi ) a densidade de
probabilidade marginal de cada Yi derivada a partir de pY (y).
Então, a KLD entre pX (x) e pY (y) admite a seguinte
decomposição Pitagórica
D(pY ||pX ) = D(pY ||e
pX ) + D(e
pY ||pX )
c C. C. Cavalcante
Teoria da Informação
(53)
Entropia diferencial - cont.
Inequação de Jensen
Deriva da seguinte fórmula de função convexa
f (λx1 + (1 − λ)x2 ) ≤ λf (x1 ) + (1 − λ)f (x2 )
(54)
Exemplo de funções convexas: x2 , |x|, ex , x log(x) para
x ≥ 0, etc
Inequação de Jensen
E {f (X)} ≥ f (E {X})
c C. C. Cavalcante
Teoria da Informação
(55)
Entropia diferencial - cont.
Prova do mı́nimo da KLD
Deseja-se provar que D(pkq) ≥ 0, então tem-se
X
X
p(x)
q(x)
−D(pkq) = −
p(x) · log
=
p(x) · log
q(x)
p(x)
x
x
Utilizando a inequação de Jensen
X
x
p(x) · log
log
X
x
q(x)
p(x)
p(x) ·
≤ log
q(x)
p(x)
!
X
x
p(x) ·
= log
c C. C. Cavalcante
X
x
= log(1)
=0
Teoria da Informação
q(x)
p(x)
!
!
q(x)
Outras definições de entropia
Entropia de Rényi
A entropia de Rényi, uma generalização da entropia de Shannon, é
uma famı́lia de funcionais para quantificação da diversidade,
incerteza ou aleatoriedade de um sistema.
Definição
A entropia de Rényi de ordem α, para α > 0 é definida como
1
Hα (X) =
log
1−α
N
−1
X
i=0
pαi
!
(56)
em que pi é a probabilidade do evento i.
Uma importante propriedade, é que se os eventos forem
equiprováveis, então todas as entropias de Rényi (para qualquer α)
são iguais para a distribuição com Hα (X) = log(N ). Caso
contrário, as entropias decrescem em função do α.
c C. C. Cavalcante
Teoria da Informação
Outras definições de entropia - cont.
Entropia de Rényi - cont.
Alguns casos particulares
1 H (X) = log(N ) - é também chamada de entropia de
0
Hartley
NP
−1
2 No limite quando α → 1 temos H (X) = −
pi log(pi ),
1
i=0
3
que é a entropia de Shannon
Freqüentemente, a entropia de Rényi é dada para α = 2 sendo
!
N
−1
X
H2 (X) = − log
p2i
(57)
i=0
4
Para α → ∞ tem-se a Min-entropia, que é o menor valor de
H∞ (X) dada por
!
H∞ (X) = − log
c C. C. Cavalcante
sup pi
i=1,...,N
Teoria da Informação
(58)
Outras definições de entropia - cont.
Entropia de Rényi - cont.
Como a entropia de Rényi define o ganho de informação, há
também uma medida para ganhos relativos de informação. Desta
forma temos uma generalização da Divergência de Kullback-Leibler
dada pela Divergência Generalizada de Rényi de ordem α
1
Dα (p||q) =
log
α−1
N
−1
X
i=0
pαi
qiα−1
!
(59)
A exemplo da KLD, a divergência generalizada de Rényi é sempre
não negativa.
Referência:
A. Rényi. “On measures of information and entropy”. Proceedings
of the 4th Berkeley Symposium on Mathematics, Statistics and
Probability, 1960: 547-561.
c C. C. Cavalcante
Teoria da Informação
Outras definições de entropia - cont.
Entropia de Boltzmann-Gibbs
Entropia usada na termodinâmica
H = −kB
X
pα log pα ,
(60)
α
em que kB é a constante de Boltzmann e pα é a probabilidade do
sistema estar no estado α.
c C. C. Cavalcante
Teoria da Informação
Outras definições de entropia - cont.
Entropia de Tsallis
A entropia de Tsallis é uma generalização da entropia de
Boltzmann-Gibbs, que é a entropia da termodinâmica. Assim, a
entropia de Tsallis é dada por
Z
1
q
(61)
Hq (p) =
1 − p (x) dx
q−1
ou, no caso discreto
Hq (p) =
X
1 1−
pq (x)
q−1
(62)
Neste caso, p denota a densidade de probabilidade de interesse e q
é um valor real. No limite quando q → 1 obtém-se a entropia de
Boltzmann-Gibbs
c C. C. Cavalcante
Teoria da Informação
Outras definições de entropia - cont.
Entropia de von Neumann
A entropia de von Neumann é utilizada para medir a informação
média em densidade de estados quânticos. Um estado quântico
representa as possibilidades de existência de uma partı́cula em
diferentes estados, desta forma, representamos um estado quântico
para dois estados possı́veis, 0 e 1, por exemplo, como uma matriz
de dimensão 2 × 2, ou seja,
a b
ρ=
(63)
c d
Com isso, define-se a entropia de von Neumann como
H (ρ) = trace [ρ log(ρ)]
a qual generaliza a entropia de Shannon.
c C. C. Cavalcante
Teoria da Informação
(64)
Outras definições de entropia - cont.
Entropia de von Neumann - cont.
Também temos a entropia quântica relativa, que generaliza a
entropia relativa (divergência de Kullback-Leibler) para estados
quânticos, a qual é definida como
D (ρ||̺) = trace [ρ log(ρ) − ρ log(̺)]
(65)
em que ρ e ̺ são matrizes Hermitianas positivas com traço igual a
1.
A idéia da entropia quântica (relativa ou de von Neumann) é a de
mensurar a informação “espalhada” nos diversos estados quânticos.
Referência:
T.T. Georgiou, “Relative entropy and the multivariable
multidimensional moment problem”, IEEE Trans. on Information
Theory, vol. 52, No. 3, pp. 1052-1066, March 2006.
c C. C. Cavalcante
Teoria da Informação
Outras definições de entropia - cont.
Entropia espectral
A idéia da entropia espectral é a de analisar a informação no
espectro do sinal. Utilizando-se da entropia de Shannon,
substitui-se a densidade de probabilidade pela densidade espectral.
Assim, podemos definir como
Hsp (P ) = −
fh
X
Pi log(Pi )
(66)
i=fl
em que a faixa [fl , fh ] define a faixa de freqüência de interesse.
c C. C. Cavalcante
Teoria da Informação
Outras definições de entropia - cont.
Entropia espectral - cont.
O interesse é de medir a quantidade de informação média no
espectro a partir da informação contida em cada uma das
componentes de freqüência. Encontra aplicação em áreas de
biomédicas, por exemplo.
Referência:
R. Ferenets, T. Lipping, A. Anier, V. Jäntti, S. Melto, and
S.Hovilehto, “Comparison of Entropy and Complexity Measures for
the Assessment of Depth of Sedation”, IEEE Trans. on Biomedical
Engineering, vol. 53, No. 6, pp. 1067-1077, June 2006.
c C. C. Cavalcante
Teoria da Informação
Outras definições de entropia - cont.
Taxa de informação
A taxa de informação de uma fonte é determinada a partir de suas
entropia e taxa de transmissão.
Sendo uma fonte de informação S que transmite r sı́mbolos a cada
segundo, cujos sı́mbolos são variáveis aleatórias as pertencentes a
um alfabeto A = {as : 1 ≤ s ≤ S} com entropia H(A), define-se
a taxa de informação R como sendo determinada pela equação:
R = r · H(A).
c C. C. Cavalcante
Teoria da Informação
(67)
Informação e entropia
Estimação de H e I
Entropia e informação mútua são importantes caracterı́sticas
de processos aleatórios com possibilidade de aplicação em
várias áreas.
Um problema inerente ao tratamento por teoria da estimação
é como estimar tais quantidades uma vez que elas são funções
da densidade de probabilidade, a qual é difı́cil de estimar a
partir dos dados.
Como fazer estimativas dos dados a partir apenas de medidas?
Estimadores!!
c C. C. Cavalcante
Teoria da Informação
Informação e entropia
Estimação de H e I - cont.
Baseado na expansão de Gram-Charlier
Expansão de Gram-Charlier: aproximação polinomial da
densidade de probabilidade em torno de uma pdf gaussiana
!
∞
X
pX (x) = pG (x) 1 +
Ck · hi (x) ,
(68)
k=3
Os coeficientes Ck serão funções dos momentos/cumulantes
de X e hi é o polinômio de Hermite de ordem k
c C. C. Cavalcante
Teoria da Informação
Informação e entropia
Estimação de H e I - cont.
Baseado na expansão de Gram-Charlier - cont.
Sabendo que podemos escrever a entropia como (será visto
em maiores detalhes mais adiante!)
H(pX ) = H(pG ) − NG (pX )
(69)
em que NG (pX ) é a chamada negentropia.
Pode-se escrever então
H(pX ) = H(pG ) −
Z
c C. C. Cavalcante
V
pX (v)
pX (v) log
pG (v)
Teoria da Informação
dv
(70)
Informação e entropia
Estimação de H e I - cont.
Baseado na expansão de Gram-Charlier - cont.
Então
Z
H(pX ) ≈ H(pG ) −
pG (v) (1 + Z(v)) log [1 + Z(v)] dv
ZV
pG (v) Z(v) + Z 2 (v) dv
≈ H(pG ) −
V


X
d
d
d 2 
X

2
2 1 X
1 
i,i,i
i,i,j
i,j,k

= H(pG )− 
κ
+3
κ
+
κ


12 
6

i=1
i,j=1
i6=j
i,j=1
i6=j
j6=k
(71)
P
em que Z(v) = 3!1 i,j,k κi,j,k hijk (v), hijk é o polinômio de ordem
ijk e κi,i,i é o momento de terceira ordem.
c C. C. Cavalcante
Teoria da Informação
Informação e entropia
Estimação de H e I - cont.
Baseado na expansão de Gram-Charlier - cont.
É importante mencionar que foi feita uma aproximação em
série, de segunda ordem, na expansão de Edgeworth
(expansão de Gram-Charlier ordenada pela ordem de
importância dos seus termos).
Os momentos podem então ser estimados a partir das
amostras
Os polinômios de Hermite têm forma fechada e pode ser
calculados a partir dos dados.
Entretanto, as expansões de Edgeworth e Gram-Charlier só
podem aproxima funções que são “próximas” a uma
gaussiana
c C. C. Cavalcante
Teoria da Informação
Informação e entropia
Estimação de H e I - cont.
Baseado na estimação de Parzen
O estimador de Parzen para pdfs aproxima a densidade
(qualquer!) por um somatório de funções kernel. Dentre as
classes de funções que podem ser consideradas kernel a
função gaussiana é a mais conhecida
Assim podemos ter
pX (x) =
N
1 X
K(x − xi , σI)
N
(72)
i=1
Sabe-se ainda que, para dois kernels vale
Z
K(x − xi , σ1 I)K(x − xj , σ2 I) = K (xi − xj , (σ1 + σ2 )I)
x
(73)
c C. C. Cavalcante
Teoria da Informação
Informação e entropia
Estimação de H e I - cont.
Baseado na estimação de Parzen - cont.
Assim, teremos o seguinte aproximador para a entropia de
Shannon
Z
H(pX ) = − pX (x) · log (pX (x)) dx
x
"N
# (74)
Z X
N
X
K(x − xi ) · log
K(x − xi )
=−
x i=1
c C. C. Cavalcante
i=1
Teoria da Informação
Informação e entropia
Estimação de H e I - cont.
Baseado na estimação de Parzen - cont.
Para a entropia de Rényi temos para o caso de α = 2:
H(pX ) = − log
Z

x
p2X (x)
dx

Z X
N X
N
1
≈ − log  2
K(x − xi , σI)K(x − xj , σI) dx
N x i=1 j=1


N X
N
X
1
≈ − log  2
K(xi − xj , 2σI)
N i=1 j=1
(75)
É então possı́vel fazer desenvolvimento similares para a
entropia condicional, relativa e informação mútua
c C. C. Cavalcante
Teoria da Informação
Download