Teoria da Informação Charles Casimiro Cavalcante [email protected] Grupo de Pesquisa em Telecomunicações Sem Fio – GTEL Programa de Pós-Graduação em Engenharia de Teleinformática Universidade Federal do Ceará – UFC http://www.gtel.ufc.br/∼charles c C. C. Cavalcante Teoria da Informação “A principal função de um sistema de comunicação é reproduzir, exatamente ou de forma aproximada, uma informação proveniente de outro ponto diferente.” Claude Shannon, 1948 c C. C. Cavalcante Teoria da Informação Conteúdo do curso 1 Revisão de probabilidade 2 Informação e Entropia 3 Codificação de fontes 4 Codificação e capacidade de canal 5 Complexidade de Kolmogorov 6 Funções de otimização 7 Independent Component Analysis c C. C. Cavalcante Teoria da Informação Parte II Informação e Entropia c C. C. Cavalcante Teoria da Informação O que é informação? Medida da quantidade de incerteza de um processo que ocorre com alguma probabilidade Definição de Shannon, 1948 Ferramentas probabilı́sticas Contexto Fonte discreta Alfabeto finito: A = {a0 , a1 , · · · , aK−1 } Probabilidades: Pr(A = ak ) = pk em que K−1 P k=0 c C. C. Cavalcante Teoria da Informação pk = 1 Definição Informação 1 I(ak ) = logα Pr(ak ) 1 = logα pk = − logα (pk ) Unidade da informação depende da base α, e.g. 1 2 α = 2 ⇒ informação em bits α = e ⇒ informação em nats c C. C. Cavalcante Teoria da Informação (23) O que mede a informação? De uma forma mais informal, informação é a surpresa da ocorrência de um evento Quanto mais surpresa (incerteza) mais informação e, de forma contrária, quanto menos incerteza menos informação c C. C. Cavalcante Teoria da Informação Propriedades da informação 1 I(ak ) = 0 se pk = 1 2 I(ak ) ≥ 0 para 0 ≤ pk ≤ 1 Nunca há perda de informação! 3 I(ak ) > I(ai ) para pk < pi 4 I(ak ai ) = I(ak ) + I(ai ) se ak e ai são estatisticamente independentes c C. C. Cavalcante Teoria da Informação Quantidade de informação 10 Bits Nats Quantidade de informação 9 8 7 6 5 4 3 2 1 0 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 Probabilidade de ocorrência c C. C. Cavalcante Teoria da Informação 0.9 1 Informação pontual e informação média Pode-se desejar então calcular a quantidade média de informação de uma fonte A A essa média da informação denomina-se entropia H(A) = K−1 X pk · I(ak ) k=0 K−1 X =− k=0 (24) pk · logα (pk ) A entropia mede a quantidade de informação média por sı́mbolo da fonte c C. C. Cavalcante Teoria da Informação Propriedades da entropia 0 ≤ H(A) ≤ logα (K) (25) H(A) = 0 se e somente se a probabilidade de ocorrência pk de um certo evento ak for pk = 1 e todas as demais forem iguais à zero. Neste ponto não existe nenhuma incerteza e conseqüentemente a entropia é mı́nima. H(A) = logα (K) se e somente se as probabilidades de todos os eventos ak forem iguais, ou seja, os eventos forem 1 eqüiprováveis pk = K . c C. C. Cavalcante Teoria da Informação Entropia de uma fonte binária Seja uma fonte binária com p0 e p1 as probabilidades dos sı́mbolos a0 e a1 . A entropia é dada por: H(A) = −p0 logα (p0 ) − p1 logα (p1 ) = −p0 logα (p0 ) − (1 − p0 ) logα (1 − p0 ) c C. C. Cavalcante Teoria da Informação Entropia de uma fonte binária - gráfico H(p0) × p0 1.1 1 0.9 Entropia H(p0 ) 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 Probabilidade de ocorrência (p0 ) c C. C. Cavalcante Teoria da Informação 0.9 1 Entropia - observações A entropia pode ainda ser representada matematicamente como H(A) = − {log(pA (a))} , (26) E em que pA (a) é a função de densidade de probabilidade de A. O que a entropia fornece é a de quanto de informação há, em média, num determinado sı́mbolo de uma fonte. Isto será de grande interesse no projeto de codificadores de fonte. c C. C. Cavalcante Teoria da Informação Entropia conjunta Até o momento foi vista a entropia de uma única variável aleatória Estendendo o conceito para duas variáveis tem-se novas definições Entropia conjunta H(A, B) = − =− XX p(a, b) log[pA,B (a, b)] a∈A b∈B E {log[pA,B (a, b)]} (27) Fornece a quantidade de informação média na ocorrência de duas v.a. c C. C. Cavalcante Teoria da Informação Entropia condicional Entropia condicional X H(A|B) = pB (b) · H(A|B = b) b∈B =− =− =− X pB (b) pA|B (a|b) log[pA|B (a|b)] a∈A b∈B XX X (28) pA,B (a, b) log[pA|B (a|b)] b∈B a∈A E log[pA|B (a|b)] Medida da quantidade média de informação de uma v.a. dada a ocorrência de outra c C. C. Cavalcante Teoria da Informação Entropia - Relações importantes 1 Regra da cadeia H(A, B) = H(A) + H(B|A) (29) A entropia de um par de variáveis é igual a entropia de uma mais a entropia condicional. 2 Corolário da regra da cadeia H(A, B|C) = H(A|C) + H(B|A, C), c C. C. Cavalcante Teoria da Informação (30) Entropia relativa Entropia relativa: é a medida de “distância” entre duas distribuições. Pode ser entendido como uma medida de ineficiência de assumir que uma v.a. tem distribuição p(x) quando a verdadeira distribuição é g(x). X p(x) D(pkg) = p(x) · log g(x) x∈X (31) p(x) = p(x) log g(x) E A Equação (31) é também conhecida como Divergência de Kullback-Leibler (KLD) ou ainda entropia cruzada c C. C. Cavalcante Teoria da Informação Entropia relativa Propriedades 1 2 é sempre de valor positivo ou zero; KLD é zero para o caso especı́fico de px (x) = gx (x). é invariante com relação às seguintes mudanças nos componentes do vetor x; permutação de ordem escalonamento de amplitude transformação monotônica não-linear 3 4 não é uma distância no espaço euclidiano pois D(pkg) 6= D(gkp) é uma distância no espaço das distribuições de probabilidade (espaço de Riemann) c C. C. Cavalcante Teoria da Informação Informação mútua Definição: para duas variáveis aleatórias A e B, a informação mútua é a entropia relativa entre a distribuição conjunta de A e B e o produto das distribuições marginais. XX pA,B (a, b) I(A, B) = pA,B (a, b) log pA (a)pB (b) a∈A b∈B = D (pA,B (a, b)kpA (a)pB (b)) pA,B (a, b) = A,B log pA (a)pB (b) E c C. C. Cavalcante Teoria da Informação (32) Informação mútua e entropia - relações importantes 1 Redução da incerteza de A devido ao conhecimento de B I(A, B) = H(A) − H(A|B) 2 Simetria da relação 1 I(A, B) = H(B) − H(B|A) 3 (34) Soma de entropias I(A, B) = H(A) + H(B) − H(A, B) 4 (33) (35) Auto-informação mútua I(A, A) = H(A) − H(A|A) = H(A) c C. C. Cavalcante Teoria da Informação (36) Informação mútua e entropia - relações importantes H(A, B) H(A|B) I(A, B) H(A) c C. C. Cavalcante H(B|A) H(B) Teoria da Informação Extensão de uma fonte discreta sem memória Utilização de blocos de dados, cada bloco com n sı́mbolos da fonte Cada bloco pode ser entendido como sendo produzido por uma fonte estendida Alfabeto An com K n blocos distintos, com K o número de sı́mbolos na fonte original Considerando que os sı́mbolos da fonte são estatisticamente independentes P (s[An ]) = n Y P (si [A]) (37) i=1 Daı́, podemos escrever então H(An ) = n · H(A) c C. C. Cavalcante Teoria da Informação (38) Definições importantes Informação condicional mútua de v.a. X e Y dado Z I(X, Y |Z) = H(X|Z) − H(X|Y, Z) p(X, Y |Z) = p(x,y,z) log P (X|Z)p(Y |Z) E (39) Entropia relativa condicional D (p(y|x)kq(y|x)) = X p(x) x = EX,Y c C. C. Cavalcante X p(y|x) log y p(y|x) log q(y|x) Teoria da Informação p(y|x) q(y|x) (40) Variáveis contı́nuas Entropia H(A) = − Z∞ pA (a) log (pA (a)) da (41) −∞ Divergência de Kullback-Leibler D(pkq) = Z∞ −∞ p(x) log p(x) q(x) dx (42) Nota: Vamos estudar mais detalhes destas grandezas a seguir! c C. C. Cavalcante Teoria da Informação Entropia diferencial Embora a entropia definida por Shannon seja aplicada ao caso discreto, podemos expandir o conceito para variáveis contı́nuas A semelhança entre os casos discreto e contı́nuo é bastante grande, mas algumas diferenças são importantes e o uso de tal conceito merece cuidado Quando as variáveis são contı́nuas a entropia recebe o nome de entropia diferencial c C. C. Cavalcante Teoria da Informação Entropia diferencial - cont. Definição A entropia diferencial H(X) de uma variável aleatória contı́nua X com densidade de probabilidade pX (x) é definida por H(X) = − Z S pX (x) · log [pX (x)] dx (43) em que S é o conjunto suporte da v.a. Como no caso discreto, a entropia diferencial só depende da densidade de probabilidade, sendo por vezes escrita como H [pX (x)] ao invés de H(X) Lembrete: como em qualquer problema envolvendo integral ou densidade de probabilidade, nós precisamos garantir que elas existem. c C. C. Cavalcante Teoria da Informação Entropia diferencial - cont. Exemplo - Distribuição uniforme Seja uma v.a. distribuı́da uniformemente entre 0 e a, então sua densidade é 1/a entre 0 a a e 0 caso contrário. Então sua entropia diferencial é H(X) = − Za 0 1 1 · log dx = log(a) a a (44) Note que, para a < 1, temos log(a) < 0 e a entropia diferencial é negativa. Daı́ ao contrário da entropia discreta, a entropia diferencial pode ser negativa. Entretanto, 2H(X) = 2log(a) = a é o volume do conjunto suporte, o qual é sempre não-negativo, como esperado. c C. C. Cavalcante Teoria da Informação Entropia diferencial - cont. Exemplo - Distribuição normal Seja X ∼ N (0, σ 2 ) em que denotamos pX (x) = φ(x). Então, calculando a entropia diferencial em nats, temos Z H [pX (x)] = − φ(x) ln[φ(x)] dx Z √ x2 2 = − φ(x) − 2 − ln( 2πσ ) dx 2σ 2 E{X } 1 = + ln(2πσ 2 ) 2σ 2 2 (45) 1 1 2 = + ln(2πσ ) 2 2 1 1 = ln(e) + ln(2πσ 2 ) 2 2 1 2 = ln(2πeσ ) nats 2 c C. C. Cavalcante Teoria da Informação Entropia diferencial - cont. Entropia diferencial conjunta Definição Seja um conjunto de N v.a. X1 , X2 , . . . , XN com densidade pX (x) = pX (x1 , x2 , . . . , xN ), a entropia diferencial é definida como Z H [pX (x)] = − pX (x) · log [pX (x)] dx Z Z Z =− · · · pX1 ,X2 ,...,XN (x1 , x2 , . . . , xN )· · log [pX1 ,X2 ,...,XN (x1 , x2 , . . . , xN )] dx1 dx2 . . . dxN (46) c C. C. Cavalcante Teoria da Informação Entropia diferencial - cont. Entropia diferencial condicional Definição Se X, Y têm uma função de densidade conjunta pX,Y (x, y), podemos definir a entropia diferencial condicional H(X|Y ) como H(X|Y ) = − Z Z pX,Y (x, y) · log pX|Y (x|y) dx dy (47) Uma vez que em geral pX|Y (x|y) = pX,Y (x, y)/pY (y), podemos também escrever H(X|Y ) = H(X, Y ) − H(Y ) (48) Deve-se entretanto garantir que nenhuma das entropias diferenciais seja infinita. c C. C. Cavalcante Teoria da Informação Regras da cadeia Entropia H(A1 , A2 , · · · , An ) = n X H(Ai |Ai−1 , Ai−2 , · · · , A1 ) (49) n X I(Ai ; B|Ai−1 , Ai−2 , · · · , A1 ) (50) i=1 Informação mútua I(A1 , A2 , · · · , An ; B) = i=1 Entropia relativa D (pA,B (a, b)kqA,B (a, b)) = D (pA (a)kqA (a))+D pB|A (b|a)kqB|A (b|a) (51) c C. C. Cavalcante Teoria da Informação Entropia diferencial - cont. Propriedades da entropia diferencial, entropia relativa e informação mútua 1 D(pkg) ≥ 0 2 I(X, Y ) ≥ 0 com igualdade se mantendo se e somente se X e Y são independentes 3 H(X|Y ) ≤ H(X), com igualdade se mantendo se e somente se X e Y são independentes 4 H(X + c) = H(X) - translação não altera entropia 5 H(cX) = H(X) + log(|c|) 6 Para vetores e matrizes temos: H(CX) = H(X) + log(|C|), em que |C| é o determinante da matrix C c C. C. Cavalcante Teoria da Informação Entropia diferencial - cont. Decomposição Pitagórica Seja um vetor de N amostras aleatórias X formado de amostras independentes, ou seja, pX (x) = N Y pXi (xi ) (52) i=1 e seja um vetor Y definido em termos de x como Y = AX, em que A é uma matriz não-diagonal. Seja peYi (yi ) a densidade de probabilidade marginal de cada Yi derivada a partir de pY (y). Então, a KLD entre pX (x) e pY (y) admite a seguinte decomposição Pitagórica D(pY ||pX ) = D(pY ||e pX ) + D(e pY ||pX ) c C. C. Cavalcante Teoria da Informação (53) Entropia diferencial - cont. Inequação de Jensen Deriva da seguinte fórmula de função convexa f (λx1 + (1 − λ)x2 ) ≤ λf (x1 ) + (1 − λ)f (x2 ) (54) Exemplo de funções convexas: x2 , |x|, ex , x log(x) para x ≥ 0, etc Inequação de Jensen E {f (X)} ≥ f (E {X}) c C. C. Cavalcante Teoria da Informação (55) Entropia diferencial - cont. Prova do mı́nimo da KLD Deseja-se provar que D(pkq) ≥ 0, então tem-se X X p(x) q(x) −D(pkq) = − p(x) · log = p(x) · log q(x) p(x) x x Utilizando a inequação de Jensen X x p(x) · log log X x q(x) p(x) p(x) · ≤ log q(x) p(x) ! X x p(x) · = log c C. C. Cavalcante X x = log(1) =0 Teoria da Informação q(x) p(x) ! ! q(x) Outras definições de entropia Entropia de Rényi A entropia de Rényi, uma generalização da entropia de Shannon, é uma famı́lia de funcionais para quantificação da diversidade, incerteza ou aleatoriedade de um sistema. Definição A entropia de Rényi de ordem α, para α > 0 é definida como 1 Hα (X) = log 1−α N −1 X i=0 pαi ! (56) em que pi é a probabilidade do evento i. Uma importante propriedade, é que se os eventos forem equiprováveis, então todas as entropias de Rényi (para qualquer α) são iguais para a distribuição com Hα (X) = log(N ). Caso contrário, as entropias decrescem em função do α. c C. C. Cavalcante Teoria da Informação Outras definições de entropia - cont. Entropia de Rényi - cont. Alguns casos particulares 1 H (X) = log(N ) - é também chamada de entropia de 0 Hartley NP −1 2 No limite quando α → 1 temos H (X) = − pi log(pi ), 1 i=0 3 que é a entropia de Shannon Freqüentemente, a entropia de Rényi é dada para α = 2 sendo ! N −1 X H2 (X) = − log p2i (57) i=0 4 Para α → ∞ tem-se a Min-entropia, que é o menor valor de H∞ (X) dada por ! H∞ (X) = − log c C. C. Cavalcante sup pi i=1,...,N Teoria da Informação (58) Outras definições de entropia - cont. Entropia de Rényi - cont. Como a entropia de Rényi define o ganho de informação, há também uma medida para ganhos relativos de informação. Desta forma temos uma generalização da Divergência de Kullback-Leibler dada pela Divergência Generalizada de Rényi de ordem α 1 Dα (p||q) = log α−1 N −1 X i=0 pαi qiα−1 ! (59) A exemplo da KLD, a divergência generalizada de Rényi é sempre não negativa. Referência: A. Rényi. “On measures of information and entropy”. Proceedings of the 4th Berkeley Symposium on Mathematics, Statistics and Probability, 1960: 547-561. c C. C. Cavalcante Teoria da Informação Outras definições de entropia - cont. Entropia de Boltzmann-Gibbs Entropia usada na termodinâmica H = −kB X pα log pα , (60) α em que kB é a constante de Boltzmann e pα é a probabilidade do sistema estar no estado α. c C. C. Cavalcante Teoria da Informação Outras definições de entropia - cont. Entropia de Tsallis A entropia de Tsallis é uma generalização da entropia de Boltzmann-Gibbs, que é a entropia da termodinâmica. Assim, a entropia de Tsallis é dada por Z 1 q (61) Hq (p) = 1 − p (x) dx q−1 ou, no caso discreto Hq (p) = X 1 1− pq (x) q−1 (62) Neste caso, p denota a densidade de probabilidade de interesse e q é um valor real. No limite quando q → 1 obtém-se a entropia de Boltzmann-Gibbs c C. C. Cavalcante Teoria da Informação Outras definições de entropia - cont. Entropia de von Neumann A entropia de von Neumann é utilizada para medir a informação média em densidade de estados quânticos. Um estado quântico representa as possibilidades de existência de uma partı́cula em diferentes estados, desta forma, representamos um estado quântico para dois estados possı́veis, 0 e 1, por exemplo, como uma matriz de dimensão 2 × 2, ou seja, a b ρ= (63) c d Com isso, define-se a entropia de von Neumann como H (ρ) = trace [ρ log(ρ)] a qual generaliza a entropia de Shannon. c C. C. Cavalcante Teoria da Informação (64) Outras definições de entropia - cont. Entropia de von Neumann - cont. Também temos a entropia quântica relativa, que generaliza a entropia relativa (divergência de Kullback-Leibler) para estados quânticos, a qual é definida como D (ρ||̺) = trace [ρ log(ρ) − ρ log(̺)] (65) em que ρ e ̺ são matrizes Hermitianas positivas com traço igual a 1. A idéia da entropia quântica (relativa ou de von Neumann) é a de mensurar a informação “espalhada” nos diversos estados quânticos. Referência: T.T. Georgiou, “Relative entropy and the multivariable multidimensional moment problem”, IEEE Trans. on Information Theory, vol. 52, No. 3, pp. 1052-1066, March 2006. c C. C. Cavalcante Teoria da Informação Outras definições de entropia - cont. Entropia espectral A idéia da entropia espectral é a de analisar a informação no espectro do sinal. Utilizando-se da entropia de Shannon, substitui-se a densidade de probabilidade pela densidade espectral. Assim, podemos definir como Hsp (P ) = − fh X Pi log(Pi ) (66) i=fl em que a faixa [fl , fh ] define a faixa de freqüência de interesse. c C. C. Cavalcante Teoria da Informação Outras definições de entropia - cont. Entropia espectral - cont. O interesse é de medir a quantidade de informação média no espectro a partir da informação contida em cada uma das componentes de freqüência. Encontra aplicação em áreas de biomédicas, por exemplo. Referência: R. Ferenets, T. Lipping, A. Anier, V. Jäntti, S. Melto, and S.Hovilehto, “Comparison of Entropy and Complexity Measures for the Assessment of Depth of Sedation”, IEEE Trans. on Biomedical Engineering, vol. 53, No. 6, pp. 1067-1077, June 2006. c C. C. Cavalcante Teoria da Informação Outras definições de entropia - cont. Taxa de informação A taxa de informação de uma fonte é determinada a partir de suas entropia e taxa de transmissão. Sendo uma fonte de informação S que transmite r sı́mbolos a cada segundo, cujos sı́mbolos são variáveis aleatórias as pertencentes a um alfabeto A = {as : 1 ≤ s ≤ S} com entropia H(A), define-se a taxa de informação R como sendo determinada pela equação: R = r · H(A). c C. C. Cavalcante Teoria da Informação (67) Informação e entropia Estimação de H e I Entropia e informação mútua são importantes caracterı́sticas de processos aleatórios com possibilidade de aplicação em várias áreas. Um problema inerente ao tratamento por teoria da estimação é como estimar tais quantidades uma vez que elas são funções da densidade de probabilidade, a qual é difı́cil de estimar a partir dos dados. Como fazer estimativas dos dados a partir apenas de medidas? Estimadores!! c C. C. Cavalcante Teoria da Informação Informação e entropia Estimação de H e I - cont. Baseado na expansão de Gram-Charlier Expansão de Gram-Charlier: aproximação polinomial da densidade de probabilidade em torno de uma pdf gaussiana ! ∞ X pX (x) = pG (x) 1 + Ck · hi (x) , (68) k=3 Os coeficientes Ck serão funções dos momentos/cumulantes de X e hi é o polinômio de Hermite de ordem k c C. C. Cavalcante Teoria da Informação Informação e entropia Estimação de H e I - cont. Baseado na expansão de Gram-Charlier - cont. Sabendo que podemos escrever a entropia como (será visto em maiores detalhes mais adiante!) H(pX ) = H(pG ) − NG (pX ) (69) em que NG (pX ) é a chamada negentropia. Pode-se escrever então H(pX ) = H(pG ) − Z c C. C. Cavalcante V pX (v) pX (v) log pG (v) Teoria da Informação dv (70) Informação e entropia Estimação de H e I - cont. Baseado na expansão de Gram-Charlier - cont. Então Z H(pX ) ≈ H(pG ) − pG (v) (1 + Z(v)) log [1 + Z(v)] dv ZV pG (v) Z(v) + Z 2 (v) dv ≈ H(pG ) − V X d d d 2 X 2 2 1 X 1 i,i,i i,i,j i,j,k = H(pG )− κ +3 κ + κ 12 6 i=1 i,j=1 i6=j i,j=1 i6=j j6=k (71) P em que Z(v) = 3!1 i,j,k κi,j,k hijk (v), hijk é o polinômio de ordem ijk e κi,i,i é o momento de terceira ordem. c C. C. Cavalcante Teoria da Informação Informação e entropia Estimação de H e I - cont. Baseado na expansão de Gram-Charlier - cont. É importante mencionar que foi feita uma aproximação em série, de segunda ordem, na expansão de Edgeworth (expansão de Gram-Charlier ordenada pela ordem de importância dos seus termos). Os momentos podem então ser estimados a partir das amostras Os polinômios de Hermite têm forma fechada e pode ser calculados a partir dos dados. Entretanto, as expansões de Edgeworth e Gram-Charlier só podem aproxima funções que são “próximas” a uma gaussiana c C. C. Cavalcante Teoria da Informação Informação e entropia Estimação de H e I - cont. Baseado na estimação de Parzen O estimador de Parzen para pdfs aproxima a densidade (qualquer!) por um somatório de funções kernel. Dentre as classes de funções que podem ser consideradas kernel a função gaussiana é a mais conhecida Assim podemos ter pX (x) = N 1 X K(x − xi , σI) N (72) i=1 Sabe-se ainda que, para dois kernels vale Z K(x − xi , σ1 I)K(x − xj , σ2 I) = K (xi − xj , (σ1 + σ2 )I) x (73) c C. C. Cavalcante Teoria da Informação Informação e entropia Estimação de H e I - cont. Baseado na estimação de Parzen - cont. Assim, teremos o seguinte aproximador para a entropia de Shannon Z H(pX ) = − pX (x) · log (pX (x)) dx x "N # (74) Z X N X K(x − xi ) · log K(x − xi ) =− x i=1 c C. C. Cavalcante i=1 Teoria da Informação Informação e entropia Estimação de H e I - cont. Baseado na estimação de Parzen - cont. Para a entropia de Rényi temos para o caso de α = 2: H(pX ) = − log Z x p2X (x) dx Z X N X N 1 ≈ − log 2 K(x − xi , σI)K(x − xj , σI) dx N x i=1 j=1 N X N X 1 ≈ − log 2 K(xi − xj , 2σI) N i=1 j=1 (75) É então possı́vel fazer desenvolvimento similares para a entropia condicional, relativa e informação mútua c C. C. Cavalcante Teoria da Informação