Artigo Completo

IV SEMEAD
ENTROPIA MÚTUA, DIVERGÊNCIA E TAXA DE
ENTROPIA E SUAS APLICAÇÕES NA
CIÊNCIA DA ADMINISTRAÇÃO
José de Oliveira Siqueira1
Hélio C. Chagas2
RESUMO
Os conceitos e modelos de independência estatística, cadeia de
Markov, função utilidade, análise de componentes principais e distinção entre processos caóticos e aleatórios desempenham um importante
papel na modelagem de problemas das Ciências Sociais. O artigo formula matematicamente estes conceitos e modelos utilizando a teoria da
informação. Esta abordagem possibilita a unificação e expansão da
capacidade de lidar com problemas de natureza estocástica. Os quantificadores de entropia mútua, divergência e taxa de entropia formam a
base desta nova abordagem. Sugestões e referências de aplicações
desta abordagens são fornecidas neste trabalho.
1
2
Professor da Área de Métodos Quantitativos do Departamento de Administração
da Faculdade de Economia, Administração e Contabilidade da Universidade de
São Paulo. Bacharel em Estatística pelo Instituto de Matemática e Estatística/USP. Mestre em Administração pela FEA/USP. Doutorando em Administração pela FEA/USP. E-mail: [email protected].
Professor Livre-Docente do Instituto de Química da Universidade de São Paulo.
Bacharel em Física/USP.
Outubro de 1999
INTRODUÇÃO
Os conceitos e modelos de independência estatística, cadeia de Markov, função utilidade, análise
de componentes principais e distinção entre processos caóticos e aleatórios desempenham um importante papel na modelagem de problemas das Ciências Sociais. O artigo formula matematicamente estes conceitos e modelos utilizando a teoria da informação. Esta abordagem possibilita a
unificação e expansão da capacidade de lidar com problemas de natureza estocástica. Sugestões e
referências de aplicações desta abordagens são fornecidas neste trabalho.
Entropia Mútua
Imagine que dois espaços amostrais
didas de probabilidade associadas
vamente.
W1 = { w1 1 ; w12 }
e
W2 = { w2 1 ; w 22 }
P1 = { P r ( w1 1 ); P r ( w 12 )}
e
tenham as seguintes me-
P2 = { P r ( w 2 1 ); P r ( w 2 2 )}
, respecti-
w1 1
w1 2
w2 1
( w1 1 ; w 2 1 )
( w1 2 ; w 21 )
w2 2
( w1 1 ; w 2 2 )
( w1 2 ; w 22 )
Produto cartesiano dos espaços amostrais
W = W1 Ä W2
A medida de probabildiade associada ao espaço amostral resultante do produto cartesiano dos
espaços amostrais W = W1 Ä W2 é:
P = { P r ( w1 1 ; w2 1 ); P r ( w1 2 ; w 21 ); P r ( w1 1 ; w 22 ); P r ( w12 ; w 2 2 )}
Evento do espaço
amostral W
.
Probabilidade conjunta da medida de probabilidade conjunta
( w1 1 ; w 2 1 )
P r ( w1 1 ; w2 1 )
( w1 2 ; w 21 )
P r ( w1 2 ; w21 )
( w1 1 ; w 2 2 )
P r ( w1 1 ; w2 2 )
( w1 2 ; w 22 )
P r ( w1 2 ; w 22 )
P
As medidas P1 e P2 são conhecidas como medidas de probabilidade marginais de P . Esta última, por sua vez, é conhecida por medida de probabilidade conjunta.
Por exemplo, temos que a probabilidade marginal é a soma de duas probabilidades conjuntas:
P r ( w1 1 ) = P r ( w1 1 ; w21 ) + P r ( w1 1 ; w22 ) .
Se os espaços amostrais são independentes, então:
P = P1 * P2
= { P r ( w1 1 ) * P r ( w 2 1 ); P r ( w1 2 ) * P r ( w 21 ); P r ( w1 1 ) * P r ( w 2 2 ); P r ( w12 ) * P r ( w 2 2 )}
.
2
No caso mais geral, quando a independência entre os espaços amostrais ocorre, temos que as
probabilidades conjuntas podem ser escritas como probabilidades condicionais:
P = ( P1 | P2 ) * P2
= { P r (w1 1 | w 21 ) * P r (w 21 ); P r (w1 2 | w 2 1 ) * P r (w 2 1 ); P r (w11 | w2 2 ) * P r (w 22 ); P r ( w12 | w 22 ) * P r (w 2 2 )}
= ( P2 | P1 ) * P1
Como a quantidade média de surpresa da medida de probabilidade conjunta P pode ser medida?
Isto é, qual a entropia desta medida em função das medidas marginais? A resposta é a expressão a
seguir:
E P (X
P
) = h P (X P )
= h
( P1 |P2 )* P2
= hP
1
|P2
(X (
P1 |P2 )* P2
(X P |P ) +
1
2
hP
2
)
(X P )
2
Portanto, a entropia conjunta é a soma da entropia condicional com a entropia marginal.
Como a expressão pode ser interpretada?
A quantidade média de surpresa por evento do espaço amostral conjunto é a soma das surpresas
médias por evento do espaço 1 condicionado ao 2 e do espaço 2. Isto é, quando um evento do espaço amostral 2 é conhecido, ele elimina uma parte da surpresa do espaço amostral 1. O que sobra
de supresa esperada do espaço amostral 1 após a ocorrência de um evento do espaço amostral 2 é
somado à surpresa esperada do espaço amostral 2. Note que a intersecção entre as duas surpresas
esperadas é contada uma vez apenas. Esta interesecção é chamada de entropia mútua. Conforme
MacKay (1995, p. 1), a entropia condicional mede a incerteza (surpresa) média por evento do espaço amostra 1 que permanece quando o evento do espaço amostral 2 é conhecido.
Portanto, conforme MacKay (1995, p. 1) dados são úteis, pois eles não aumentam a surpresa ou
incerteza em média.
Se os espaços amostrais são independentes, então:
E P (X
P
) = h P (X P )
(X P * P )
= hP
* P2
= hP
(X P ) +
1
1
1
2
hP
1
2
(X P )
2
O resultado anterior indica que a entropia conjunta é a soma das entropias das variáveis aleatórias informacionais. Note que a entropia mútua é nula. Isto é, o conhecimento da ocorrência de um
evento de um espaço amostral não diminui a surpresa esperada do outro.
A partir deste momento será criada uma nova notação para entropia conjunta:
hP
1
; P2
(X P ; P ) =
1
2
hP
1
|P2
(X P |P ) +
1
2
hP
2
(X P ) .
2
A expressão anterior é conhecida na teoria da informação como regra da cadeia.
A entropia conjunta é igual a soma de uma entropia condicional e de uma entropia.
Se P1 = P1 , então significa que a entropia condicional é nula, pois o conhecimento do evento do
espaço amostral elimina completamente a incerta sobre o próprio espaço amostral. Desta forma, a
3
entropia conjunta é a entropia. Note que a entropia mútua é igual à entropia também. Matematicamente, temos:
hP
1
; P1
(X P ; P ) =
1
1
hP
1
|P1
(X P |P ) +
1
1
1
1
(X P )
1
(X P )
= 0 + hP
= hP
hP
1
1
(X P )
1
Podemos agora definir mais formalmente a informação mútua da variável aleatória informacional conjunta X P :
hP
1
, P2
(X P , P ) =
1
hP
(X P ) 1
hP
= hP
(X P ) +
hP
2
1
1
1
1
|P2
2
(X P |P )
1
(X P ) 2
2
hP
1
(X P ; P )
; P2
1
2
ou equivalentemente
hP
hP
1
, P2
2
, P1
(X P , P ) =
2
1
hP
2
(X P ) 2
hP
2
|P1
(X P |P ) .
2
1
(X P , P ) mede a redução média de surpresa por evento do espaço amostral 1 provocada pelo
1
2
conhecimento de um evento do espaço amostral 2.
Observe que se os espaços amostrais são independentes, o conhecimento de evento de um espaço amostral não ensina nada sobre o outro espaço amostral. Desta forma a entropia mútua é nula,
isto é:
hP ,P
1
2
hP
(X P ) -
hP
|P2
(X P |P )
0 = hP
(X P ) -
hP
|P2
(X P |P )
(X P , P ) =
1
2
1
1
hP
1
|P2
(X P |P ) =
1
2
hP
1
1
1
1
1
1
1
2
2
(X P )
1
O resultado anterior era o esperado.
Já se os espaços amostrais são idênticos (totalmente dependentes), o conhecimento sobre um
evento de um espaço amostral ensina tudo sobre o outro espaço amostral. Desta forma, a entropia
mútua é a própria entropia de um espaço amostral. Matematicamente temos:
hP ,P
1
2
(X P , P ) =
2
hP
(X P ) -
hP
|P2
(X P |P )
(X P ) =
hP
(X P ) -
hP
|P2
(X P |P )
1
hP
1
hP
1
|P2
1
(X P |P ) =
1
1
1
1
1
1
1
1
1
2
2
0
2
O resultado anterior também era o esperado.
Reza (1961, cap. 3) faz a analogia destas medidas da teoria da informação com a teoria dos
conjuntos.
4
Interpretação Gráfica das Medidas de Entropia
MacKay (1999, p. 53) fornece uma interpretação mais precisa sobre as relações entre estas medidas.
hP
1
hP
1
; P2
(X P ; P )
1
2
(X P )
1
hP
hP
1
|P2
(X P |P )
1
hP
1
2
2
(X P )
2
(X P , P )
, P2
1
hP
2
2
|P1
(X P |P )
2
1
Versões Contínuas das Medidas de Entropia
As versões contínuas destas medidas são:
§
§
§
§
Entropia marginal diferencial:
hP
Entropia conjunta diferencial:
hP
1
1
hP
1
, P2
(X P , P ) =
1
2
ò
(X P ; P ) =
1
hP
1
-
-
1
; P2
Entropia condicional diferencial:
Entropia mútua:
(X P ) =
|P2
òò
f P ( x ) log 2 f P ( x )dx
1
-
2
1
òò
(X P |P ) =
1
-
2
f P ( x ; y ) log 2 f P ( x ; y )d x d y
æf ( x ; y ) ö
÷
P
÷
dxdy
÷
÷
èç f P2 ( y ) ÷
ø
ç
f P ( x ; y ) log 2 çç
òò
æ f (x ; y )
P
ö
÷
÷
dxdy
÷
÷
(
)
(
)
f
x
f
y
÷
èç P1
P2
ø
ç
f P ( x ; y ) log 2 çç
Relação entre Entropia Mútua e Divergência
A entropia mútua é a seguinte divergência de Kullback-Liebler:
hP
1
, P2
(X P , P ) = d (X P
1
2
(
= d X
|| X
P1 * P2
( P1 |P2 )* P2
)
|| X
P1 * P2
)
Ao contrário da divergência, a entropia mútua goza da seguinte propriedade:
hP
1
, P2
(X P , P ) =
1
2
hP
2
, P1
(X P , P ) .
2
1
Como a entropia mútua é positiva e simétrica, ela possui propriedades que a tornam candidata a
ser uma medida de distância. Uma entropia mútua pode ainda ser definida em função da negentropy
estabelecida por Comon (1994).
5
A entropia mútua goza de importantes propriedades conforme Reza (1961, p. 275-8). Ela é a
única medida que independe do fato da variável aleatória ser contínua ou discreta em termos de
interpretação.
Entropia Mútua da Normal Bivariada e sua Relação com o Coeficiente de Correlação e a Independência Estatística
Conforme Haykin (1999, 507-8) e Reza (1961, 282-3), no caso de duas variáveis aleatórias terem uma distribuição normal conjunta, a entropia mútua adquire um novo e importante significado.
æ
ç
P = normal çç m = êé0
ë
ç
çè
(X 1; X 2 ) :
sX
s
s
1
2
X1
2
X2
;X 2
= sX
2
= sX
1
;X 1
= sX
2
;X
;X 1
2
é s2
ê X1
= ê
ês X ;X
ë 2 1
= E P éê X 1 - E P [X 1 ] X
1
ë
)(
(
= EP
2
- E
P2
sX
s
1
;X 2
2
X2
ùö
ú÷
÷
ú÷
÷
÷
ú÷
ûø
[X 2 ])ù
ú
û
2 ù
é
ê X 1 - E P1 [X 1 ] ú
ë
û
(
)
é
= EP ê X
ë
(
2
ù; s
0ú
û
- E P [X
2
2
2
ù
]) ú
2
û
O coeficiente de correlação é definido como:
rX
;X 2
1
sX
=
s
sX
=
1
;X 2
2
s
X1
2
X2
;X 2
1
sX sX
1
2
Portanto, conforme Reza (1961, p. 283), a entropia conjunta é:
hP
1
(X P ; P ) =
; P2
1
2
log 2 2 p s X s X
1
2
1 - r X2
1
;X 2
.
A entropia mútua é:
hP
1
, P2
(X P , P ) =
1
2
-
1
2
(
2
log 2 1 - r X
1
;X 2
).
Note que a entropia mútua depende apenas do coeficiente de correlação.
Um teorema da estatística estabelece que se a distribuição conjunta é normal e o coeficiente de
correlação é nulo, então as duas variáveis aleatórias são estatisticamente independentes. Por outro
lado, quando as duas variáveis aleatórias são estatisticamente independentes, então o coeficiente de
correlação é nulo.
Desta forma, quando duas variáveis aleatórias são estatisticamente independentes a entropia
mútua é nula.
Conforme Haykin (1999, p. 514), quando a entropia mútua é nula, as duas variáveis aleatórias
são estatisticamente independentes.
Black & Weigend (1998) apud Haykin (1999, p. 513) aplicaram a medida de entropia mútua na
análise de dados do mercado financeiro com o intuito de extrair dos dados de ações o conjunto de
componentes latentes independentes. Trate-se de uma generalização da análise de componentes
principais (PCA) que extrai componentes não correlacionadas.
6
Entropia de um Processo Estocástico Markoviano ou Taxa de Entropia
Quando duas variáveis aleatórias são independentes, graficamente temos as seguintes relações:
hP
1
hP
1
; P2
(X P ; P )
1
2
(X P )
1
hP
2
(X P )
2
A primeira medida de probabilidade pode ser imagina com a associada a um dado canônico e a
segunda a uma moeda canônica.
Portanto, a entropia conjunta é:
hP
1
; P2
(X P ; P ) =
1
(X P ) +
hP
2
1
1
hP
2
(X P )
2
= log 2 6 + log 2 2
Note que a entropia mútua é nula.
Caso elas sejam independentes e não identicamente distribuídas temos:
n
hP
1
; P2 ;...; Pn
( X P ; P ;...; P ) = å
1
2
n
i= 1
hP
i
(X P ) .
i
Portanto, a entropia de n variáveis aleatórias independentes e identicamente distribuídas é:
h P ; P ;...; P ( X
P ; P ;...; P
)=
n h P (X
P
).
Qual o valor da entropia de um conjunto de variáveis aleatórias dependentes?
Inicialmente será estudado o processo estocástico mais simples, isto é, a cadeia de Markov. Conforme Ross (1997, cap. 4), considere um processo estocástico { X n ; n = 0, 1, 2, . . . } . Se X n = i , então
o processo é dito estar no estado i no estágio ou instante de tempo n. Seja
P r ( X n + 1 = j | X n = i ) = p ij ³ 0 a mesma probabilidade de transição do estado i para o j qualquer
que seja n. Isto é, suponha que:
P r (X n + 1 = j | X n = i ; X n -
para todos os estados
i 0 , i1 , . . . , i n - 1 , i , j
e todo
1
n ³
= i n - 1 ; . . . ; X 1 = i1 , X
0
0
= i0
) = p ij
.
7
A cadeia de Markov pode ser representada da seguinte maneira pela teoria da informação:
hP
1
hP
1
(X P ; P ; P )
; P2 ; P 3
1
2
3
(X P )
1
hP
2
(X P )
2
hP
hP
1
|P2
(X P |P )
1
hP
1
2
hP
2
|P3
, P2
(X P , P )
1
(X P |P )
2
hP
3
h
Note que h P
|P2
(X
hP
2
)=
P3 |P2
hP
( P2 , P3 )|P1
|P1
(X
(X (
P2 |P1
P2 , P 3 )|P1
2
, P3
2
|P1
(X P )
3
3
(X P |P )
2
1
(X P , P )
2
hP
3
3
|P2
(X
P3 |P 2
)
)
)
.
A entropia conjunta pode ser expressa em termos das condicionais de forma análoga à cadeia de
Markov:
3
hP
1
; P2 ; P 3
2
(X P ; P ; P ) =
1
2
hP
(X P ) +
hP
= hP
(X P ) +
2h P
3
1
1
1
1
2
(X P |P ) +
|P1
2
2
|P1
hP
1
3
|P2
(X P |P )
3
(X P |P )
2
2
.
1
Generalizando, temos que:
hP
1
; P2 ;...; Pn
(X P ; P ;...; P ) =
1
n
2
hP
1
(X P ) +
1
nhP
2
|P1
(X P |P )
2
1
A entropia do terceiro estágio da cadeia de Markov dados os dois primeiros é:
h
P3 |( P1 ; P2 )
(X
P3 |(P1 ; P2 )
)=
hP
3
|P2
(X P |P )
= hP
2
|P1
(X P |P )
3
2
2
1
A entropia do terceiro estágio condicionada aos dois primeiros é a entropia do segundo estágio
condicionado ao primeiro. Este resultado vale para qualquer número de estágios consecutivos.
Note que este resultado pode ser generalizado conforme Cover & Thomas (1991, p. 66) da seguinte maneira:
h
Pn |( P1 ; P2 ;...; Pn -
1
)
(X
Pn |( P1 ; P2 ;...; Pn -
1
)
)=
hP
2
|P1
(X P |P ) .
2
1
8
Conforme Cover & Thomas (1991, p. 66), { X i ; i
= 1, 2, . . . , n , . . . }
é uma cadeia de Markov esta-
cionária com distribuição estacionária P*( ¥ ) e matriz de transição P (1) . Então, a taxa de entropia ou
entropia do processo estocástico markoviano é dada pela equação seguinte:
E
(¥ )
P*
1
(X P ) =
(1)
n
hP
1
( X P ; P ;...; P )
; P2 ;...; Pn
1
1
éh
(X
n êë P1
=
1
=
n
hP
1
® hP
2
P1
)+
(X P ) +
nhP
hP
1
n
2
2
2
|P1
|P1
( X P |P )ùúû
2
(X P |P )
2
(X P |P ) quando n
|P1
2
1
1
® ¥
1
onde
X
P
:
(1)
{ W, { Pi(1) ; i
= 1, 2, . . . , m
}}
a
{- P
(1)
i
x =
(1)
log 2 Pi
= h
(1)
Pi
( X )}
(1)
Pi
m = quantidade de estados
A unidade desta medida é bit/estado/estágio e representa a quantidade média de surpresa por
evento por estágio do processo markoviano estacionário.
Para o caso particular de uma cadeia de Markov de dois estados temos que as matrizes de transição e a distribuição estacionária são, respectivamente:
P
(¥ )
P*
A entropia da variável aleatória
hP
¥
(X P ) =
¥
Xn®
-
éP (1)
ê 1
= ê
êP (1)
êë 2
é1 = ê
ê b
ëê
(1)
¥
b
a + b
ù
ú
ú
ú
ú
û
ù
ú
1- bú
ú
û
a
a
é b
= ê
ëêa + b
ù
ú
a + b û
ú
a
é:
æ b
log 2 çç
èa + b
a
ö
æ a
÷
log 2 çç
÷
÷
ø
èa + b
a + b
ö
÷
÷
÷.
ø
A taxa de entropia do processo markoviano estacionário é:
hP
2
|P1
h
h
(X P |P ) =
(1)
P1
(1)
P2
2
1
æ b
ç
çè a + b
ö
÷
h
÷
÷
ø P1( 1 )
(X ) +
(1)
P1
æ a
ç
èç a + b
(X ) =
- (1 - a ) log 2 (1 - a ) - a log 2 a
(X ) =
- (1 - b ) log 2 (1 - b ) - b log 2 b
(1)
P1
(1)
P2
ö
÷
÷
÷h P ( 1 )
ø
2
(X )
(1)
P2
A superfície da taxa de entropia deste processo markoviano esta representada no gráfico a seguir:
9
As curvas de nível da taxa de entropia deste processo markoviano estão representadas no gráfico
a seguir:
§
Entropia Mútua Total
A entropia mútua dos dois primeiros estágios da cadeia de Markov é:
h
( P2 , P3 )|P1
(X (
P2 , P3 )|P1
)=
hP
= hP
1
, P2
(X P , P ) -
hP
2
|P 3
(X
P2 |P 3
)
2
, P3
(X P , P ) -
hP
|P1
(X
P2 |P 1
)
1
2
2
3
2
Poder-se-ia considerar esta última entropia como uma entropia mútua conjunta ou total dos três
primeiros estágios consecutivos de uma cadeia de Markov, isto é:
10
h
(X (
( P2 , P3 )|P1
P2 , P 3 )|P1
)=
hP
1
, P2 , P 3
(X P , P , P ) .
1
2
3
Desta forma, temos que a entropia mútua conjunta (dependência) dos
cadeia de Markov decresce, tendendo para zero, isto é:
hP
1
, P2 ,..., Pn
(X P , P ,..., P ) ®
1
2
n
0 quando n ® ¥
n
primeiros estágios da
.
Observe que na expressão, a seguir, a medida de probabilidade conjunta entre dois estágios consecutivos da cadeia de Markov aproxima-se cada vez mais do produto das medidas de probabilidade, pois a dependência a cada passo diminui. Desta forma, a divergência tende para zero também.
Isto significa que o ganho de informação sucessivo é decrescente.
hP
n , Pn + 1
(X P , P ) = d (X P
n
n+1
|| X
Pn * Pn + 1
(
( Pn |Pn + 1 )* Pn + 1
(
Pn * Pn + 1
= d X
» d X
|| X
)
|| X
Pn * Pn + 1
Pn * Pn + 1
)
)
= 0
§
Relação entre a Entropia de Shannon e a de Boltzmann
Tendo por base Cover & Thomas (1991, p. 33-6) pode-se afirmar que o conceito de entropia de
Shannon contém o de Boltzmann, pois daquele pode-se derivar este.
O conceito de entropia termodinâmica de Boltzmann baseia-se na hipótese de que o comportamento das partículas é aleatório. Desta forma, o próximo estado do sistema fechado apenas depende
do estado atual. Este sistema pode ser modelado pela cadeia de Markov.
O macroestado mais equilibrado de todos em termos de quantidade de pontos de fase por célula
é aquele em que os pontos de fase distribuem-se uniformemente entre as células do sistema fechado.
Este macroestado especial pode ser chamado, desta forma de estado de equilíbrio ou de máxima
probabilidade termodinâmica. Se o sistema não está em equilíbrio, mudanças ocorrerão no sistema
até que o estado de equilíbrio tenha sido atingido. Portanto, a mecânica estatística interpreta o aumento da entropia num sistema fechado como uma conseqüência natural de um sistema tender de
um estado menos provável para um mais provável. Quanto maior a desordem de um sistema, maior
a sua probabilidade termodinâmica e maior a entropia. O mais alto grau de ordem de um sistema é
ter todos os pontos de fase concentrados numa única célula. Neste estado a probabilidade termodinâmica relativa ( w ) é 1 e a entropia é nula. O estado de máxima entropia ou de equilíbrio não é um
estado estático, pois os pontos de fase estão em permanente movimento no sistema. Logo, ocasionalmente o sistema diferirá do estado de equilíbrio e conseqüentemente a entropia deixará de ser
máxima. Pequenas mudanças são mais prováveis do que as grandes, mas estas não são impossíveis,
apenas altamente improváveis. Este fenômeno é estudado na teoria das flutuações (Sears (1955, cap.
15)).
Do ponto de vista markoviano, quando o sistema entra em regime estacionário (equilíbrio) significa que a medida de probabilidade associada ao número de microestados do sistema fechado tornase fixa.
No sentido termodinâmico esta medida de probabilidade estacionária deve ser uniforme para que
a entropia do sistema fechado aumente.
No entanto, a medida de probabilidade estacionária uniforme ocorre se, e somente, se a matriz de
transição da cadeia de Markov for duplamente estocástica, isto é, se a soma de cada linha e de cada
colunas das probabilidades de transição somar um. Evidentemente, no caso mais geral da cadeia de
11
Markov, apenas a soma de cada linha das probabilidades de transição (condicionais) deve somar
um. Trata-se, portanto, de uma cadeia de Markov muito particular.
Entropia de Shannon
Entropia de
Boltzmann
§
Entropia de ordem
a
e a distinção entre processos caóticos e aleatórios
Schützenberger (1954), Rényi (1961) e Pompe (1994) apud Golan et al. (1996, p. 36-7) apresentam o conceito de entropia generalizada. A expressão da entropia discreta generalizada é:
n
1
h P (X P ; a ) =
1- a
log 2
å
p ka
i= 1
a Î ¡
A entropia discreta de Shannon é um caso particular da medida anterior quando a ® 1 .
Conforme Pompe (1994) apud Golan et al. (1996, p. 37) o parâmetro alfa é utilizado para distinguir processos caóticos dos aleatórios.
§
Divergência de Amari e a função utilidade hara
Samperi (1998, p. 144) relata que a divergência de Kullback-Liebler generalizada de Rényi é:
d r [X P ; X T ; a ] =
Quando
a ® 1,
1
1- a
log 2
ò
f Pa ( x ) f T1 -
a
( x )dx
.
temos a divergência de Kullback-Liebler:
d r [X P ; X T ; a ® 1 ] =
ò
æf T ( x ) ö
÷
dx
÷
÷
çè f ( x ) ÷
ø
f T ( x ) log 2 çç
= d (X
T
|| X
P
P
)
Amari (1996) apud Samperi (1998, p. 144) define outra medida de divergência generalizada:
12
d a [X P ; X T ; a ] =
y =
ò
æf T ( x ) ö
÷
dx
÷
÷
çè f ( x ) ÷
ø
f P ( x ) g a çç
P
fT (x )
fP (x )
1+ a ö
æ
4
ïì
ç1 - y ( 2 ) ÷
ï
, a ¹
÷
ç
ï
2 ç
÷
ï
ø
ï 1- a è
ï
g a (y ) = ïí
y log 2 y , a = 1
ï
ï
ï
- log 2 y , a = - 1
ï
ï
ï
ïî
± 1
Para alfa igual a 1, -1 e 0 temos as duas divergências de Kullback-Liebler e a distância de
Hellinger (Samperi (1998, p. 145)).
d a [X P ; X T ; a = 1 ] = d ( X
d a [X P ; X T ; a = - 1 ] = d ( X
d a [X P ; X T ; a = 0 ] = 2 ò
P
)
|| X
T
|| X
T
P
( fP (x )
-
)
2
f T ( x ) ) dx
Samperi (1998, p. 147) apresenta uma tabela, reproduzida a seguir, na qual relaciona a função
utilidade hara (hyperbolic absolute risk aversion) (Pratt et al. (1996, apêndice 3) e Luenberger
(1998, p. 256)) com a α-divergência de Amari.
A função utilidade hara é:
g
u (x ) =
1 - g æ ax
ö
÷ , b > 0
ç
+ b÷
÷
ø
g çè 1 - g
.
O coeficiente de aversão ao risco de Arrow-Pratt é:
V=
a
g
- ¥
® 1-
-3
-1
0
1
3
1/2
+¥
® 0±
-1
± ¥
2
® 1+
1
cx + d
.
Função utilidade hara
Linear (neutro ao risco)
Quadrática
Logarítmica
Inversa (competitiva)
Exponencial
Quadrática
Linear (neutro ao risco)
Como pode ser observado, há uma estreita conexão entre função utilidade e divergência. Neste
momento temos definido o caminho da integração entre teoria da informação e teoria estatística
bayesiana da decisão. A tese de Samperi (1998) abre esta possível unificação de abordagens.
13
BIBLIOGRAFIA
COMON, P. 1994. "Independent component analysis. A new concept?" Signal Processing 36: 287314.
COVER, T. M. & THOMAS, J. A. 1991. Elements of information theory. New York: John Wiley
& Sons.
GOLAN, A.; JUDGE, G. & MILLER, D. 1996. Maximum entropy econometrics: robust
estimation with limited data. New York: John Wiley & Sons.
GULKO, B. (Les). 1998. “The entropic pricing theory.” Tese de doutorado. Orientador: Jonathan
E. Ingersoll, Jr. Yale University.
HAYKIN, S. 1999. Neural networks: a comprehensive foundation. 2ª ed. New Jersey: Prentice
Hall.
KELLY, Jr., J. L. 1956. “A new interpretation of information rate.” Bell System Technical Journal
35: 917-926.
KULLBACK, S. 1997. Information theory and statistics. New York: Dover.
LENCE, S. H. & MILLER, D. J. 1998. “Recovering output-specific inputs from aggregate input
data: a generalized cross-entropy approach.” American Journal of Agricultural Economics 80:
852-67.
LUENBERGER, D. G. 1998. Investment science. New York: Oxford University Press.
MACKAY, D. J. C. 1995. A short course in information theory - outline.
MACKAY, D. J. C. 1999. Information theory, inference, and learning algorithms. Versão preliminar.
PRATT, J. W; RAIFFA, H. & SCHLAIFER, R. 1996. Introduction to statistical deciosion theory.
2ª reimpressão. Cambridge, Massachusetts: The MIT Press.
REZA, F. M. 1994. An introduction to information theory. Reimpressão da publicação de 1961 pela
McGraw-Hill Electrical and Electronic Engineering Series. New York: Dover Publications.
ROSS, S. M. 1997. Introduction to probability models. 6ª ed. San Diego, CA: Academic Press.
SAMPERI, D. 1998. “Inverse problems, model selection and entropy in derivative security
pricing.” Tese de doutorado. Orientador: Marco Avellaneda. Departamento de Matemática da
Graduate School of Arts and Sciences da Universidade de New York.
SEARS, F. W. 1955. An introduction to thermodynamics, the kinetic theory of gases, and statistical
mechanics. 2ª ed. Cambridge: Addison-Wesley.
WOLF, D. R. 1996. “Information and correlation in statistical mechanical systems.”
http://dino.ph.utexas.edu/~wolf/wd.
YANG, Y. 1997. “Maximum entropy option pricing.” Tese de doutorado. Orientador: Paul
Beaumont. The Florida State University – College of Social Science.
14