IV SEMEAD ENTROPIA MÚTUA, DIVERGÊNCIA E TAXA DE ENTROPIA E SUAS APLICAÇÕES NA CIÊNCIA DA ADMINISTRAÇÃO José de Oliveira Siqueira1 Hélio C. Chagas2 RESUMO Os conceitos e modelos de independência estatística, cadeia de Markov, função utilidade, análise de componentes principais e distinção entre processos caóticos e aleatórios desempenham um importante papel na modelagem de problemas das Ciências Sociais. O artigo formula matematicamente estes conceitos e modelos utilizando a teoria da informação. Esta abordagem possibilita a unificação e expansão da capacidade de lidar com problemas de natureza estocástica. Os quantificadores de entropia mútua, divergência e taxa de entropia formam a base desta nova abordagem. Sugestões e referências de aplicações desta abordagens são fornecidas neste trabalho. 1 2 Professor da Área de Métodos Quantitativos do Departamento de Administração da Faculdade de Economia, Administração e Contabilidade da Universidade de São Paulo. Bacharel em Estatística pelo Instituto de Matemática e Estatística/USP. Mestre em Administração pela FEA/USP. Doutorando em Administração pela FEA/USP. E-mail: [email protected]. Professor Livre-Docente do Instituto de Química da Universidade de São Paulo. Bacharel em Física/USP. Outubro de 1999 INTRODUÇÃO Os conceitos e modelos de independência estatística, cadeia de Markov, função utilidade, análise de componentes principais e distinção entre processos caóticos e aleatórios desempenham um importante papel na modelagem de problemas das Ciências Sociais. O artigo formula matematicamente estes conceitos e modelos utilizando a teoria da informação. Esta abordagem possibilita a unificação e expansão da capacidade de lidar com problemas de natureza estocástica. Sugestões e referências de aplicações desta abordagens são fornecidas neste trabalho. Entropia Mútua Imagine que dois espaços amostrais didas de probabilidade associadas vamente. W1 = { w1 1 ; w12 } e W2 = { w2 1 ; w 22 } P1 = { P r ( w1 1 ); P r ( w 12 )} e tenham as seguintes me- P2 = { P r ( w 2 1 ); P r ( w 2 2 )} , respecti- w1 1 w1 2 w2 1 ( w1 1 ; w 2 1 ) ( w1 2 ; w 21 ) w2 2 ( w1 1 ; w 2 2 ) ( w1 2 ; w 22 ) Produto cartesiano dos espaços amostrais W = W1 Ä W2 A medida de probabildiade associada ao espaço amostral resultante do produto cartesiano dos espaços amostrais W = W1 Ä W2 é: P = { P r ( w1 1 ; w2 1 ); P r ( w1 2 ; w 21 ); P r ( w1 1 ; w 22 ); P r ( w12 ; w 2 2 )} Evento do espaço amostral W . Probabilidade conjunta da medida de probabilidade conjunta ( w1 1 ; w 2 1 ) P r ( w1 1 ; w2 1 ) ( w1 2 ; w 21 ) P r ( w1 2 ; w21 ) ( w1 1 ; w 2 2 ) P r ( w1 1 ; w2 2 ) ( w1 2 ; w 22 ) P r ( w1 2 ; w 22 ) P As medidas P1 e P2 são conhecidas como medidas de probabilidade marginais de P . Esta última, por sua vez, é conhecida por medida de probabilidade conjunta. Por exemplo, temos que a probabilidade marginal é a soma de duas probabilidades conjuntas: P r ( w1 1 ) = P r ( w1 1 ; w21 ) + P r ( w1 1 ; w22 ) . Se os espaços amostrais são independentes, então: P = P1 * P2 = { P r ( w1 1 ) * P r ( w 2 1 ); P r ( w1 2 ) * P r ( w 21 ); P r ( w1 1 ) * P r ( w 2 2 ); P r ( w12 ) * P r ( w 2 2 )} . 2 No caso mais geral, quando a independência entre os espaços amostrais ocorre, temos que as probabilidades conjuntas podem ser escritas como probabilidades condicionais: P = ( P1 | P2 ) * P2 = { P r (w1 1 | w 21 ) * P r (w 21 ); P r (w1 2 | w 2 1 ) * P r (w 2 1 ); P r (w11 | w2 2 ) * P r (w 22 ); P r ( w12 | w 22 ) * P r (w 2 2 )} = ( P2 | P1 ) * P1 Como a quantidade média de surpresa da medida de probabilidade conjunta P pode ser medida? Isto é, qual a entropia desta medida em função das medidas marginais? A resposta é a expressão a seguir: E P (X P ) = h P (X P ) = h ( P1 |P2 )* P2 = hP 1 |P2 (X ( P1 |P2 )* P2 (X P |P ) + 1 2 hP 2 ) (X P ) 2 Portanto, a entropia conjunta é a soma da entropia condicional com a entropia marginal. Como a expressão pode ser interpretada? A quantidade média de surpresa por evento do espaço amostral conjunto é a soma das surpresas médias por evento do espaço 1 condicionado ao 2 e do espaço 2. Isto é, quando um evento do espaço amostral 2 é conhecido, ele elimina uma parte da surpresa do espaço amostral 1. O que sobra de supresa esperada do espaço amostral 1 após a ocorrência de um evento do espaço amostral 2 é somado à surpresa esperada do espaço amostral 2. Note que a intersecção entre as duas surpresas esperadas é contada uma vez apenas. Esta interesecção é chamada de entropia mútua. Conforme MacKay (1995, p. 1), a entropia condicional mede a incerteza (surpresa) média por evento do espaço amostra 1 que permanece quando o evento do espaço amostral 2 é conhecido. Portanto, conforme MacKay (1995, p. 1) dados são úteis, pois eles não aumentam a surpresa ou incerteza em média. Se os espaços amostrais são independentes, então: E P (X P ) = h P (X P ) (X P * P ) = hP * P2 = hP (X P ) + 1 1 1 2 hP 1 2 (X P ) 2 O resultado anterior indica que a entropia conjunta é a soma das entropias das variáveis aleatórias informacionais. Note que a entropia mútua é nula. Isto é, o conhecimento da ocorrência de um evento de um espaço amostral não diminui a surpresa esperada do outro. A partir deste momento será criada uma nova notação para entropia conjunta: hP 1 ; P2 (X P ; P ) = 1 2 hP 1 |P2 (X P |P ) + 1 2 hP 2 (X P ) . 2 A expressão anterior é conhecida na teoria da informação como regra da cadeia. A entropia conjunta é igual a soma de uma entropia condicional e de uma entropia. Se P1 = P1 , então significa que a entropia condicional é nula, pois o conhecimento do evento do espaço amostral elimina completamente a incerta sobre o próprio espaço amostral. Desta forma, a 3 entropia conjunta é a entropia. Note que a entropia mútua é igual à entropia também. Matematicamente, temos: hP 1 ; P1 (X P ; P ) = 1 1 hP 1 |P1 (X P |P ) + 1 1 1 1 (X P ) 1 (X P ) = 0 + hP = hP hP 1 1 (X P ) 1 Podemos agora definir mais formalmente a informação mútua da variável aleatória informacional conjunta X P : hP 1 , P2 (X P , P ) = 1 hP (X P ) 1 hP = hP (X P ) + hP 2 1 1 1 1 |P2 2 (X P |P ) 1 (X P ) 2 2 hP 1 (X P ; P ) ; P2 1 2 ou equivalentemente hP hP 1 , P2 2 , P1 (X P , P ) = 2 1 hP 2 (X P ) 2 hP 2 |P1 (X P |P ) . 2 1 (X P , P ) mede a redução média de surpresa por evento do espaço amostral 1 provocada pelo 1 2 conhecimento de um evento do espaço amostral 2. Observe que se os espaços amostrais são independentes, o conhecimento de evento de um espaço amostral não ensina nada sobre o outro espaço amostral. Desta forma a entropia mútua é nula, isto é: hP ,P 1 2 hP (X P ) - hP |P2 (X P |P ) 0 = hP (X P ) - hP |P2 (X P |P ) (X P , P ) = 1 2 1 1 hP 1 |P2 (X P |P ) = 1 2 hP 1 1 1 1 1 1 1 2 2 (X P ) 1 O resultado anterior era o esperado. Já se os espaços amostrais são idênticos (totalmente dependentes), o conhecimento sobre um evento de um espaço amostral ensina tudo sobre o outro espaço amostral. Desta forma, a entropia mútua é a própria entropia de um espaço amostral. Matematicamente temos: hP ,P 1 2 (X P , P ) = 2 hP (X P ) - hP |P2 (X P |P ) (X P ) = hP (X P ) - hP |P2 (X P |P ) 1 hP 1 hP 1 |P2 1 (X P |P ) = 1 1 1 1 1 1 1 1 1 2 2 0 2 O resultado anterior também era o esperado. Reza (1961, cap. 3) faz a analogia destas medidas da teoria da informação com a teoria dos conjuntos. 4 Interpretação Gráfica das Medidas de Entropia MacKay (1999, p. 53) fornece uma interpretação mais precisa sobre as relações entre estas medidas. hP 1 hP 1 ; P2 (X P ; P ) 1 2 (X P ) 1 hP hP 1 |P2 (X P |P ) 1 hP 1 2 2 (X P ) 2 (X P , P ) , P2 1 hP 2 2 |P1 (X P |P ) 2 1 Versões Contínuas das Medidas de Entropia As versões contínuas destas medidas são: § § § § Entropia marginal diferencial: hP Entropia conjunta diferencial: hP 1 1 hP 1 , P2 (X P , P ) = 1 2 ò (X P ; P ) = 1 hP 1 - - 1 ; P2 Entropia condicional diferencial: Entropia mútua: (X P ) = |P2 òò f P ( x ) log 2 f P ( x )dx 1 - 2 1 òò (X P |P ) = 1 - 2 f P ( x ; y ) log 2 f P ( x ; y )d x d y æf ( x ; y ) ö ÷ P ÷ dxdy ÷ ÷ èç f P2 ( y ) ÷ ø ç f P ( x ; y ) log 2 çç òò æ f (x ; y ) P ö ÷ ÷ dxdy ÷ ÷ ( ) ( ) f x f y ÷ èç P1 P2 ø ç f P ( x ; y ) log 2 çç Relação entre Entropia Mútua e Divergência A entropia mútua é a seguinte divergência de Kullback-Liebler: hP 1 , P2 (X P , P ) = d (X P 1 2 ( = d X || X P1 * P2 ( P1 |P2 )* P2 ) || X P1 * P2 ) Ao contrário da divergência, a entropia mútua goza da seguinte propriedade: hP 1 , P2 (X P , P ) = 1 2 hP 2 , P1 (X P , P ) . 2 1 Como a entropia mútua é positiva e simétrica, ela possui propriedades que a tornam candidata a ser uma medida de distância. Uma entropia mútua pode ainda ser definida em função da negentropy estabelecida por Comon (1994). 5 A entropia mútua goza de importantes propriedades conforme Reza (1961, p. 275-8). Ela é a única medida que independe do fato da variável aleatória ser contínua ou discreta em termos de interpretação. Entropia Mútua da Normal Bivariada e sua Relação com o Coeficiente de Correlação e a Independência Estatística Conforme Haykin (1999, 507-8) e Reza (1961, 282-3), no caso de duas variáveis aleatórias terem uma distribuição normal conjunta, a entropia mútua adquire um novo e importante significado. æ ç P = normal çç m = êé0 ë ç çè (X 1; X 2 ) : sX s s 1 2 X1 2 X2 ;X 2 = sX 2 = sX 1 ;X 1 = sX 2 ;X ;X 1 2 é s2 ê X1 = ê ês X ;X ë 2 1 = E P éê X 1 - E P [X 1 ] X 1 ë )( ( = EP 2 - E P2 sX s 1 ;X 2 2 X2 ùö ú÷ ÷ ú÷ ÷ ÷ ú÷ ûø [X 2 ])ù ú û 2 ù é ê X 1 - E P1 [X 1 ] ú ë û ( ) é = EP ê X ë ( 2 ù; s 0ú û - E P [X 2 2 2 ù ]) ú 2 û O coeficiente de correlação é definido como: rX ;X 2 1 sX = s sX = 1 ;X 2 2 s X1 2 X2 ;X 2 1 sX sX 1 2 Portanto, conforme Reza (1961, p. 283), a entropia conjunta é: hP 1 (X P ; P ) = ; P2 1 2 log 2 2 p s X s X 1 2 1 - r X2 1 ;X 2 . A entropia mútua é: hP 1 , P2 (X P , P ) = 1 2 - 1 2 ( 2 log 2 1 - r X 1 ;X 2 ). Note que a entropia mútua depende apenas do coeficiente de correlação. Um teorema da estatística estabelece que se a distribuição conjunta é normal e o coeficiente de correlação é nulo, então as duas variáveis aleatórias são estatisticamente independentes. Por outro lado, quando as duas variáveis aleatórias são estatisticamente independentes, então o coeficiente de correlação é nulo. Desta forma, quando duas variáveis aleatórias são estatisticamente independentes a entropia mútua é nula. Conforme Haykin (1999, p. 514), quando a entropia mútua é nula, as duas variáveis aleatórias são estatisticamente independentes. Black & Weigend (1998) apud Haykin (1999, p. 513) aplicaram a medida de entropia mútua na análise de dados do mercado financeiro com o intuito de extrair dos dados de ações o conjunto de componentes latentes independentes. Trate-se de uma generalização da análise de componentes principais (PCA) que extrai componentes não correlacionadas. 6 Entropia de um Processo Estocástico Markoviano ou Taxa de Entropia Quando duas variáveis aleatórias são independentes, graficamente temos as seguintes relações: hP 1 hP 1 ; P2 (X P ; P ) 1 2 (X P ) 1 hP 2 (X P ) 2 A primeira medida de probabilidade pode ser imagina com a associada a um dado canônico e a segunda a uma moeda canônica. Portanto, a entropia conjunta é: hP 1 ; P2 (X P ; P ) = 1 (X P ) + hP 2 1 1 hP 2 (X P ) 2 = log 2 6 + log 2 2 Note que a entropia mútua é nula. Caso elas sejam independentes e não identicamente distribuídas temos: n hP 1 ; P2 ;...; Pn ( X P ; P ;...; P ) = å 1 2 n i= 1 hP i (X P ) . i Portanto, a entropia de n variáveis aleatórias independentes e identicamente distribuídas é: h P ; P ;...; P ( X P ; P ;...; P )= n h P (X P ). Qual o valor da entropia de um conjunto de variáveis aleatórias dependentes? Inicialmente será estudado o processo estocástico mais simples, isto é, a cadeia de Markov. Conforme Ross (1997, cap. 4), considere um processo estocástico { X n ; n = 0, 1, 2, . . . } . Se X n = i , então o processo é dito estar no estado i no estágio ou instante de tempo n. Seja P r ( X n + 1 = j | X n = i ) = p ij ³ 0 a mesma probabilidade de transição do estado i para o j qualquer que seja n. Isto é, suponha que: P r (X n + 1 = j | X n = i ; X n - para todos os estados i 0 , i1 , . . . , i n - 1 , i , j e todo 1 n ³ = i n - 1 ; . . . ; X 1 = i1 , X 0 0 = i0 ) = p ij . 7 A cadeia de Markov pode ser representada da seguinte maneira pela teoria da informação: hP 1 hP 1 (X P ; P ; P ) ; P2 ; P 3 1 2 3 (X P ) 1 hP 2 (X P ) 2 hP hP 1 |P2 (X P |P ) 1 hP 1 2 hP 2 |P3 , P2 (X P , P ) 1 (X P |P ) 2 hP 3 h Note que h P |P2 (X hP 2 )= P3 |P2 hP ( P2 , P3 )|P1 |P1 (X (X ( P2 |P1 P2 , P 3 )|P1 2 , P3 2 |P1 (X P ) 3 3 (X P |P ) 2 1 (X P , P ) 2 hP 3 3 |P2 (X P3 |P 2 ) ) ) . A entropia conjunta pode ser expressa em termos das condicionais de forma análoga à cadeia de Markov: 3 hP 1 ; P2 ; P 3 2 (X P ; P ; P ) = 1 2 hP (X P ) + hP = hP (X P ) + 2h P 3 1 1 1 1 2 (X P |P ) + |P1 2 2 |P1 hP 1 3 |P2 (X P |P ) 3 (X P |P ) 2 2 . 1 Generalizando, temos que: hP 1 ; P2 ;...; Pn (X P ; P ;...; P ) = 1 n 2 hP 1 (X P ) + 1 nhP 2 |P1 (X P |P ) 2 1 A entropia do terceiro estágio da cadeia de Markov dados os dois primeiros é: h P3 |( P1 ; P2 ) (X P3 |(P1 ; P2 ) )= hP 3 |P2 (X P |P ) = hP 2 |P1 (X P |P ) 3 2 2 1 A entropia do terceiro estágio condicionada aos dois primeiros é a entropia do segundo estágio condicionado ao primeiro. Este resultado vale para qualquer número de estágios consecutivos. Note que este resultado pode ser generalizado conforme Cover & Thomas (1991, p. 66) da seguinte maneira: h Pn |( P1 ; P2 ;...; Pn - 1 ) (X Pn |( P1 ; P2 ;...; Pn - 1 ) )= hP 2 |P1 (X P |P ) . 2 1 8 Conforme Cover & Thomas (1991, p. 66), { X i ; i = 1, 2, . . . , n , . . . } é uma cadeia de Markov esta- cionária com distribuição estacionária P*( ¥ ) e matriz de transição P (1) . Então, a taxa de entropia ou entropia do processo estocástico markoviano é dada pela equação seguinte: E (¥ ) P* 1 (X P ) = (1) n hP 1 ( X P ; P ;...; P ) ; P2 ;...; Pn 1 1 éh (X n êë P1 = 1 = n hP 1 ® hP 2 P1 )+ (X P ) + nhP hP 1 n 2 2 2 |P1 |P1 ( X P |P )ùúû 2 (X P |P ) 2 (X P |P ) quando n |P1 2 1 1 ® ¥ 1 onde X P : (1) { W, { Pi(1) ; i = 1, 2, . . . , m }} a {- P (1) i x = (1) log 2 Pi = h (1) Pi ( X )} (1) Pi m = quantidade de estados A unidade desta medida é bit/estado/estágio e representa a quantidade média de surpresa por evento por estágio do processo markoviano estacionário. Para o caso particular de uma cadeia de Markov de dois estados temos que as matrizes de transição e a distribuição estacionária são, respectivamente: P (¥ ) P* A entropia da variável aleatória hP ¥ (X P ) = ¥ Xn® - éP (1) ê 1 = ê êP (1) êë 2 é1 = ê ê b ëê (1) ¥ b a + b ù ú ú ú ú û ù ú 1- bú ú û a a é b = ê ëêa + b ù ú a + b û ú a é: æ b log 2 çç èa + b a ö æ a ÷ log 2 çç ÷ ÷ ø èa + b a + b ö ÷ ÷ ÷. ø A taxa de entropia do processo markoviano estacionário é: hP 2 |P1 h h (X P |P ) = (1) P1 (1) P2 2 1 æ b ç çè a + b ö ÷ h ÷ ÷ ø P1( 1 ) (X ) + (1) P1 æ a ç èç a + b (X ) = - (1 - a ) log 2 (1 - a ) - a log 2 a (X ) = - (1 - b ) log 2 (1 - b ) - b log 2 b (1) P1 (1) P2 ö ÷ ÷ ÷h P ( 1 ) ø 2 (X ) (1) P2 A superfície da taxa de entropia deste processo markoviano esta representada no gráfico a seguir: 9 As curvas de nível da taxa de entropia deste processo markoviano estão representadas no gráfico a seguir: § Entropia Mútua Total A entropia mútua dos dois primeiros estágios da cadeia de Markov é: h ( P2 , P3 )|P1 (X ( P2 , P3 )|P1 )= hP = hP 1 , P2 (X P , P ) - hP 2 |P 3 (X P2 |P 3 ) 2 , P3 (X P , P ) - hP |P1 (X P2 |P 1 ) 1 2 2 3 2 Poder-se-ia considerar esta última entropia como uma entropia mútua conjunta ou total dos três primeiros estágios consecutivos de uma cadeia de Markov, isto é: 10 h (X ( ( P2 , P3 )|P1 P2 , P 3 )|P1 )= hP 1 , P2 , P 3 (X P , P , P ) . 1 2 3 Desta forma, temos que a entropia mútua conjunta (dependência) dos cadeia de Markov decresce, tendendo para zero, isto é: hP 1 , P2 ,..., Pn (X P , P ,..., P ) ® 1 2 n 0 quando n ® ¥ n primeiros estágios da . Observe que na expressão, a seguir, a medida de probabilidade conjunta entre dois estágios consecutivos da cadeia de Markov aproxima-se cada vez mais do produto das medidas de probabilidade, pois a dependência a cada passo diminui. Desta forma, a divergência tende para zero também. Isto significa que o ganho de informação sucessivo é decrescente. hP n , Pn + 1 (X P , P ) = d (X P n n+1 || X Pn * Pn + 1 ( ( Pn |Pn + 1 )* Pn + 1 ( Pn * Pn + 1 = d X » d X || X ) || X Pn * Pn + 1 Pn * Pn + 1 ) ) = 0 § Relação entre a Entropia de Shannon e a de Boltzmann Tendo por base Cover & Thomas (1991, p. 33-6) pode-se afirmar que o conceito de entropia de Shannon contém o de Boltzmann, pois daquele pode-se derivar este. O conceito de entropia termodinâmica de Boltzmann baseia-se na hipótese de que o comportamento das partículas é aleatório. Desta forma, o próximo estado do sistema fechado apenas depende do estado atual. Este sistema pode ser modelado pela cadeia de Markov. O macroestado mais equilibrado de todos em termos de quantidade de pontos de fase por célula é aquele em que os pontos de fase distribuem-se uniformemente entre as células do sistema fechado. Este macroestado especial pode ser chamado, desta forma de estado de equilíbrio ou de máxima probabilidade termodinâmica. Se o sistema não está em equilíbrio, mudanças ocorrerão no sistema até que o estado de equilíbrio tenha sido atingido. Portanto, a mecânica estatística interpreta o aumento da entropia num sistema fechado como uma conseqüência natural de um sistema tender de um estado menos provável para um mais provável. Quanto maior a desordem de um sistema, maior a sua probabilidade termodinâmica e maior a entropia. O mais alto grau de ordem de um sistema é ter todos os pontos de fase concentrados numa única célula. Neste estado a probabilidade termodinâmica relativa ( w ) é 1 e a entropia é nula. O estado de máxima entropia ou de equilíbrio não é um estado estático, pois os pontos de fase estão em permanente movimento no sistema. Logo, ocasionalmente o sistema diferirá do estado de equilíbrio e conseqüentemente a entropia deixará de ser máxima. Pequenas mudanças são mais prováveis do que as grandes, mas estas não são impossíveis, apenas altamente improváveis. Este fenômeno é estudado na teoria das flutuações (Sears (1955, cap. 15)). Do ponto de vista markoviano, quando o sistema entra em regime estacionário (equilíbrio) significa que a medida de probabilidade associada ao número de microestados do sistema fechado tornase fixa. No sentido termodinâmico esta medida de probabilidade estacionária deve ser uniforme para que a entropia do sistema fechado aumente. No entanto, a medida de probabilidade estacionária uniforme ocorre se, e somente, se a matriz de transição da cadeia de Markov for duplamente estocástica, isto é, se a soma de cada linha e de cada colunas das probabilidades de transição somar um. Evidentemente, no caso mais geral da cadeia de 11 Markov, apenas a soma de cada linha das probabilidades de transição (condicionais) deve somar um. Trata-se, portanto, de uma cadeia de Markov muito particular. Entropia de Shannon Entropia de Boltzmann § Entropia de ordem a e a distinção entre processos caóticos e aleatórios Schützenberger (1954), Rényi (1961) e Pompe (1994) apud Golan et al. (1996, p. 36-7) apresentam o conceito de entropia generalizada. A expressão da entropia discreta generalizada é: n 1 h P (X P ; a ) = 1- a log 2 å p ka i= 1 a Î ¡ A entropia discreta de Shannon é um caso particular da medida anterior quando a ® 1 . Conforme Pompe (1994) apud Golan et al. (1996, p. 37) o parâmetro alfa é utilizado para distinguir processos caóticos dos aleatórios. § Divergência de Amari e a função utilidade hara Samperi (1998, p. 144) relata que a divergência de Kullback-Liebler generalizada de Rényi é: d r [X P ; X T ; a ] = Quando a ® 1, 1 1- a log 2 ò f Pa ( x ) f T1 - a ( x )dx . temos a divergência de Kullback-Liebler: d r [X P ; X T ; a ® 1 ] = ò æf T ( x ) ö ÷ dx ÷ ÷ çè f ( x ) ÷ ø f T ( x ) log 2 çç = d (X T || X P P ) Amari (1996) apud Samperi (1998, p. 144) define outra medida de divergência generalizada: 12 d a [X P ; X T ; a ] = y = ò æf T ( x ) ö ÷ dx ÷ ÷ çè f ( x ) ÷ ø f P ( x ) g a çç P fT (x ) fP (x ) 1+ a ö æ 4 ïì ç1 - y ( 2 ) ÷ ï , a ¹ ÷ ç ï 2 ç ÷ ï ø ï 1- a è ï g a (y ) = ïí y log 2 y , a = 1 ï ï ï - log 2 y , a = - 1 ï ï ï ïî ± 1 Para alfa igual a 1, -1 e 0 temos as duas divergências de Kullback-Liebler e a distância de Hellinger (Samperi (1998, p. 145)). d a [X P ; X T ; a = 1 ] = d ( X d a [X P ; X T ; a = - 1 ] = d ( X d a [X P ; X T ; a = 0 ] = 2 ò P ) || X T || X T P ( fP (x ) - ) 2 f T ( x ) ) dx Samperi (1998, p. 147) apresenta uma tabela, reproduzida a seguir, na qual relaciona a função utilidade hara (hyperbolic absolute risk aversion) (Pratt et al. (1996, apêndice 3) e Luenberger (1998, p. 256)) com a α-divergência de Amari. A função utilidade hara é: g u (x ) = 1 - g æ ax ö ÷ , b > 0 ç + b÷ ÷ ø g çè 1 - g . O coeficiente de aversão ao risco de Arrow-Pratt é: V= a g - ¥ ® 1- -3 -1 0 1 3 1/2 +¥ ® 0± -1 ± ¥ 2 ® 1+ 1 cx + d . Função utilidade hara Linear (neutro ao risco) Quadrática Logarítmica Inversa (competitiva) Exponencial Quadrática Linear (neutro ao risco) Como pode ser observado, há uma estreita conexão entre função utilidade e divergência. Neste momento temos definido o caminho da integração entre teoria da informação e teoria estatística bayesiana da decisão. A tese de Samperi (1998) abre esta possível unificação de abordagens. 13 BIBLIOGRAFIA COMON, P. 1994. "Independent component analysis. A new concept?" Signal Processing 36: 287314. COVER, T. M. & THOMAS, J. A. 1991. Elements of information theory. New York: John Wiley & Sons. GOLAN, A.; JUDGE, G. & MILLER, D. 1996. Maximum entropy econometrics: robust estimation with limited data. New York: John Wiley & Sons. GULKO, B. (Les). 1998. “The entropic pricing theory.” Tese de doutorado. Orientador: Jonathan E. Ingersoll, Jr. Yale University. HAYKIN, S. 1999. Neural networks: a comprehensive foundation. 2ª ed. New Jersey: Prentice Hall. KELLY, Jr., J. L. 1956. “A new interpretation of information rate.” Bell System Technical Journal 35: 917-926. KULLBACK, S. 1997. Information theory and statistics. New York: Dover. LENCE, S. H. & MILLER, D. J. 1998. “Recovering output-specific inputs from aggregate input data: a generalized cross-entropy approach.” American Journal of Agricultural Economics 80: 852-67. LUENBERGER, D. G. 1998. Investment science. New York: Oxford University Press. MACKAY, D. J. C. 1995. A short course in information theory - outline. MACKAY, D. J. C. 1999. Information theory, inference, and learning algorithms. Versão preliminar. PRATT, J. W; RAIFFA, H. & SCHLAIFER, R. 1996. Introduction to statistical deciosion theory. 2ª reimpressão. Cambridge, Massachusetts: The MIT Press. REZA, F. M. 1994. An introduction to information theory. Reimpressão da publicação de 1961 pela McGraw-Hill Electrical and Electronic Engineering Series. New York: Dover Publications. ROSS, S. M. 1997. Introduction to probability models. 6ª ed. San Diego, CA: Academic Press. SAMPERI, D. 1998. “Inverse problems, model selection and entropy in derivative security pricing.” Tese de doutorado. Orientador: Marco Avellaneda. Departamento de Matemática da Graduate School of Arts and Sciences da Universidade de New York. SEARS, F. W. 1955. An introduction to thermodynamics, the kinetic theory of gases, and statistical mechanics. 2ª ed. Cambridge: Addison-Wesley. WOLF, D. R. 1996. “Information and correlation in statistical mechanical systems.” http://dino.ph.utexas.edu/~wolf/wd. YANG, Y. 1997. “Maximum entropy option pricing.” Tese de doutorado. Orientador: Paul Beaumont. The Florida State University – College of Social Science. 14