Tópicos Especiais em Redes: Introdução a Teoria dos Jogos com Aplicações a Redes de Computadores Aula passada: Jogos repetidos infinitamente Aula de hoje: Introdução a Teoria dos Jogos Evolucionária Dinâmica do replicador ESS Figueiredo – de Souza e Silva – Teoria dos Jogos Clássica Assume jogadores são racionais Maximizam suas recompensas e sabem que os outros jogadores fazem o mesmo Decidem estratégia (plano de ação) antes de jogarem Problemas: Como obter melhor estratégia? Falta de prescrição única de jogo múltiplos equilíbrios de Nash Figueiredo – de Souza e Silva – Teoria dos Jogos Evolucionária Jogo repetido infinitas vezes Jogadores possuem uma dinâmica de adaptação de estratégia jogadores mudam de estratégia ao longo do jogo Adaptação melhora desempenho do jogador Vantagens: Jogadores não mais precisam ser racionais Equilíbrio surge naturalmente convergência do processo adaptativo Figueiredo – de Souza e Silva – Exemplo Dois usuários compartilham canal de acesso Ouvem música via Internet Escolher entre 3 codificações do audio diferentes taxas (8Kbps, 24Kbps, 64Kbps) Barbara Alberto 8Kbps 24Kbps 64Kbps 8Kbps 2,0 ; 2,0 3,0 ; 2,1 3,5 ; 2,3 24Kbps 2,1 ; 3,0 4,0 ; 4,0 3,8 ; 3,1 64Kbps 2,3 ; 3,5 3,1 ; 3,8 3,3 ; 3,3 MOS (medida de qualidade) A que taxa receber o audio? Processo dinâmico para adaptar estratégias! Figueiredo – de Souza e Silva – Processo Dinâmico Barbara Alberto 8Kbps 24Kbps 64Kbps 8Kbps 2,0 ; 2,0 3,0 ; 2,1 3,5 ; 2,3 24Kbps 2,1 ; 3,0 4,0 ; 4,0 3,8 ; 3,1 64Kbps 2,3 ; 3,5 3,1 ; 3,8 3,3 ; 3,3 Modelar processo dinâmico da evolução das estratégias no jogo (tempo) “como jogar quando o outro joga de determinada forma” Exemplo? Dinâmica da melhor resposta leva ao diagrama de movimento Figueiredo – de Souza e Silva – Processo Dinâmico Barbara Alberto 8Kbps 24Kbps 64Kbps 8Kbps 2,0 ; 2,0 3,0 ; 2,1 3,5 ; 2,3 24Kbps 2,1 ; 3,0 4,0 ; 4,0 3,8 ; 3,1 64Kbps 2,3 ; 3,5 3,1 ; 3,8 3,3 ; 3,3 Melhor resposta por ser difícil (como saber?) Idéia Mudar para estratégia que oferece algum ganho mudança proporcional ao ganho Construir diagrama de transição Figueiredo – de Souza e Silva – Diagrama de Transição Estado: estratégia atual dos jogadores uma variável de estado para cada estratégia do jogo base Valor indica número de jogadores com usando a estratégia N1 , N2 , N3 Número de jogadores utilizando a estratégia 3 Transição: somente quando recompensa aumenta taxa de transição: propensão da mudança Figueiredo – de Souza e Silva – Diagrama de Transição Barbara Alberto 8Kbps 24Kbps 64Kbps 8Kbps 2,0 ; 2,0 3,0 ; 2,1 3,5 ; 2,3 24Kbps 2,1 ; 3,0 4,0 ; 4,0 3,8 ; 3,1 64Kbps 2,3 ; 3,5 3,1 ; 3,8 3,3 ; 3,3 Jogo com 2 jogadores Jogo evolui para o estado (0, 2, 0) equilíbrio é esperado (ou conhecido)? Figueiredo – de Souza e Silva – Dinâmica do Replicador Assuma milhares de jogadores (infinito) uma população Estado: percentual de jogadores que adotam cada estratégia no instante t para cada estratégia i, ∑i xi t=1 0xi t1 Tempo contínuo (jogo está sendo jogado continuamente) Qual é a recompensa de um jogador que adote a estratégia si ? Figueiredo – de Souza e Silva – Calculando a Recompensa Dado um estado xt= x1t ,... , xM t Recompensa para jogador que adota si M ui xt=∑ j=1 ui si ,s j x j t Valor do jogo base Prob. de jogar contra um jogador que adote estratégia sj Recompensa média do jogo M u xt=∑ j=1 ui xt xi t Recompensa da estratégia si Figueiredo – de Souza e Silva – Determinando Transições A cada instante pequeno, jogadores mudam de estratégia pi, j t=ui xt−u j xt probabilidade normalização se diferença > 0 Diferença de recompensas Mudança de estado (derivada no tempo) ' i x t= xi tui xt−u xt derivada comparação com a média Conjunto de equações diferenciais Figueiredo – de Souza e Silva – Dinâmica do Replicador ' i x t= xi tui xt−u xt Estratégias com recompensas menor ou maior que média diminuem ou aumentam fração da população Indivíduos adotam estratégias que possuem recompensas mais altas Sistema dinâmico é determinístico (equações diferenciais) Estratégia não possui variação se recompensa é igual a média Equilíbrio: ' i x t=0 para todo i Figueiredo – de Souza e Silva – Exemplo Jogo da águia-pombo-burguês Burguês se comporta como águia ou pombo Águia Pombo Burguês Águia (v-c)/2 v (3v-c)/4 Pombo 0 v/2 v/4 Burguês (v-c)/4 3v/4 v/2 Jogo simétrico População inicial: x0=0.75, 0.11, 0.14 Parâmetros: v = 50, c = 100 Qual é o equilíbrio? Para qual ponto o sistema converge? Figueiredo – de Souza e Silva – Comparando Dinâmicas Diferenças entre as duas dinâmicas? diagrama de transição dinâmica do replicador Figueiredo – de Souza e Silva – Estratégias Evolucionariamente Estáveis (ESS) Estratégia: fração (ou número) da população adotando cada uma das estratégia do jogo base: = 1, ... , M ESS: propriedade de uma estratégia Uma estratégia = 1, ... , M é dita ESS se ela não pode ser invadida por outra estratégia Figueiredo – de Souza e Silva – Calculando Recompensas Recompensa entre um indivíduo (que adota uma estratégia do jogo base) e uma população M i =∑ j=1 u si ,s j j Recompensa média de uma população = 1, ... , M contra a população = 1, ... , M M =∑i=1 i i Em geral ≠ Figueiredo – de Souza e Silva – Mutantes e Invasão de Estratégias Considere a estratégia = 1, ... , M Considere uma nova população onde uma fração 0dos jogadores muda para estratégia sj mutantes: =1− s j Recompensa de um não-mutante: Recompensa de um mutante: j Mutantes invadem estratégia se j Figueiredo – de Souza e Silva – ESS – Evolutionary Stable Strategies Uma estratégia = 1, ... , M é uma ESS se não pode ser invadida por nenhum tipo de mutante Não requer descrição da dinâmica do jogo Intuição: equilíbrio é robusto a mudanças Relação com equilíbrio de Nash? Equilíbrio de Nash: jogo base entre dois jogadores jogando estratégias mistas de acordo com = 1, ... , M Figueiredo – de Souza e Silva – Exemplo Considere o jogo 1 2 1 1, 1 1, 1 2 1, 1 2, 2 Equilíbrios de Nash? Tais estratégias são ESS? Figueiredo – de Souza e Silva –