Tópicos Especiais em Redes: Introdução a Teoria dos Jogos com

Propaganda
Tópicos Especiais em Redes:
Introdução a Teoria dos Jogos
com Aplicações a Redes de
Computadores
Aula passada:
Jogos repetidos
infinitamente
Aula de hoje:
Introdução a Teoria dos
Jogos Evolucionária
Dinâmica do replicador
ESS
Figueiredo – de Souza e Silva –
Teoria dos Jogos Clássica
Assume jogadores são racionais
Maximizam suas recompensas e sabem
que os outros jogadores fazem o mesmo
Decidem estratégia (plano de ação) antes
de jogarem
Problemas:
Como obter melhor estratégia?
Falta de prescrição única de jogo
múltiplos equilíbrios de Nash
Figueiredo – de Souza e Silva –
Teoria dos Jogos Evolucionária
Jogo repetido infinitas vezes
Jogadores possuem uma dinâmica de
adaptação de estratégia
jogadores mudam de estratégia ao longo do jogo
Adaptação melhora desempenho do jogador
Vantagens:
Jogadores não mais precisam ser racionais
Equilíbrio surge naturalmente
convergência do processo adaptativo
Figueiredo – de Souza e Silva –
Exemplo
Dois usuários compartilham canal de acesso
Ouvem música via Internet
Escolher entre 3 codificações do audio
diferentes taxas (8Kbps, 24Kbps, 64Kbps)
Barbara
Alberto
8Kbps
24Kbps
64Kbps
8Kbps
2,0 ; 2,0
3,0 ; 2,1
3,5 ; 2,3
24Kbps
2,1 ; 3,0
4,0 ; 4,0
3,8 ; 3,1
64Kbps
2,3 ; 3,5
3,1 ; 3,8
3,3 ; 3,3
MOS
(medida de qualidade)
A que taxa receber o audio?
Processo dinâmico para adaptar estratégias!
Figueiredo – de Souza e Silva –
Processo Dinâmico
Barbara
Alberto
8Kbps
24Kbps
64Kbps
8Kbps
2,0 ; 2,0
3,0 ; 2,1
3,5 ; 2,3
24Kbps
2,1 ; 3,0
4,0 ; 4,0
3,8 ; 3,1
64Kbps
2,3 ; 3,5
3,1 ; 3,8
3,3 ; 3,3
Modelar processo dinâmico da evolução das
estratégias no jogo (tempo)
“como jogar quando o outro joga de determinada
forma”
Exemplo?
Dinâmica da melhor resposta
leva ao diagrama de movimento
Figueiredo – de Souza e Silva –
Processo Dinâmico
Barbara
Alberto
8Kbps
24Kbps
64Kbps
8Kbps
2,0 ; 2,0
3,0 ; 2,1
3,5 ; 2,3
24Kbps
2,1 ; 3,0
4,0 ; 4,0
3,8 ; 3,1
64Kbps
2,3 ; 3,5
3,1 ; 3,8
3,3 ; 3,3
Melhor resposta por ser difícil (como saber?)
Idéia
Mudar para estratégia que oferece algum
ganho
mudança proporcional ao ganho
Construir diagrama de transição
Figueiredo – de Souza e Silva –
Diagrama de Transição
Estado: estratégia atual dos jogadores
uma variável de estado para cada estratégia do
jogo base
Valor indica número de jogadores com usando a
estratégia
N1 , N2 , N3
Número de jogadores
utilizando a estratégia 3
Transição: somente quando recompensa
aumenta
taxa de transição: propensão da mudança
Figueiredo – de Souza e Silva –
Diagrama de Transição
Barbara
Alberto
8Kbps
24Kbps
64Kbps
8Kbps
2,0 ; 2,0
3,0 ; 2,1
3,5 ; 2,3
24Kbps
2,1 ; 3,0
4,0 ; 4,0
3,8 ; 3,1
64Kbps
2,3 ; 3,5
3,1 ; 3,8
3,3 ; 3,3
Jogo com 2 jogadores
Jogo evolui para o estado (0, 2, 0)
equilíbrio é esperado (ou conhecido)?
Figueiredo – de Souza e Silva –
Dinâmica do Replicador
Assuma milhares de jogadores (infinito)
uma população
Estado: percentual de jogadores que
adotam cada estratégia no instante t
para cada estratégia i,
∑i xi t=1
0xi t1
Tempo contínuo (jogo está sendo jogado
continuamente)
Qual é a recompensa de um jogador que
adote a estratégia si ?
Figueiredo – de Souza e Silva –
Calculando a Recompensa
Dado um estado
xt= x1t ,... , xM t
Recompensa para jogador que adota si
M
ui  xt=∑ j=1 ui  si ,s j  x j t
Valor do jogo base
Prob. de jogar contra um jogador
que adote estratégia sj
Recompensa média do jogo
M
u xt=∑ j=1 ui  xt xi t
Recompensa da estratégia si
Figueiredo – de Souza e Silva –
Determinando Transições
A cada instante pequeno, jogadores mudam
de estratégia
pi, j t=ui  xt−u j  xt
probabilidade
normalização
se diferença > 0
Diferença de recompensas
Mudança de estado (derivada no tempo)
'
i
x t= xi tui  xt−u xt
derivada
comparação com a média
Conjunto de equações diferenciais
Figueiredo – de Souza e Silva –
Dinâmica do Replicador
'
i
x t= xi tui  xt−u xt
Estratégias com recompensas menor ou
maior que média
diminuem ou aumentam fração da população
Indivíduos adotam estratégias que possuem
recompensas mais altas
Sistema dinâmico é determinístico (equações
diferenciais)
Estratégia não possui variação se
recompensa é igual a média
Equilíbrio:
'
i
x t=0 para todo i
Figueiredo – de Souza e Silva –
Exemplo
Jogo da águia-pombo-burguês
Burguês se comporta como águia ou pombo
Águia
Pombo
Burguês
Águia
(v-c)/2
v
(3v-c)/4
Pombo
0
v/2
v/4
Burguês
(v-c)/4
3v/4
v/2
Jogo simétrico
População inicial:
x0=0.75, 0.11, 0.14
Parâmetros: v = 50, c = 100
Qual é o equilíbrio?
Para qual ponto o sistema converge?
Figueiredo – de Souza e Silva –
Comparando Dinâmicas
Diferenças entre as duas dinâmicas?
diagrama de transição
dinâmica do replicador
Figueiredo – de Souza e Silva –
Estratégias Evolucionariamente
Estáveis (ESS)
Estratégia: fração (ou número) da
população adotando cada uma das
estratégia do jogo base: = 1, ... , M
ESS: propriedade de uma estratégia
Uma estratégia = 1, ... , M é dita ESS se
ela não pode ser invadida por outra
estratégia
Figueiredo – de Souza e Silva –
Calculando Recompensas
Recompensa entre um indivíduo (que adota
uma estratégia do jogo base) e uma
população
M
i =∑ j=1 u si ,s j  j
Recompensa média de uma população
= 1, ... , M contra a população = 1, ... , M
M
 =∑i=1 i  i
Em geral  ≠
Figueiredo – de Souza e Silva –
Mutantes e Invasão de
Estratégias
Considere a estratégia = 1, ... , M
Considere uma nova população onde uma
fração 0dos jogadores muda para
estratégia sj
mutantes:
=1− s j
Recompensa de um não-mutante:  
Recompensa de um mutante:  j 
Mutantes invadem estratégia  se
 j  
Figueiredo – de Souza e Silva –
ESS – Evolutionary Stable
Strategies
Uma estratégia = 1, ... , M é uma ESS se
não pode ser invadida por nenhum tipo de
mutante
Não requer descrição da dinâmica do jogo
Intuição: equilíbrio é robusto a mudanças
Relação com equilíbrio de Nash?
Equilíbrio de Nash: jogo base entre dois
jogadores jogando estratégias mistas de
acordo com = 1, ... , M
Figueiredo – de Souza e Silva –
Exemplo
Considere o jogo
1
2
1
1, 1
1, 1
2
1, 1
2, 2
Equilíbrios de Nash?
Tais estratégias são ESS?
Figueiredo – de Souza e Silva –
Download