conceitos e técnicas básicas da teoria dos jogos aplicadas em

Propaganda
CONCEITOS E TÉCNICAS BÁSICAS DA TEORIA DOS JOGOS APLICADAS
EM REDES SEM FIO
Sergio L. de Freitas Maia, Paulo R. Guardieiro
Universidade Federal de Uberlândia, Faculdade de Engenharia Elétrica, Uberlândia-MG,
[email protected], [email protected]
Resumo – A teoria dos jogos nos últimos anos vem
sendo cada vez mais utilizada na análise de arquiteturas
distribuídas, dinâmicas e auto-organizáveis das redes sem
fio do tipo ad hoc, rede de sensores e redes mesh.
Infelizmente, livros textos e tutoriais sobre teoria dos
jogos que adotam especificamente cenários de redes sem
fio são escassos. Devido a essa lacuna, pretende-se com
este tutorial introdutório oferecer ao leitor com interesses
na área de redes de sem fio que não conhece a teoria dos
jogos a oportunidade de um primeiro contato com os
fundamentos básicos da teoria. Com uma abordagem
básica e intuitiva, exemplos simples de problemas
relativos às camadas de uma pilha de protocolos de uma
rede sem fio são usados para auxiliar estudantes e
interessados no entendimento de como podem ser
modelados em jogos não cooperativos.
Palavras-Chave – Redes sem Fio, Teoria dos Jogos.
BASICS CONCEPTS AND THECHNIQUES
IN GAME THEORY APPLIED TO
WIRELESS NETWORK
Abstract - In recent years, game theory has been more
and more used in analysis of distributed, dynamic, selforganizing wireless network architectures, such as ad hoc
networks, sensor networks and mesh networks.
Unfortunately, there are not enough textbooks and
tutorials deal with applications of game theory in
wireless. Because of this void, we intend with this
introductory tutorial to provide for the reader with
interests in the area of wireless networks who doesn’t
know the game theory a first contact with fundamentals
basic of theory. With a basic and intuitive approach,
simple examples of issues concerning at layers in the
protocol stack of wireless network are used to help
students and scholars to understand how issues this kind
can be modeled in non-cooperative games.
1
Keywords – Game Theory, Wireless Network
I. INTRODUÇÃO
A teoria dos jogos fornece uma base matemática para a
descrição e análise de processos de decisão de agentes que
interagem entre si em situações de conflito e cooperação. Ela
oferece uma coleção de ferramentas de modelagem para a
previsão de resultados de interações complexas entre agentes
racionais que, apoiados em raciocínios lógicos, extraem
conclusões a partir de premissas justificadas através de
argumentos racionais [1]. Empregada principalmente em
economia, no intuito de modelar competição entre empresas,
somente partir dos anos 90 é que a engenharia e a ciência da
computação passaram a relacionar aplicações baseadas na
teoria dos jogos [2]. Em relação às aplicações em
telecomunicação, é possível encontrar uma vasta literatura
sobre controle de fluxo e congestionamento, roteamento,
alocação de recursos e provisão de qualidade de serviço,
entre outros. Um levantamento abrangente dos diferentes
conceitos de solução e modelagem da teoria dos jogos usados
em telecomunicações pode ser encontrado em [3].
No contexto das redes sem fio, uma vez que a teoria dos
jogos é um estudo da interação de agentes autônomos, sua
aplicação ajuda na análise dos sistemas distribuídos. Nas
redes sem fio emergentes, como redes de sensores, redes
mesh, redes ad-hoc e sistemas de computação pervasiva, as
características frequentemente desejadas são operação
descentralizada,
autoconfiguração
e
controle
de
potência/energia [2]. Nessas redes, cada nó executando um
protocolo distribuído deve tomar suas próprias decisões
sobre potência de transmissão, encaminhamento de pacotes e
tempo de espera aleatório (backoff time), entre outras. Ao
tomar essas decisões, os nós podem pretender melhorar o
desempenho de toda a rede, ou ainda, agindo de modo
egoísta visando atingir apenas seus próprios interesses. Outro
caso seria a ação do nó malicioso que procura deteriorar o
desempenho da rede. Portanto, estes cenários são apropriados
para a modelagem de um jogo em que as decisões de cada
agente terão consequências sobre os resultados relevantes
para os outros agentes. Dessa forma, caso os agentes sejam
camadas de uma pilha de protocolos, por exemplo, os
resultados obtidos podem oferecer sugestões para cooperação
entre camadas, por vezes necessária na otimização do
desempenho das redes ad hoc (cross-layer optimization).
Outro benefício a ser destacado é permitir novas abordagens
de mecanismos que levem participantes independentes a
atingirem resultados que sejam desejáveis sob o ponto de
vista da rede com um todo.
Como a maioria dos textos introdutórios sobre teoria dos
jogos costuma trazer referências e aplicações às áreas de
economia, administração e ciências sociais, a razão deste
artigo é apresentar os conceitos e técnicas básicas de
resolução de jogos aplicáveis na resolução de problemas
típicos encontrados em cenários de redes sem fio. O objetivo
é despertar o leitor sem nenhum (ou muito pouco)
conhecimento da teoria dos jogos para a utilização dessa
TABELA I
A Classificação dos Exemplos de Acordo
com as Camadas de Protocolos.
Camadas
Transporte
Rede
Acesso ao meio
Física
Jogo
Jogo de controle de admissão
Jogo de repasse de pacotes
Jogo de controle de acesso ao meio
Jogo de controle do nível de potência
fascinante ferramenta analítica em estudos na área de redes
sem fio. Para isso, optou-se por uma abordagem mais básica
e intuitiva nos moldes adotado por Fiani em [1]. Conforme
também ocorre em [6], os conceitos e métodos são
apresentados a partir da modelagem em jogos de quatro
exemplos que representam problemas relativos às diferentes
camadas de uma pilha de protocolos (Tabela I). Estes
problemas têm em comum o fato de serem jogos não
cooperativos, em que os agentes participantes não podem
estabelecer compromissos garantidos, o que demandaria
sinalizações e acordos entre os tomadores de decisão se o
jogo fosse considerado jogo cooperativo. Consequentemente,
o modelamento de um sistema distribuído em um jogo
cooperativo resultaria em maiores dificuldades em encontrar
soluções.
Considerando o extenso assunto sobre teoria dos jogos [4],
selecionou-se para este trabalho tópicos que, citados de
forma condensada, sem o tratamento matemático pertinente,
pudessem servir para o propósito do artigo. A opção foi pela
introdução de conceitos e métodos que, apoiados na lógica
racional dos participantes do jogo, fossem apropriados para a
implementação de algoritmos a serem executados pelos
dispositivos que operam em redes sem fio. Dessa forma, na
seção II é apresentado o conceito e a forma de representação
dos jogos simultâneos. Métodos da eliminação iterativa
estritamente dominada, equilíbrios de Nash em estratégias
puras e mistas são descritas na seção III. A definição e a
forma de representação de jogos sequenciais são tratadas na
seção IV. A seção V apresenta uma maneira racional de
encontrar equilíbrios perfeitos em jogos sequenciais,
inclusive com um exemplo de movimento estratégico. E
finalmente, a conclusão deste trabalho é mostrada na seção
VI.
II. JOGOS SIMULTÂNEOS
A. Conceitos básicos
Um jogo não cooperativo é construído sobre três
componentes básicos: um conjunto de jogadores (tomadores
de decisão), um conjunto de ações e um conjunto de
preferências. Os jogadores tomam suas decisões em situação
de interdependência mútua definida como situação de
processo interação estratégica. O processo de interação pode
transcorrer em uma única etapa (jogo simultâneo ou estático)
ou em mais de uma etapa (jogo sequencial ou dinâmico). Em
um sistema de rede sem fio, os jogadores mais frequentes são
os nós da rede, mas também podem ser entidades mais gerais
como conjunto de servidores ou redes completas. As ações
são as alternativas a disposição para cada jogador. Uma
estratégia é um plano de ações que especifica, para um
determinado jogador, que ação tomar em todos os momentos
em que ele terá de decidir o que fazer. Em jogos dinâmicos, o
conjunto de ações pode alterar com o tempo. Em redes sem
fio, estratégia inclui a escolha do esquema de modulação,
taxa de codificação, protocolo, parâmetros de controle de
fluxo, nível de potência de transmissão ou qualquer outro
fator que esteja sob controle do nó. Quando cada jogador
escolhe uma estratégia, o perfil de estratégia resultante
determina o resultado do jogo.
Finalmente, uma relação de preferência para cada jogador
representa qual a avaliação do jogador para todos os
possíveis resultados. Valores são atribuídos aos resultados do
jogo respeitando o ordenamento de preferências do jogador
através de uma função matemática denominada função de
utilidade ou de recompensa. Portanto, valores de recompensa
maiores representam resultados mais desejáveis para o
jogador. Em cenários de redes sem fio, um jogador pode
preferir resultados com maiores valores de relação sinalruído, baixa taxa de erros, conectividade de rede mais
robusta e menor gasto de energia, embora em muitas
situações práticas esses objetivos sejam conflitantes. Modelar
apropriadamente essas preferências é um dos aspectos mais
desafiadores da aplicação da teoria dos jogos [2].
A forma estratégica ou normal é a maneira usual de
representar os diferentes componentes (jogadores, ações e
recompensas) de um jogo simultâneo. Formalmente, uma
forma normal de um jogo é dada por = ⟨ , , { }⟩ onde
= {1,2,3, … , } é o conjunto de jogadores, é o conjunto
de estratégias puras disponíveis para cada jogador ,
= { × × … × } é o produto cartesiano dos conjuntos
de estratégias disponíveis para cada jogador e { } =
{ , , … , } o conjunto com as funções de recompensas de
cada jogador que deseja maximizar, onde : → ℝ. Para
todo jogador a sua recompensa é dada em função da sua
estratégia escolhida ∈
e das estratégias escolhidas por
todos os outros jogadores denotadas como
. Portanto, o
perfil de estratégia = ( , ) é o vetor contendo as
estratégias de todos os jogadores.
B. Representação em forma normal
Para ilustrar esses primeiros conceitos básicos, considere
uma rede de sensores sem fio onde os nós sensores têm a
capacidade de coletar dados e encaminhá-los através de uma
arquitetura de múltiplos saltos (multihop) para um coletor.
Por causa das comumente severas restrições de hardware e
uso de baterias desses sensores, pode haver nós que apenas
aproveitam da disposição de outros nós para repassar
pacotes, porém nunca contribuem para o repasse de pacotes
originados de outras fontes. Evidentemente, se todos os nós
tiverem o mesmo comportamento, o sistema multihop não
funcionará porque nenhum nó se disponibilizará para
repassar os pacotes em direção ao coletor. Para simplificar,
considere uma rede com três nós sensores (sem considerar o
nó coletor), em que n=3 e
={
1,
2,
3}. Cada nó sensor tem a opção de repassar ou não.
Portanto, o conjunto de estratégias puras para cada jogador
é
={
, ã
}. A recompensa para
cada jogador é dada pela soma dos benefícios que ele
experimenta quando outros jogadores aceitam repassar e dos
custos que ele fica sujeito por efetuar o encaminhamento dos
pacotes. Devido às restrições de recursos consideradas, o
jogador se beneficia do valor de 1 unidade para cada jogador
TABELA II
Jogo em Forma Estratégica ou Normal para o
Jogo de Repasse de Pacotes entre Três Jogadores de
Uma Rede de Sensores Sem Fio.
Sensor 2
Repassar
Não repassar
Repassar
0,5, 0,5, 0,5
-0,5, 2, -0,5
Não Repassar
2, -0,5, -0,5
1, 1, -1,5
Sensor 1
Sensor 3 = Repassar
Sensor 2
Repassar
Não repassar
Repassar
-0,5, -0,5, 2
-1,5, 1, 1
Não repassar
1, -1,5, 1
0, 0, 0
Sensor 1
Sensor 3 = Não repassar
que oferece o serviço de repasse e arca com um custo de 1,5
unidades quando ele próprio efetua o repasse. Este jogo pode
ser representado em forma estratégica como na Tabela II. A
forma estratégica apresenta as recompensas acumuladas para
os sensores 1, 2 e 3, respectivamente, para cada perfil de
estratégia possível. Neste caso, é preferível representar o
espaço de estratégias em duas tabelas bidimensionais do que
representar as três dimensões do espaço de estratégias em um
único objeto. Observe que o perfil de estratégia (
,
,
) que maximiza a recompensa
agregada pode indicar o bem estar do ponto de vista da rede.
Entretanto, não é claro que existam incentivos intrínsecos
para os jogadores escolherem esta estratégia. A questão de
maior interesse é determinar o resultado mais apropriado
para este tipo de jogo.
III. DETERMINAÇÃO DE SOLUÇÕES EM JOGOS
SIMULTÂNEOS
A. Eliminação iterativa de estratégias estritamente
dominadas
Embora não exista uma técnica geral que permita
encontrar uma solução em todos os jogos (quando tal solução
existir), alguns jogos podem ser resolvidos por eliminação
iterativa de estratégias estritamente dominadas.
Considere o jogo da Tabela II. Note que,
independentemente do que os demais jogadores decidem,
jamais será uma boa ideia para o jogador sensor 3 selecionar
=
: esta estratégia é estritamente dominada pela
outra das duas estratégias a disposição do sensor 3. Ao
assumir que existe uma racionalidade na tomada de decisão
do sensor 3, pode-se eliminar o primeiro quadro com os
perfis de estratégias que considera a opção de Repassar para
o sensor 3 dos resultados mais prováveis para este jogo. Uma
vez feito isso, observe que a estratégia do sensor 2
=
ã
domina a estratégia
=
e,
portanto, é razoável para o sensor 2 selecionar a primeira
opção. Finalmente, se o jogador 2 seleciona a estratégia
s = ã
, nós esperamos que o jogador sensor 1
selecione
= ã
. Assim, pela eliminação
iterativa de estratégias estritamente dominadas podemos
prever que o resultado para este jogo será o equilíbrio de
estratégias estritamente dominantes (Não repassar, Não
repassar, Não repassar), que implica uma recompensa de
valor zero para todos os jogadores.
Não obstante a simplicidade do método de eliminação
iterativa de estratégias estritamente dominadas, ele apresenta
sérias limitações: dependendo do processo de eliminação
pode-se ter mais de uma estratégia de equilíbrio ou mesmo
ocasiões em que os jogos simplesmente não apresentam
estratégias dominadas. Portanto, é necessário um conceito
mais geral para determinar resultados de jogos: o conceito de
equilíbrio de Nash.
B. O equilíbrio de Nash em estratégias puras
Um equilíbrio em estratégias é escolhido pelos jogadores
com a intenção de maximizar suas recompensas individuais.
Em teoria dos jogos, o equilíbrio de Nash é uma combinação
de estratégias onde nenhum jogador pode aumentar sua
recompensa por mudar apenas sua própria estratégia
unilateralmente. Se cada jogador escolheu uma estratégia e
nenhum jogador pode se beneficiar pela mudança da sua
estratégia enquanto os outros jogadores mantêm suas
escolhas inalteradas, então esta combinação de estratégias
escolhidas e as recompensas correspondentes constituem um
equilíbrio de Nash. É importante observar que este equilíbrio
resultante da interação das escolhas racionais das estratégicas
pelos jogadores não necessariamente os levará a uma melhor
situação resultante possível. Para isso, a teoria dos jogos
considera que uma combinação de estratégias é dita ótimo de
Pareto quando os ganhos de eficiências não são mais
possíveis. Em seguida, será introduzido o jogo de controle de
nível de potência entre aparelhos celulares para melhor
compreensão das características de um equilíbrio de Nash.
O problema na operação de redes de telefonia celular é
que o gerenciamento de recursos de rádio ou RRM (Radio
Resource Management) é essencial para promover a
qualidade e eficiência de um sistema de comunicação sem
fio. Um dos componentes RRM é o controle de potência. A
principal proposta do controle de potência é oferecer a cada
sinal a qualidade adequada sem que cause interferências
desnecessárias aos outros sinais [5]. Como exemplo, na
sequencia é discutido um simples jogo de controle de
potência do sinal de rádio em que os jogadores são telefones
celulares dentro da área de uma célula. Considere que é um
jogo entre dois jogadores e a Tabela III mostra a
representação de uma situação de interação estratégica entre
eles. A ação de cada jogador é no sentido de escolher o nível
de potência do sinal a ser empregado na transmissão.
A questão de definir a função de utilidade, como é usual, é
das mais difíceis questões. Por simplicidade, considere que a
recompensa esperada por cada jogador é uma função da sua
SINR (Signal to Interference plus Noise Ratio), ou seja, da
relação entre a sua própria potência do sinal desejado e a
potência do outro jogador da célula mais o ruído. Maiores
SINR são desejáveis, pois garantem ao jogador as melhores
condições possíveis do canal de comunicação. Contudo, se
um jogador aumenta sua potência para compensar a
diminuição da sua SINR causada pela decisão do outro
jogador em aumentar a potência, uma vez alcançado o
equilíbrio, os jogadores estarão gastando uma energia além
da necessária, diminuindo a vida útil de suas baterias. Se um
jogador aumenta seu nível de potência, enquanto o outro não,
TABELA III
O Jogo de Controle de Potência
Identificando Equilíbrios de Nash
Celular 2
Aumenta
Não aumenta
Aumenta
-20, -20
(l)10, -10 (c)
Não aumenta
(l)-10, 10 (c)
0, 0
Celular 1
o jogador que aumenta a potência elevará sua própria SINR,
mas diminuirá a SINR do outro jogador. Evidentemente,
quando nenhum dos jogadores escolhe por elevar suas
potências, tudo fica inalterado, e nenhuma taxa SINR
aumenta ou diminui. Como pode ser constatado na Tabela
III, este jogo não permite encontrar um equilíbrio em
estratégias estritamente dominadas. Porém, é possível aplicar
o conceito de equilíbrio de Nash para encontrar situações em
que os jogadores não teriam estímulos para mudar suas
decisões.
Uma das formas de fazer isso é indicar com a letra “l” ao
lado da recompensa a melhor resposta do jogador que está
nas linhas para o que o jogador que está nas colunas está
fazendo. E assinalar com “c” a melhor resposta do jogador
que está nas colunas para uma dada estratégia do jogador que
está nas linhas. As combinações de estratégias que
satisfazem à condição de equilíbrio de Nash são aquelas
assinaladas tanto com um (l) como com um (c). A aplicação
desse método ao jogo de controle de potência também pode
ser visto na Tabela III. Observe que existem dois equilíbrios
de Nash: (Aumenta, Não aumenta) e (Não aumenta,
Aumenta). O resultado sugere que a melhor resposta a uma
ação de um dispositivo que aumenta sua potência é não
responder a ela, sob pena de aumentar suas perdas. E a
melhor resposta a um competidor que não adota nenhum
procedimento de aumento de potência é, justamente, agir
com um aumento de potência, que irá lhe garantir um canal
com melhores condições.
Apesar de tratar-se de uma modelagem superficial de um
cenário de controle de potência de uma rede sem fio, o
resultado obtido já levanta indícios para uma melhor
compreensão do problema. Primeiro, sem saber qual dos
jogadores não aumentará seu nível de potência, corre-se o
risco de que os dispositivos decidam aumentar seus níveis de
potência maximizando seus custos energéticos. Portanto, o
jogo fornece uma compreensão da realidade típica daquilo
que acontece do controle de potência: usuários egoístas
deixados a agir livremente poderão se comportar
ineficientemente no jogo do controle de potência. Segundo, a
teoria dos jogos pode fornecer alguma ideia de como obter
melhores resultados em um cenário de controle de potência.
Por exemplo, adotar mecanismo de incentivo externo contra
o aumento de potência, como o usuário pagar de acordo com
a potência transmitida. Outra opção é modelar este cenário
como um jogo repetido (não abordado neste trabalho), onde
usuários podem punir aquele que utilizar muita potência.
C. Estratégias mistas
Quando, em vez de decidir claramente por uma dada
estratégia para jogá-la entre suas outras estratégias, um
jogador decide alternar entre suas estratégias aleatoriamente,
atribuindo uma probabilidade a cada estratégia a ser
escolhida, diz-se que o jogador utiliza estratégias mistas.
Caso contrário, diz-se que emprega estratégias puras. A
virtude do equilíbrio de Nash em estratégias mista é que se
pode provar que em todo jogo em que há um número finito
de jogadores, com um número finito de estratégias, sempre
há um equilíbrio de Nash, provavelmente em estratégias
mistas.
Denota-se uma estratégia mista disponível ao jogador
i ∈ N como σ e por σ (s ) a probabilidade que σ atribui a s .
Evidentemente, ∑ ∈ σ (s ) = 1. Desse modo, uma
estratégia pura s . é para o caso de σ (s ) = 1 e um perfil de
estratégia mixada é
= (σ , σ , ..., σ ). A recompensa
esperada para o jogador i sob a combinação das estratégias
mixadas σ é dada por:
( )=∑
∈
∏
( )
(1)
Para exemplificar a utilização do conceito de estratégias
mistas, o terceiro cenário introduz o problema do acesso ao
meio conhecido como jogo de acesso múltiplo ao meio
citado em [6]. Suponha que dois dispositivos sem fios
denominados jogadores p1 e p2 desejam acessar um canal de
comunicação compartilhado para enviar alguns pacotes para
seus destinatários rc1 e rc2. Cada jogador tem um pacote para
enviar a cada intervalo e ele pode decidir acessar o canal para
transmiti-lo ou esperar. Além disso, dever ser considerado
que p1, p2, rc1 e rc2 estão na área de cobertura de cada um,
consequentemente, suas transmissões são mutuamente
interferidas. Admita que, se o jogador p1 transmite seu
pacote, ele assume um gasto 0,2. O pacote é transmitido com
sucesso se p2 aguarda um dado intervalo (isto é, p2 não
transmite), caso contrário haverá uma colisão. Se não houver
colisão, p1 se beneficia de 1 unidade pela transmissão bem
sucedida do seu pacote.
Denomina-se de q1 a probabilidade com que o jogador p1
decide acessar o canal e (1-q1 ) a probabilidade de preferir
esperar. Similarmente, q2 é definido como a probabilidade do
jogador p2 de acessar o canal e (1-q2) a probabilidade de
esperar. A representação em forma estratégica deste jogo é
mostrada na Tabela IV. Como pode ser visto, as estratégias
mistas disponíveis a cada jogador são σ = (q , (1 − q )) e
σ = (q , (1 − q )). O que significa, por exemplo, que a
probabilidade do jogador p1 de escolher a estratégia pura
(
) = . Portanto,
=
é dada por
(
)+
(
) = 1.
A recompensa esperada do jogador p1 para qualquer
estratégia mista que p1 e p2 adotem é:
(−0,2) + (1 − )(0,8) =
=
Da mesma forma, segue que:
(0,8 −
TABELA IV
O Jogo de Acesso ao Meio
Jogador 2
Jogador 1
Acessar
(q2)
Esperar
(1-q2)
Acessar
(q1)
- 0,2, - 0,2
0,8, 0
Esperar
(1-q1)
0, 0,8
0, 0
)
(2)
u
= q (0,8 − q )
(3)
Como é usual, os jogadores querem maximizar suas
recompensas. Primeiramente, a melhor resposta de p2 para
cada estratégia de p1 será analisada. Em (3), se
< 0,8,
então (0,8 − ) é positivo, e
é maximizado se
assumir o valor mais alto possível, ou seja,
= 1, o que
significa que p2 deve escolher com certeza acessar. De modo
recíproco, se
> 0,8,
é maximizado quando
= 0. O
leitor deve observar que estes dois casos são equilíbrios de
Nash em estratégia pura, em que um dos jogadores acessa o
canal, enquanto o outro espera. O caso mais interessante é
quando
= 0,8, porque independentemente da estratégia
escolhida por p2 (o que significa para qualquer ), a melhor
recompensa será sempre igual a 0. Como o jogo é simétrico,
fazendo o mesmo para p1 leva ao mesmo resultado. Isto
significa que ( = 0,8,
= 0,8) é um equilíbrio de Nash
em estratégias mistas. A Figura 1 retrata esses equilíbrios. A
função de melhor resposta do jogador p1 (q1 como uma
função de q2) é representada pela linha tracejada, enquanto a
linha cheia é a função de melhor resposta de p2 (q2 como uma
função de q1). Os equilíbrios são identificados pelos três
pontos em que as duas funções se cruzam: os dois pontos na
extremidade indicam os dois equilíbrios de Nash em
estratégias puras e outro no meio mostra o equilíbrio de Nash
em estratégia mista.
IV. JOGOS SEQUENCIAIS COM INFORMAÇÃO
PERFEITA
A. Representação em forma estendida
A representação em forma estratégica normalmente
assume que os jogadores tomam suas decisões
simultaneamente sem conhecer as decisões dos demais.
Entretanto, na maioria dos jogos, os jogadores desenvolvem
uma interação estratégica sequencial ou em etapas
sucessivas. Desse modo, a escolha de um jogador está
condicionada às decisões que os outros jogadores decidiram
no passado. Assim, quando um jogador decide, ele já
conhece o que os demais jogadores decidiram na etapa
anterior, ou seja, conhecem a história do jogo. Quando todos
os jogadores conhecem toda a história do jogo, nos referimos
a este jogo dinâmico como sendo de informação perfeita.
Acrescentando, jogos de horizonte finito são aqueles onde
existe um número finito de etapas. Caso contrário, os jogos
são chamados de jogos de horizonte infinito.
q2
1
0,8
q1
0,8
1
Fig. 1. Funções de melhor resposta no jogo de acesso
múltiplo e os equilíbrios em estratégias puras e mistas (adaptado
de [6]).
A forma estendida é a maneira mais utilizada de
representar jogos sequenciais. Na forma estendida, o jogo é
representado como uma árvore composta de ramos e nós.
Cada nó representa uma etapa do jogo em que um dos
jogadores tem de tomar uma decisão. Já um ramo representa
uma escolha possível para o jogador, a partir do seu nó, isto
é, um ramo é uma ação do conjunto de ações do jogador, em
um dado nó. Os ramos podem ser representados com flechas
para facilitar o entendimento de como o jogo se desdobra.
Finalmente, os nós terminais ou finais são aqueles que não
possuem nós sucessores, em que são apresentadas as
recompensas dos jogadores, expressas por números, na
ordem em que os jogadores entram no jogo.
Para ilustrar estes conceitos, considere o jogo de controle
de admissão entre provedor e usuário citado em [7]. Neste
jogo, os jogadores são aparelhos móveis capazes de
mudarem de provedor dinamicamente em busca de um
melhor preço ou qualidade de serviço. Por exemplo, quando
confrontados com um problema inesperado de qualidade, o
usuário pode optar por mudar fisicamente o prestador, ou
poderia ser mais estratégico e usar a sua liberdade de
mudança do provedor como uma "arma psicológica" para
forçar o atual provedor atualizar a qualidade da ligação sem
demora. O jogo explora a última opção onde os usuários
ameaçam encerrar com o atual provedor, a menos que ele (o
provedor) tenha ações imediatas para melhorar a qualidade
da ligação.
O jogo consta de dois jogadores, o usuário e o provedor de
serviço da rede sem fio. Quando a qualidade do canal
deteriora, o problema é detectado simultaneamente pelos dois
jogadores. O usuário pode escolher entre permanecer ou sair;
o servidor pode decidir entre corrigir o problema ou ignorar.
Considerando que os recursos da rede são limitados, corrigir
o problema da qualidade com adicional alocação de recursos
poderá envolver custos ao provedor. Para o usuário, é
inconveniente encerrar uma atual sessão e reiniciá-la com um
outro provedor. Similarmente, o provedor também sofrerá
prejuízos se o usuário decidir sair, uma vez que deixará de
arrecadar menos e, sob risco de perda contínua de clientes,
falir. Suponha que o usuário sempre movimenta primeiro,
enquanto provedor toma sua decisão após conhecer a escolha
do usuário. A forma estendida deste jogo sequencial com
informação perfeita é mostrada na Figura 2. Na próxima
seção é apresentado um método para determinar a solução
provável para este jogo.
V. DETERMINAÇÃO DE EQUILÍBRIOS DE NASH
PERFEITOS EM JOGOS SEQUENCIAIS
A. Método da indução reversa
Para aplicar o método da indução reversa em um jogo
sequencial, inicia-se analisando o jogo de trás para frente,
indo das recompensas dos jogadores localizados nos nós
terminais até ao primeiro nó de decisão que aparece
isoladamente, e procura-se identificar as melhores opões para
cada jogador. A resolução do jogo de controle de admissão
através da aplicação do método da indução reversa é
mostrada na Figura 3. Os ramos identificados como aqueles
que conduzem aos melhores resultados são representados por
linhas sólidas. Por exemplo, o usuário conclui que a melhor
escolha é permanecer na conexão mesmo após o provedor ter
Fig. 2. Forma estendida para o jogo entre provedor e usuário.
decidido em não corrigir o problema da qualidade de serviço,
pois obtém recompensa 3 ao invés de obter 1 se optasse por
sair. Seguindo com a operação reversa chega-se até ao nó
inicial do jogo. O segmento de linha sólida que sai do nó
inicial nos dá a solução da indução reversa para o jogo da
diplomacia arriscada: o provedor não corrige o problema e
usuário permanece na conexão. Essa solução define o
equilíbrio de Nash perfeito para este jogo. Dessa forma,
conclui-se que a ameaça do usuário de sair neste jogo é uma
ameaça não crível.
B. Movimentos estratégicos
Movimentos estratégicos são ações adotadas por um
jogador que visam a alterar alguma característica do jogo,
manipulando regras do jogo para produzir resultado mais
favorável a ele. Existem três tipos de movimentos
estratégicos que um jogador pode escolher: compromisso,
promessa e ameaça [4]. Como exemplo de movimento
estratégico, uma ameaça é usada como movimento
estratégico para forçar o provedor a corrigir o problema de
qualidade do enlace no jogo entre provedor e usuário, uma
vez que, conforme visto acima, o provedor não tem nenhum
incentivo para tomar qualquer ação reparadora. Sendo assim,
usuário pode ameaçar com uma regra de resposta que levará
a um mal resultado para o provedor se ele contrariar os
interesses do usuário. Esta regra pode ser expressa da
seguinte forma: “corrige a qualidade do enlace
imediatamente ou eu mudo para um outro provedor”. A
solução pelo método da indução reversa para este novo jogo
(agora chamado de jogo com puras ameaças) é mostrado na
Figura 4. Conforme pode ser visto, o resultado para este jogo
passou a ser uma recompensa de 4 para o usuário e 3 para o
provedor, justamente o oposto do equilíbrio de Nash
alcançado para a situação de nenhuma regra de ameaça
disponível no aparelho.
Pode-se questionar porque os provedores sempre irão
Fig. 3. Solução por indução reversa do jogo controle de admissão
Fig. 4. Jogo com puras ameaças. Observar que agora a primeira
recompensa corresponde à recompensa do usuário, uma vez que o
usuário é quem faz o primeiro movimento.
concordar em corrigir o problema sabendo que a ameaça é
uma estratégia do usuário para atingir o melhor resultado em
detrimento do provedor. De fato, existirá sempre um risco
para o usuário de que o provedor não aceite a ameaça.
Quando tal risco ocorre, o custo em executar a ameaça deve
ser levado em consideração pelo usuário. Mecanismos para
reduzir tais riscos são apresentados em [7].
VI. CONCLUSÕES
Este artigo apresentou os conceitos básicos de jogos não
cooperativos simultâneos e sequenciais, e suas respectivas
formas de representação normal e estendida. A partir da
modelagem de quatro problemas simples envolvendo
disputas entre dispositivos sem fio foi possível observar
como a coleção de ferramentas oferecidas pela teoria dos
jogos pode ser aplicada na compreensão de sistemas
distribuídos característicos das emergentes redes sem fio e no
desenvolvimento de novos mecanismos para o benefício da
rede como um todo.
REFERÊNCIAS BIBLIOGRÁFICAS
[1] R. Fiani, Teoria dos Jogos, Elsievier Editora Ltda., 3ª
Edição, Rio de Janeiro, 2009.
[2] A. B MacKenzie, L. A. DaSilva, Game Theory for
Wireless Engineers, Morgan & Claypool Publishers,
2006.
[3] E. Altman, T. Boulogne, R. El-Azouzi, T. Jiménez, L.
Wynter, “A Survey on Networking Games in
Telecommunications”, Computers & Operations
Research, vol. 33, pp. 286-311, 2006.
[4] A. Dixit, S. Skeath, Games of Strategy, W. W. Norton &
Company, New York-London, 2004.
[5] D. Goodman, N. Mandayam, “Power Control for
Wireless Data”, IEEE Pers. Communications, vol. 7, pp.
48–54, Abril 2000.
[6] M. Felegyhazi, J. P. Hubaux, “Theory in Wireless
Networks: A Tutorial”, Technical Report LCA-REPORT2006-002, Fev 2006.
[7] J. A. Hassan, M. Hassan, S. K. DAS, “A Brinkmanship
Game Theory Model for Competitive Wireless
Networking Environment”, IEEE 35th Conference on
Local Computer Networks, 2010.
Download