IV Congresso Brasileiro de Computação – CBComp 2004 Simulação Um modelo Baseado no Paradigma do Dilema do Prisioneiro Iterado para Simulação de Competição Empresarial Galbas Milléo Filho, Reginaldo Rubens da Silva, Paulo Sérgio da Silva Borges Abstract--Due to a more and more competitive business environment, the firms have been trying to restructure their performances in the market by means of strategies that take into account a better interaction company-consumer, aiming at optimizing the service to the consumers in regard to their means and desires. It is based on the understanding of the competition process that the firms try to establish growth strategies and also policies for improving their market share. With the ability with the development of computer science and the viability of increasingly advanced methods of data mining the companies managers are able to make use of computational of recourses to both augment their the firms profit and the consumer’s satisfaction. Resumo--Freqüentemente nos deparamos com situações em que devemos decidir que ação executar dentre várias disponíveis, sendo que estas decisões são sempre motivadas por um conjunto de eventos ou cenários possíveis. No ambiente empresarial, a tomada de decisão é de suma importância. O sucesso ou fracasso da empresa depende de decisões planejadas. Neste artigo, as empresas são consideradas jogadores e, como nos negócios, são fadadas a decidir que estratégia adotar perante seu concorrente para maximizar seus ganhos. Neste contexto, o modelo teórico deste ambiente empresarial de concorrência é um jogo. As estratégias adotadas pelos participantes do jogo são discutidas, várias experimentações foram realizadas utilizando a metáfora do dilema do prisioneiro iterado. Este modelo foi simulado no computador. Os resultados são apresentados e discutidos. Index Terms--games, competition. strategy, simulation, cooperation, I. INTRODUÇÃO Nos modelos de concorrência, a empresa não apenas têm consciência de que pode afetar o preço de seu produto, como também percebe que este também é afetado pelas decisões de seus concorrentes. Neste caso, a empresa apresenta um comportamento estratégico, e a área de estudo que se preocupa com o comportamento estratégico racional em situações nas quais os resultados dependem das ações de jogadores é conhecido como teoria dos jogos. Esta teoria desperta grande interesse em razão de suas propriedades Galbas Milléo Filho, M.Sc. (e-mail: [email protected]) Reginaldo Rubens da Silva. (e-mail: [email protected]) Paulo Sérgio da Silva Borges, Dr. (e-mail: [email protected]) matemáticas inéditas e de suas múltiplas aplicações a problemas sociais, econômicos e políticos. Seus fundamentos foram assentados por John Von Neumann, que em 1928 demonstrou o teorema minimax básico, e solidificou-se em 1944, com a publicação de Theory of Games and Economic Behavior. Mostrou-se que os acontecimentos sociais encontram sua melhor descrição através de modelos colhidos em adequados jogos de estratégia. Para estudar o mundo social necessitamos de conceitos rigorosos. Impõe-se que emprestemos precisão a termos tais como utilidade, informação, comportamento ótimo, estratégia, equilíbrio, ajuste e muitos outros. Sem esses conceitos precisos, não poderíamos esperar que a discussão saísse de um estágio puramente verbal e nos veríamos para sempre cingidos a uma compreensão restrita do assunto. A palavra “jogo” adquire sentidos diferentes, quando vista pelo leigo e quando vista pelo teórico do jogo, mas os sentidos mantêm similaridades entre si. Num como no outro caso, há jogadores, e os jogadores devem agir, tomar certas decisões. Como resultado do comportamento dos jogadores, e, possivelmente também do acaso, surge certa conseqüência: prêmio ou castigo para cada um dos participantes. Podemos também chamar de payoff, utility ou matriz de ganho ao valor ou pagamento de uma ação (pontos, $, etc.) ou ainda uma expressão de preferência. A idéia da economia clássica diz que os seres humanos são absolutamente racionais nas suas escolhas, ou seja, maximizam seus ganhos ou benefícios. Um exemplo seria a procura por preços menores. Já na teoria dos jogos, os indivíduos interagem diretamente, e o resultado depende da escolha de outros, por isso há uma maior complexidade envolvida. O jogo é uma metáfora para interações na sociedade. II. TEORIA DA UTILIDADE Utilidade é um conceito introduzido por Von Neumann e Morgenstern e indica uma quantificação das preferências de uma pessoa com relação a certos objetos. A teoria da utilidade é uma teoria de decisão, decisão esta que pode ser sob risco, certeza ou incerteza. Na decisão sob certeza, uma ação acarreta um determinado ganho com 100% de certeza. Na decisão sob incerteza, todas as ações possíveis levam a um conjunto de ganhos possíveis 402 IV Congresso Brasileiro de Computação – CBComp 2004 mas as probabilidades associadas são desconhecidas. Finalmente na decisão sob risco, cada ação leva a um ganho (dentro de um conjunto de ganhos possíveis), cada um associado a uma dada probabilidade, ou seja, dado um conjunto de ações a1, a2,...,an com probabilidades p1, p2,...,pn o ganho esperado b é igual a: a1 p1 + a2 p2 + ... + an pn. Nas situações de risco, as possibilidades de perdas predominam sobre as possibilidades de ganhos. Mercados importantes estão constituídos para ofertar opções para as pessoas fazerem frente aos riscos. Em geral, as pessoas tem aversão ao risco, e tomam medidas para reduzi-lo. Por exemplo: o mercado de apostas oferece opções de ganho para quem paga pelas apostas. O risco está em perder a aposta. O apostador é, em geral, uma pessoa propensa ao risco, pois admite entrar numa situação de risco em busca de um ganho aleatório. O mercado de seguros oferece opções para se reduzir ou eliminar os riscos. As pessoas pagam pelo eventual ressarcimento de perdas aleatórias. Quem contrata seguro é, em geral, uma pessoa avessa ao risco, pois paga para se ver livre dele. A função utilidade pode ser um padrão geral para a quantificação dos resultados e possibilita a classificação dos comportamentos frente ao risco. Não podemos fazer qualquer presunção acerca das inclinações de uma pessoa, porque diferentes pessoas desejam coisas diferentes. O que se faz necessário é um mecanismo capaz de relacionar os objetivos de um jogador, seja eles quais forem, com o comportamento que o habilitará a alcançar esses objetivos [4]. O valor relativo que as pessoas poderiam atribuir aos diversos resultados possíveis em suas decisões, pode ser quantificado pela função utilidade. III. ESTRATÉGIAS PURAS E MISTAS Em qualquer jogo, uma estratégia si ∈ S, i = 1, 2, ..., n, é uma seqüência de decisões que cada jogador executa durante uma dada partida do jogo, com base na informação que ele ou ela detém [3]. É uma descrição completa de como uma pessoa deverá agir sob quaisquer circunstâncias possíveis; não tem a conotação de destreza [4]. Se cada jogador escolher uma estratégia sempre e mantê-la durante o jogo, então ele está adotando uma estratégia pura. Uma outra forma de pensar é permitir aos jogadores randomizar as suas estratégias, ou seja, estabelecer uma probabilidade para cada decisão e jogar as suas decisões de acordo com estas probabilidades. Este tipo de estratégia é denominada estratégia mista. Podemos calcular o payoff envolvendo estratégias mistas da seguinte maneira: sendo dois jogadores (I e II), n estratégias para I e m estratégias para II, o conjunto de estratégias mistas (para I) é a n-tupla α = (x1, x1,...,xn) onde xi>=0 e i=1,2,...,n e ∑ xi =1. O processo é similar para II: mtupla β = (y1, y1,...,xm) onde xi é a probabilidade de I escolher a estratégia n, o payoff esperado para I se este usar α = (x1, Simulação x1,...,xn) e II usar β = (y1, y1,...,xm) é: e(α,β) = ∑i=1∑j=1 xi * eij * yi. [2]. Considerando que uma estratégia descreve aquilo que será feito em qualquer situação possível, se conhecermos a estratégia de cada jogador, poderemos predizer o resultado do jogo. Diz-se de um jogo que é de forma normal quando toda a seqüência de decisões que devem ser tomadas enquanto ele se processa, podem ser reunidas em uma única e particular decisão: a escolha de uma estratégia. Na prática, o jogo é efetivamente disputado de forma extensiva, ou seja, as decisões vão sendo tomadas uma após a outra. IV. JOGOS ESTRITAMENTE COMPETITIVOS E JOGOS SOMA NÃO-ZERO Jogos em que os interesses dos participantes são diametralmente opostos denominam-se jogos de soma-zero ou estritamente competitivos. A expressão “soma-zero” deriva dos jogos de salão, como o pôquer, onde não se cria nem se destrói riqueza. Quem quiser ganhar dinheiro terá de ganhá-lo de um outro jogador. Encerrado o jogo, a soma dos ganhos é sempre zero (as perdas são ganhos negativos). Por outro lado, podemos ter jogos inteiramente cooperativos, onde os jogadores não têm senão interesses comuns. O piloto de uma aeronave e o operador da torre de controle estão empenhados num jogo de cooperação, no qual partilham um objetivo singular e comum, a aterrissagem segura. Jogos em que aparecem, lado a lado, elementos de cooperação e de competição, são chamados de jogos de soma não-zero, geralmente revestem-se de maior complexidade e se encontram com maior freqüência na vida diária do que jogos puramente competitivos ou estritamente de cooperação. Na teoria dos jogos o termo competitivo refere-se à admissibilidade ou não de uma negociação prévia para a realização de uma partida. [3]. V. O DILEMA DO PRISIONEIRO NA VISÃO EMPRESARIAL Originalmente apresentado por A. W. Tucker, tornou-se um dos problemas clássicos da teoria dos jogos. É exemplo de um jogo competitivo soma não-zero, o qual é empregado na forma extensiva para modelar situações competitivas no ambiente empresarial. Embora existam várias versões do DP, a maioria possui as mesmas características essenciais em suas soluções e interpretações. O DP no qual é baseado este artigo é creditado à Douglas Hofstadter. A matriz de ganhos do DP é apresentada à seguir: [5]. Fig. 1. Matriz de Ganhos do Dilema do Prisioneiro. 403 IV Congresso Brasileiro de Computação – CBComp 2004 Os números entre parênteses representam os ganhos das empresas ao adotarem determinada estratégia. O número à esquerda dos parênteses representa o ganho da empresa I e o número à direita os ganhos da empresa II. No estudo, interpretaremos a estratégia de não cooperar como a ação de baixar os preços dos produtos ou serviços. Com isto a empresa ganharia mercado com preços mais atraentes. Por outro lado, se a empresa adota a estratégia da cooperação ela está reduzindo a quantidade produzida e aumentando os preços de modo a maximizar os lucros. Neste jogo podemos observar que nem sempre quando os jogadores procuram satisfazer seus interesses de maneira racional, o resultado final é o melhor possível para ambos. Neste caso, a melhor estratégia da empresa I, independentemente da estratégia adotada pela empresa II é de não cooperar. O mesmo raciocínio é adotado pela empresa II. Ora, se ambas as empresas adotam a estratégia da não cooperação, nenhuma delas obterá lucro. Examinando o DP, decidimos que se o jogo é disputado apenas uma vez, as empresas não têm outra escolha senão adotar a estratégia da não cooperação, ou seja, abaixar os preços de seus produtos e serviços e não obter lucro. Entretanto, quando o jogo é disputado repetidamente, o argumento perde parte de sua força. É sempre verdade que se uma empresa abaixar seus preços num dado ano, ela conseguirá mais do que se mantivesse seus preços altos naquele ano. Contudo, se uma das empresas abaixar seus preços num certo ano, é possível que ela induza sua competidora a fazer o mesmo no ano seguinte, o que é contra o seu desejo. Estratégia mais otimista é dar indicações da intenção de cooperar, fixando seus preços, esperando que a competidora analise adequadamente a situação e faça o mesmo. Essa estratégia pode levar e na prática leva, freqüentemente, a um resultado de cooperação. Se o DP é disputado apenas uma vez, ou por um número fixo de vezes, o argumento que favorece a estratégia nãocooperativa é tão forte, que as empresas adotarão tal estratégia até o final. Mas quando o DP é disputado repetidamente, e não por um número fixo de vezes, mas por um período indefinido, é que a estratégia cooperativa se coloca realmente. E essa é a forma de disputa mais freqüente do DP. Duas empresas competidoras sabem que não cooperarão para sempre, mas em geral não têm meios de saber quando a morte, a fusão, a falência ou qualquer outra força porá fim à competição. Assim, os jogadores não podem analisar o que acontecerá na última disputa, e, em seguida iniciar daí, pois ninguém sabe quando será esta última disputa. Neste contexto, duas perguntas se fazem necessário: Que estratégia deve uma empresa escolher? Como justificar o recurso a uma estratégia cooperativa? As estratégias não-cooperar constituem um equilíbrio neste jogo. Se um pacto ou uma negociação fosse permitida, os jogadores decidiriam pelo par de estratégias (cooperar, cooperar). Assim, este último conjunto de estratégias não constituem um equilíbrio porque existe um atrativo, em Simulação termos de ganho, para qualquer um dos jogadores quebrar o pacto. Mas se o jogo é iterado, os jogadores podem observar que pode ser melhor para eles cumprir o pacto e optar pelo par de estratégias (cooperar, cooperar). Este par de estratégias está em “quase-equilíbrio” e, apesar de trazer maiores benefícios mútuos é completamente instável. Isto acontece desta forma porque se a empresa I, decidir, em uma dada disputa, obter uma vantagem extra não cooperando, pode ser razoável esperar que no próximo encontro a empresa II responderá não cooperando. Desta forma o total de ganhos acumulado pela empresa I nesses dois encontros será menor que o total que a empresa poderia acumular se permanecesse cooperando. O DP caracteriza-se pelo fato de existir uma “tentação” em obter ganhos maiores quando disputado em poucas rodadas [3]. VI. EQUILÍBRIO DE NASH E ESTRATÉGIA DOMINANTE Uma estratégia dominante é uma estratégia de decisão na qual um jogador adota uma estratégia única que garantirá um payoff máximo sem levar em consideração a ação de seu oponente. É racional supor portanto, que se um jogador dispões de uma estratégia dominante, ele a adotará. Consequentemente se ambos os jogadores dispões de uma estratégia dominante, estas estratégias definem um equilíbrio para o jogo. Chamamos de equilíbrio de Nash a condição que descreve um conjunto de estratégias na qual nenhum jogador pode melhorar seu payoff unilateralmente mudando sua própria estratégia dado que as estratégias dos outros jogadores permanecem inalteradas. Ou seja, dado dois jogadores A e B dizemos que um par de estratégias é um equilíbrio de Nash se a escolha de A é ótima, dada a escolha de B, e a escolha de B é ótima dada a escolha de A, sendo que nenhum dos jogadores sabe o que o outro fará quando for obrigado a escolher a sua própria estratégia. Na matriz de payoff do DP a estratégia não cooperar é dominante para ambos, e também definem um equilíbrio de Nash. VII. SIMULAÇÃO COMPUTACIONAL DE SISTEMAS Para que possamos estudar um sistema de mercado, ou qualquer outro sistema complexo, faz-se necessário a utilização de técnicas de simulação computacional de sistemas. De qualquer forma, há importantes diferenças entre a maneira de como um sistema é controlado por um computador digital através de simulação, onde existem vários elementos interagindo, e a maneira na qual o sistema comporta-se quando estudado em experimentos reais. De qualquer forma, a simulação tem sido, cada vez mais aceita e empregada como uma ferramenta técnica que permite a analistas, dos mais variados seguimentos (administradores, engenheiros, biólogos, técnicos em informática, etc.) verificar ou encaminhar soluções, com a profundidade desejada aos problemas com os quais lidam diariamente. A simulação computacional de sistemas consiste na utilização de determinadas técnicas matemáticas, empregadas em computadores digitais, as quais permitem imitar o 404 IV Congresso Brasileiro de Computação – CBComp 2004 funcionamento de, praticamente qualquer tipo de operação ou processo (sistemas) do mundo real. Um modelo computacional é um programa de computador cujas variáveis apresentam o mesmo comportamento dinâmico e estocástico do sistema real que representa. Desta forma, estamos interessados não somente na construção do modelo, mas também, em todo o método experimental que se segue, buscando, sobremaneira: descrever o comportamento do sistema; construir teorias e hipóteses considerando as observações efetuadas e, usar o modelo para prever o comportamento futuro, isto é, os efeitos produzidos por alterações no sistema ou nos métodos empregados em sua operação. No experimento, foi utilizado a linguagem de programação Pascal para criar o modelo computacional. Algumas características do modelo, bem como, as estratégias adotadas pelos jogadores são discutidas a seguir. VIII. CARACTERIZAÇÃO DAS ESTRATÉGIAS ADOTADAS NO MODELO Talvez, a característica mais significativa de um jogo seja o número de jogadores que dele participam; ou seja, seu tamanho. De modo geral, quanto menor o número de jogadores, mais simples o jogo. Este jogo possui noventa jogadores que se confrontam através do DP e seus payoffs são atualizados a cada iteração, e uma das questões fundamentais, iremos tratar agora: Como se deverão comportar os jogadores? As seguintes estratégias são definidas no modelo: Não-cooperação: 1/3 dos jogadores adotam a estratégia pura da não-cooperação. Como o próprio nome diz, esta estratégia nunca coopera. É rara no mundo empresarial, geralmente as empresas buscam algum tipo de acordo, pacto, para que possam juntas crescer, conquistar mais consumidores e aumentar seus ganhos individuais. Porém esta estratégia é útil para examinarmos sua interação com as outras estratégias. Cooperação: 1/3 dos jogadores adotam a estratégia pura da cooperação. Como o próprio nome diz, esta estratégia sempre coopera. É considerada uma estratégia amigável e se dá bem com outras estratégias amigáveis. Ocorre raramente no mundo empresarial, existem vários fatores que fazem com que as empresas em um dado momento, deixem de cooperar. Um dos motivos seria a quebra de um acordo, pacto com o objetivo de aumentar seus ganhos individuais. Porém esta estratégia é útil para examinarmos sua interação com as outras estratégias. Estratégia “Tit-for-Tat: 1/3 dos jogadores adotam a estratégia “Tit-for-Tat”, que caracteriza-se por iniciar cooperando, e a seguir, sempre repete a estratégia adotada pelo seu oponente. Por esta razão “Tit-for-Tat”é considerada uma estratégia amigável. Esta estratégia se mostrou eficiente em um grande número de torneios [5] simulados no computador e utiliza apenas doze linhas de código em seu programa. Tit-for-Tat pune seu oponente não-cooperativo com a não-cooperação e perdoa a seguir se na próxima rodada o oponente cooperar. Simulação IX. RESULTADOS ALCANÇADOS Alguns fatores afetam diretamente os ganhos dos jogadores durante os confrontos. Podemos destacar como mais significativos: a quantidade de estratégias diferentes utilizadas pelos jogadores, e o número de participantes do jogo. Se a disputa é realizada com um número reduzido de jogadores, a estratégia da não-cooperação leva vantagem sobre seus concorrentes cooperativos. À medida que o número de participantes aumenta, outros jogadores começam a fazer frente à estratégia não-cooperativa, podendo assim, obter melhores resultados. Como é o caso da estratégia Tit-for-Tat. A figura 2 mostra o desempenho das estratégias estudadas no modelo através do DPI (Dilema do Prisioneiro Iterado). Observando a figura 2, podemos verificar que até a rodada 20000 a estratégia da não-cooperação e a estratégia Tit-for-Tat permanecem praticamente empatadas, com uma pequena vantagem para a estratégia não-cooperativa. A partir da rodada 20000, a estratégia Tit-for-Tat abre vantagem. Esta vantagem aumenta gradativamente até o final da evolução do programa. Fig. 2. Desempenho das Estratégias Adotadas no Dilema do Prisioneiro Empresarial. O sucesso da estratégia Tit-for-Tat está no fato de que cada jogador que adota esta estratégia, cria um histórico de confrontos anteriores. Se um jogador não coopera com outro que adota a estratégia Tit-for-Tat, sua identificação é armazenada. Assim, no próximo confronto há o “troco na mesma moeda”, consequentemente este jogador não permite que um adversário não-cooperativo prejudique-o e conquiste pontos em cima dele. A estratégia da não-cooperação obterá vantagem sobre a estratégia Tit-for-Tat, até o momento em que todos os jogadores que adotam a estratégia Tit-for-Tat armazenem as informações de confrontos anteriores. A partir deste instante, para a estratégia Tit-for-Tat, a não-cooperação será punida com a não-cooperação. A empresa que adota a estratégia Tit-for-Tat para maximizar seus lucros age utilizando o seguinte raciocínio: se o concorrente reduziu seus preços esta semana, ou neste ano, ela reduzirá seus preços na próxima semana ou no próximo ano. O oponente pode perceber o comportamento “Tit-forTat” da empresa, e assim, por receio de iniciar uma guerra de 405 IV Congresso Brasileiro de Computação – CBComp 2004 preços, manteria seus preços altos. A ameaça implícita da estratégia Tit-for-Tat pode permitir às empresas manterem seus preços altos. Como não há qualquer comunicação entre os participantes, e é sabido que, a extensão em que os jogadores podem comunicar-se tem profundo efeito sobre o resultado de um jogo, certas táticas podem mostrar-se úteis nessa espécie de jogo. Neste caso, os jogadores devem observar o comportamento de seus concorrentes, para descobrir indícios quanto ao que farão em seguida, para assim, obter alguma vantagem. Em jogos em que os participantes tenham alguns interesses em conflito, a comunicação desempenha papel mais complexo. Basicamente, para forçar um jogador à cooperar, basta convencê-lo de que ele será punido de modo suficientemente severo caso não o faça. Esta punição pode ser feita desde que o jogo se repita um número indeterminado de vezes. Neste exemplo ficou claro que adotar uma estratégia pura de cooperação não é uma boa escolha. Apesar desta estratégia se dar bem com outras estratégias cooperativas, seu desempenho é ruim quando há vários outros jogadores nãocooperativos. Acordos entre empresas podem ser interessantes, pois visam principalmente o crescimento ou ganho mútuo. Mas quando há muitas empresas envolvidas neste pacto de colaboração, a quebra do pacto por apenas uma empresa é justificada. O impacto da quebra do acordo irá ser distribuído entre todas as empresas, de modo que aquela que não cumpriu o acordo arca apenas com uma pequena proporção do custo que ela está provocando. Haja vista também, que o custo de fiscalizar a ação de todos os jogadores fica cada vez maior, isto é, fica cada vez mais difícil identificar quem está e quem não está colaborando. Ao mesmo tempo, a punição exige a coordenação de todos os agentes lesados. Essa dificuldade que as empresas enfrentam para se articular em um cartel é, todavia, desejável do ponto de vista da sociedade, assim a solução do cartel se torna ineficiente. Simulação um resultado ainda melhor, jogando de maneira nãocooperativa. Essa atitude pode parecer antiética, mas os jogadores não procuram os teóricos dos jogos em busca de princípios morais; eles já têm os seus próprios princípios. Tudo que pedem é uma estratégia que lhes sirva aos seus propósitos, egoísticos ou não. XI. REFERÊNCIAS [1] [2] [3] [4] [5] AXELROD, Robert The Evolution of Cooperation. London: Penguin Books, 1990.. BAZZAN, Ana Lúcia: Coordenação de Agentes com Técnicas de Teoria dos Jogos. JAIA, 2001.. BORGES, Paulo Sérgio da Silva; FALQUETO, Jovelino. Compete or Cooperate? Business Strategies Based on Models of Cooperative Games May Be an Alternative to Optimize Gains. Universidade Federal de Santa Catarina, 2001. DAVIS, Morton. Teoria dos Jogos: Uma Introdução Não-Técnica. Editora Cultrix. São Paulo, 1973. HOFSTADTER, Douglas. Metamagical Themas. Basic Books, 1985. X. CONCLUSÃO Problemas do tipo “dilema do prisioneiro”, sob uma ou outra forma, são conhecidos há algum tempo. A estratégia cooperativa é geralmente aceita como a“adequada”, exceto quando de efeito anti-social, e algumas vezes são motivos éticos que ditam a aceitação. Ética e racionalidade são discutidas em teoria dos jogos. Quando se recorre a estratégias minimax, num jogo soma-zero, não é porque se acredita na racionalidade do oponente, mas porque não se dispõe de outra alternativa mais atraente. Nos jogos soma não-zero, cooperar com um oponente que não coopera, conduz ao desastre; nos jogos soma-zero, o pior que pode acontecer, quando um dos jogadores recorre à minimax, é ele perder a oportunidade de aproveitar-se do oponente. No DP, todavia, a presunção de que o oponente cooperará é efetivamente uma presunção. Se o jogador coopera, deve acreditar, que o adversário também o fará. Ainda que esse adversário coopere, alguns jogadores continuarão a questionar a escolha, pois que caberia conseguir 406