Whither Game Theory? Towards a Theory of Learning in Games

David Fundenberg e David K. Livine

Introdução

Dois aspectos positivos da teoria dos jogos:

Continuam ocorrendo desenvolvimentos teóricos importantes na área.

Situação em que a simples aplicação da teoria é insuficiente:

A teoria do aprendizado oferece um caminho para aprimorar e alargar o poder preditivo da teoria dos jogos.

Equilíbrio de Nash

O conceito básico de equilíbrio em teoria dos jogos é o conceito de equilíbrio de Nash. Um equilíbrio de Nash é caracterizado como uma situação na qual, dadas as escolhas dos outros agentes, nenhum agente pode melhorar sua posição alterando apenas suas escolhas.

Exemplos:

Explicações para possíveis convergências para o equilíbrio de Nash

Introspecção.

Processos adaptativos: aprendizado, imitação, evolução, etc.

Evidência: o equilíbrio de Nash é melhor entendido como um resultado ao qual o jogo converge quando é jogado repetidas vezes.

Gostaríamos de entender:

Exemplo 1: o Jogo da curva de Phillips

Banco Central (BC) escolhe entre inflação baixa e inflação elevada.

Após escolha do BC, um consumidor representativo (CR) escolhe entre desemprego baixo ou elevado.

Tanto o BC quanto o CR classificam possíveis resultados do mais desejável para o menos desejável na seguinte ordem:

  1. Inflação e desemprego baixos;
  2. Inflação elevada e desemprego baixo;
  3. Inflação baixa e desemprego elevado;
  4. Inflação e desemprego elevados.

Possíveis equilíbrios de Nash:

“Corrigindo” os resultados do jogo:

Duas alternativas:

  1. Consertar a tecnicidade: refinar o conceito de equilíbrio de Nash, usando o conceito de equilíbrio de Nash perfeito em subjogos.

  2. Equilíbrio em crenças: o BC acredita que o CR responderá inflação baixa com desemprego elevado e inflação elevada com desemprego baixo; quando ele pratica inflação elevada, sua crença não é abalada.

Pergunta: o BC vai aprender, no longo prazo, que está errado?

Exemplo 2: o jogo do sequestro

Dois jogadores: sequestradores e passageiros.

Dois tipos de sequestradores: suaves e severos. O tipo dos sequestradores é informação privada — apenas elas conhecem seu tipo.

Duas etapas:

  1. Sequestradores decidem se sequestram ou não o avião;
  2. Passageiros decidem se lutam ou aceitam o sequestro.

Exemplo 2: o jogo do sequestro

Payoffs quando o sequestrador é suave:

Passageiros
lutam aceitam
Sequestradores Sequestram (-2,-2) (1, -1)
Não sequestram (0, 0) (0, 0)

Payoffs quando o sequestrador é severo:

Passageiros
lutam aceitam
Sequestradores Sequestram (-1,-2) (1, -3)
Não sequestram (0, 0) (0, 0)

Exemplo 2: o jogo do sequestro

Se os passageiros acham improvável que os sequestradores sejam severos, não devem lutar e, prevendo isso, os sequestradores devem sequestrar o aviação.

Em 11 de setembro, houve uma súbita mudança nas expectativas dos passageiros do voo United Airlines 93, escolheram reagir.

Aprendizagem passiva:

Fictitious play:

Cada agente estima a distribuição de probabilidades das ações escolhidas pelos outros agentes com base nas informações pregressas e escolhem a estratégia que dá maior retorno esperado segundo essa distribuição de probabilidades.

Reinforcemente learning models:

Modelos psicológicos. Não trabalha com crenças, mas atualiza diretamente uma medida de utilidade, chamada “propensity”, a cada ação.

Recency:

Ideia de que observações mais recentes devem ter um peso mais elevado, como experimentos laboratoriais parecem indicar.

Caso extremo: apenas a última observação é considerada.

Há evidência de que recency extrema não é uma boa alternativa de modelagem.

Duas abordagens para lidar com a ideia de recency:

A última solução é empregada com maior frequência, em virtude do elevado grau de complexidade da primeira.

Recency exemplo:

Computador seleciona um valor qualquer de um automóvel no intervalo [0,10] não informado para o participante.

O participante deve fazer uma proposta pelo auto que será aceita apenas caso ele seja maior ou igual ao valor do auto.

Se x é o valor proposto pelo participante, v é o valor do auto, o ganho do participante será v + k − x em que k é um parâmetro conhecido.

A teoria prevê que o participante escolha x = k, mas experimentos de laboratório sugerem convergência para outros valores. Tal padrão de convergência seria justificado pela ideia de recency.

Talvez a evidência de laboratório não indique o comportamento dos agentes em situações concretas.

Aprendizagem ativa

Em um contexto de interações dinâmicas, os agentes podem procurar obter informações sobre a forma como os outros jogam experimentanto com suas escolhas de ações.

Alguns pontos fundamentais:

Exemplo: jogos com infinitas repetições

C D
C 2, 2 0, 3
D 3, 0 1, 1

Folk Theorem: se o jogo acima for repetido infinitas vezes, desde que a taxa de desconto dos agentes seja suficientemente baixa, haverá um equilíbrio no qual os dois jogam a estratégia cooperativa C.

A maior parte das aplicações assume que os agentes irão cooperar, mas a evidência laboratorial não corrobora.

Evidência:

Considerações finais:

Em contextos nos quais a teoria do equilíbrio não resulta em predições precisas, a teoria do aprendizado é uma grande promessa para explicar tanto que equilíbrios são mais prováveis quanto como as condições iniciais podem importar.