Introdução

Dois aspectos positivos da teoria dos jogos:

provê poderosos instrumentos para a elaboração de modelos teóricos;
apresenta, em muitos contextos, boa aderência empírica.

Continuam ocorrendo desenvolvimentos teóricos importantes na área.

Situação em que a simples aplicação da teoria é insuficiente:

equilíbrios não robustos;
ambiente complexo;
circunstâncias não familiares;

A teoria do aprendizado oferece um caminho para aprimorar e alargar o poder preditivo da teoria dos jogos.

Equilíbrio de Nash

O conceito básico de equilíbrio em teoria dos jogos é o conceito de equilíbrio de Nash. Um equilíbrio de Nash é caracterizado como uma situação na qual, dadas as escolhas dos outros agentes, nenhum agente pode melhorar sua posição alterando apenas suas escolhas.

Exemplos:

conceito de equilíbrio do usuário da engenharia de tráfego.
Jogo da metade da média.
Modelo de Cournot.

Explicações para possíveis convergências para o equilíbrio de Nash

Introspecção.

Processos adaptativos: aprendizado, imitação, evolução, etc.

Evidência: o equilíbrio de Nash é melhor entendido como um resultado ao qual o jogo converge quando é jogado repetidas vezes.

Gostaríamos de entender:

sob que condições há convergência;
o processo de convergência;
a velocidade de convergência.

Exemplo 1: o Jogo da curva de Phillips

Banco Central (BC) escolhe entre inflação baixa e inflação elevada.

Após escolha do BC, um consumidor representativo (CR) escolhe entre desemprego baixo ou elevado.

Tanto o BC quanto o CR classificam possíveis resultados do mais desejável para o menos desejável na seguinte ordem:

Inflação e desemprego baixos;
Inflação elevada e desemprego baixo;
Inflação baixa e desemprego elevado;
Inflação e desemprego elevados.

Possíveis equilíbrios de Nash:

BC escolhe inflação baixa e CR escolhe desemprego baixo, independentemente da inflação escolhida pelo BC;
BC escolhe inflação elevada e CR escolhe desemprego baixo caso a inflação seja elevada e desemprego elevado caso a inflação seja baixa.

“Corrigindo” os resultados do jogo:

Duas alternativas:

Consertar a tecnicidade: refinar o conceito de equilíbrio de Nash, usando o conceito de equilíbrio de Nash perfeito em subjogos.
Equilíbrio em crenças: o BC acredita que o CR responderá inflação baixa com desemprego elevado e inflação elevada com desemprego baixo; quando ele pratica inflação elevada, sua crença não é abalada.

Pergunta: o BC vai aprender, no longo prazo, que está errado?

Exemplo 2: o jogo do sequestro

Dois jogadores: sequestradores e passageiros.

Dois tipos de sequestradores: suaves e severos. O tipo dos sequestradores é informação privada — apenas elas conhecem seu tipo.

Duas etapas:

Sequestradores decidem se sequestram ou não o avião;
Passageiros decidem se lutam ou aceitam o sequestro.

Exemplo 2: o jogo do sequestro

Payoffs quando o sequestrador é suave:

	Passageiros
		lutam	aceitam
Sequestradores	Sequestram	(-2,-2)	(1, -1)
	Não sequestram	(0, 0)	(0, 0)

Payoffs quando o sequestrador é severo:

	Passageiros
		lutam	aceitam
Sequestradores	Sequestram	(-1,-2)	(1, -3)
	Não sequestram	(0, 0)	(0, 0)

Exemplo 2: o jogo do sequestro

Se os passageiros acham improvável que os sequestradores sejam severos, não devem lutar e, prevendo isso, os sequestradores devem sequestrar o aviação.

Em 11 de setembro, houve uma súbita mudança nas expectativas dos passageiros do voo United Airlines 93, escolheram reagir.

Aprendizagem passiva:

Fictitious play:

Cada agente estima a distribuição de probabilidades das ações escolhidas pelos outros agentes com base nas informações pregressas e escolhem a estratégia que dá maior retorno esperado segundo essa distribuição de probabilidades.

Reinforcemente learning models:

Modelos psicológicos. Não trabalha com crenças, mas atualiza diretamente uma medida de utilidade, chamada “propensity”, a cada ação.

Recency:

Ideia de que observações mais recentes devem ter um peso mais elevado, como experimentos laboratoriais parecem indicar.

Caso extremo: apenas a última observação é considerada.

Há evidência de que recency extrema não é uma boa alternativa de modelagem.

Duas abordagens para lidar com a ideia de recency:

modelos Baysianos de ambientes mutáveis;
regras simples: exemplo, pesos exponencialmente menores para observações mais antigas.

A última solução é empregada com maior frequência, em virtude do elevado grau de complexidade da primeira.

Recency exemplo:

Computador seleciona um valor qualquer de um automóvel no intervalo [0,10] não informado para o participante.

O participante deve fazer uma proposta pelo auto que será aceita apenas caso ele seja maior ou igual ao valor do auto.

Se x é o valor proposto pelo participante, v é o valor do auto, o ganho do participante será v + k − x em que k é um parâmetro conhecido.

A teoria prevê que o participante escolha x = k, mas experimentos de laboratório sugerem convergência para outros valores. Tal padrão de convergência seria justificado pela ideia de recency.

Talvez a evidência de laboratório não indique o comportamento dos agentes em situações concretas.

Aprendizagem ativa

Em um contexto de interações dinâmicas, os agentes podem procurar obter informações sobre a forma como os outros jogam experimentanto com suas escolhas de ações.

Alguns pontos fundamentais:

no contexto de aprendizagem ativa, a paciência dos agentes é relevante;
há um papel para o jogo aleatório;
se os riscos potenciais da experimentação são elevados e negativos, então deverá ocorrer menos experimentação

Exemplo: jogos com infinitas repetições

	C	D
C	2, 2	0, 3
D	3, 0	1, 1

Folk Theorem: se o jogo acima for repetido infinitas vezes, desde que a taxa de desconto dos agentes seja suficientemente baixa, haverá um equilíbrio no qual os dois jogam a estratégia cooperativa C.

A maior parte das aplicações assume que os agentes irão cooperar, mas a evidência laboratorial não corrobora.

Evidência:

o fator de desconto tem maior papel na escolha dos agentes depois que eles jogaram o jogo algumas vezes;
a tendência a cooperar aumenta com os ganhos de fazê-lo;
nem sempre os agentes têm sucesso em atingir um equilíbrio com cooperação.
contrariamente à predição teórica a perda de quem colabora quado o outro não colabora importa.

Considerações finais:

Em contextos nos quais a teoria do equilíbrio não resulta em predições precisas, a teoria do aprendizado é uma grande promessa para explicar tanto que equilíbrios são mais prováveis quanto como as condições iniciais podem importar.

Whither Game Theory? Towards a Theory of Learning in Games

Introdução

Equilíbrio de Nash

Explicações para possíveis convergências para o equilíbrio de Nash

Exemplo 1: o Jogo da curva de Phillips

“Corrigindo” os resultados do jogo:

Exemplo 2: o jogo do sequestro

Exemplo 2: o jogo do sequestro

Payoffs quando o sequestrador é suave:

Payoffs quando o sequestrador é severo:

Exemplo 2: o jogo do sequestro

Aprendizagem passiva:

Fictitious play:

Reinforcemente learning models:

Recency:

Recency exemplo:

Aprendizagem ativa

Exemplo: jogos com infinitas repetições

Evidência:

Considerações finais: