IA Cícero está no jogo da Diplomacia

IA Cícero está no jogo da Diplomacia

Hoje o TrenDs News mais uma vez trouxe notícias interessantes e até mesmo polemicas sobre o que está levando o mundo a uma transformação digital. O Renato Grau e sua equipe de co-hosts especialistas mais uma vez deram um show de novidades interessantes em inovação, inteligência artificial, mundo crypto, varejo e outros setores e tecnologias.

“A propriedade distintiva dos humanos é buscar e seguir a verdade.” – Cícero

Cícero, o ser humano (106-43 aC), foi um célebre político, orador e escritor; sua importância histórica e filosofia ainda é debatida dois mil anos depois.

O programa de computador Cícero, anunciado em um artigo na Science em 22 de novembro, é um poderoso sistema de IA que joga Diplomacia; e suas implicações para a IA ainda não estão claras e podem não estar por muito tempo.

A diplomacia, um jogo complexo que requer ampla comunicação, é reconhecida como um desafio para a IA há pelo menos cinquenta anos. Para vencer, um jogador não deve apenas jogar estrategicamente, mas formar alianças, negociar, persuadir, ameaçar e, ocasionalmente, enganar.

Portanto, apresenta desafios para a IA que vão muito além daqueles enfrentados por sistemas que jogam jogos como Go e xadrez ou por chatbots que se envolvem em diálogos em configurações menos complexas. Os resultados em si são, sem dúvida, genuinamente impressionantes.

Embora a IA ainda não esteja no nível de campeão mundial ou perto dele, o sistema foi capaz de integrar a linguagem ao jogo, em uma versão online do blitz Diplomacy, classificando-se entre os 10% melhores da multidão mista de profissionais e amadores, com jogo e linguagem uso que era natural o suficiente para que apenas um jogador humano suspeitasse que fosse um bot.

Surgem muitas perguntas:

  • Como funciona?
  • Isso tem implicações para outros desafios em andamento na IA?
  • É, como afirma o blog da Meta AI, “um avanço para a construção de IA que domina as habilidades” de negociação, persuasão e cooperação com as pessoas?
  • Quanto é um avanço em direção a um sistema que pode realmente interagir de forma inteligente com seres humanos em situações reais?
  • Temos que nos preocupar que a Meta tenha construído uma IA que pode manipular as pessoas para atingir seu objetivo de dominar o mundo, como um amigo nosso postou, talvez meio a sério?
  • Estamos em algum tipo de risco recém-descoberto, dado que o engano está envolvido?

A Meta AI, para seu crédito, publicou o código do Cicero em código aberto para que a comunidade de pesquisa possa começar a explorar essas questões.

Na IA, é sempre difícil responder a perguntas sobre implicações sem primeiro examinar a arquitetura de um sistema. Acontece que a arquitetura do Cicero difere profundamente da maior parte do que foi falado nos últimos anos em IA.

A primeira coisa a perceber é que Cícero é um sistema muito complexo. Sua estrutura de alto nível é consideravelmente mais complexa do que sistemas como AlphaZero, que domina Go e xadrez, ou GPT-3, que se concentra puramente em sequências de palavras.

Parte dessa complexidade é imediatamente aparente no fluxograma; Considerando que muitos modelos recentes são algo como entrada de dados, saída de ação, com algum tipo de sistema unificado (digamos, um Transformer) no meio, o Cicero é fortemente pré-estruturado, antes de qualquer aprendizado ou treinamento, com uma arquitetura sob medida cuidadosamente projetada que é dividido em vários módulos e fluxos, cada um com sua própria especialização.

No alt text provided for this image
Arquitetura da IA Cicero

E isso é apenas o começo da complexidade. Muitas das características mais importantes de Cícero, em termos de avaliação de seu significado geral, estão em detalhes enterrados no material suplementar do artigo. Embora pretendamos poupá-lo da maior parte dos detalhes, é claro que entender Cícero adequadamente e responder a essas perguntas inevitavelmente requer uma análise cuidadosa.

Como Cícero joga Diplomacia

  • O jogo da Diplomacia consiste em uma série de turnos.
  • Em cada turno, primeiro todos os jogadores se comunicam em particular, um a um; eles podem fazer alianças secretas, negociar termos, ameaçar repercussões e assim por diante.
  • Quando as discussões terminam, todos eles decidem em particular sobre uma jogada e anunciam suas jogadas simultaneamente.
  • A cada movimento, Cícero deve decidir com quem falará, o que dirá e qual movimento fará no final.
  • Cada uma dessas decisões depende do estado atual do jogo, incluindo o histórico do jogo e das comunicações, e do que os outros jogadores dizem durante o movimento atual.

Tomar a decisão certa aqui pode ser extremamente complicado. Se você estiver jogando Diplomacia, o que você deve fazer como sua próxima ação obviamente depende do que os outros jogadores farão. E o que eles vão fazer depende do que eles acham que você vai fazer. Para complicar ainda mais, você pode (espero) avaliar o que eles vão fazer pelo que eles dizem e pode influenciar o que eles vão fazer pelo que você diz. Mas a escolha do que você vai dizer é determinada pelo que você quer que eles façam, o que remete à questão do que você vai fazer.

Felizmente para a equipe de Cícero, a teoria dos jogos, desenvolvida pela primeira vez na década de 1930 e agora muito poderosa, ofereceu um forte ponto de partida. A literatura da teoria dos jogos figura proeminentemente em como Cícero escolhe sua estratégia. Isso já foi bem desenvolvido no trabalho anterior da Meta AI em uma versão simplificada da Diplomacia que não era lingüística.

Isso por si só era impressionante. Mas a teoria dos jogos é uma teoria das ações; não é de forma alguma uma teoria da linguagem. No novo trabalho, a equipe Cicero teve que combinar a estratégia da teoria dos jogos com a tecnologia de linguagem natural que foi desenvolvida para tarefas puramente linguísticas, como tradução ou resposta a perguntas. Juntar tudo isso em um todo coordenado foi extremamente desafiador.

Talvez fosse inevitável então que a arquitetura de Cícero durante o jogo consistisse em uma coleção de algoritmos interativos altamente complexos. Não vamos tentar descrevê-lo completamente aqui, mas vemos duas conclusões importantes.

A primeira é que a arquitetura geral de Cícero não é algo que simplesmente emergiu espontaneamente dos dados básicos, mas sim uma estrutura primorosamente projetada com muitas partes móveis, laboriosamente trabalhada por uma ampla equipe de diferentes tipos de especialistas em IA, combinando técnicas de jogos e teoria com análise probabilística.

A segunda conclusão é que Cícero utiliza muitos tipos diferentes de informações ao tomar suas decisões. Esses incluem:

  • O estado atual do jogo.
  • A história de todos os movimentos anteriores e todos os diálogos anteriores
  • Conhecimento de padrões de linguagem, com base em um modelo puramente linguístico semelhante ao GPT-3. Isso dá a Cícero uma ideia do que é uma maneira razoável de responder às comunicações dos outros jogadores.
  • Conhecimento de como as sentenças se relacionam com as ações. Isso dá a Cícero uma ideia de como dizer aos aliados ou possíveis aliados o que planeja fazer.
  • Quanto tempo (em segundos) decorre entre as mensagens.

É importante ressaltar que, embora Cícero jogue contra humanos, não funciona exatamente da mesma maneira que os humanos. Por exemplo, jogadores humanos presumivelmente tentam categorizar o estado mental e as interações sociais dos outros jogadores. “A Inglaterra quer que a Holanda apoie a Bélgica”, “A França pensa que a Bélgica está se mudando para a Holanda”, “Se eu ameaçar a Alemanha, eles podem concordar em apoiar a Holanda ou podem formar uma aliança defensiva com a Rússia”, e assim por diante. Cícero consegue ter sucesso sem formular ou representar diretamente esses tipos de pensamentos.

Como Cícero é treinado

  • Como praticamente todas as outras IAs práticas atuais, a construção do Cicero faz uso substancial da tecnologia de aprendizado de máquina. Os dados de treinamento tinham várias partes diferentes, algumas das quais envolvem trabalho substancial para serem criadas. Em última análise, o sistema dependia de quatro classes de dados personalizados, muito mais variados do que os encontrados em sistemas típicos de aprendizado profundo, com uma boa quantidade de dados construídos à mão (também raros no mundo do aprendizado profundo):
  • Um corpus de 125.300 jogos humanos jogados na plataforma online (destes 40.400 com diálogo, com um total de 12.900.000 mensagens individuais).
  • Um grande modelo de linguagem que parece ter sido treinado em bilhões de palavras, ainda mais afinado no corpus do diálogo do jogo.
  • Milhares de anotações geradas por especialistas, avaliando a qualidade das mensagens produzidas por uma versão preliminar do Cicero.
  • Uma grande coleção de conjuntos de dados sintéticos, muitos dos quais foram construídos manualmente, para treinar vários módulos. Por exemplo, para treinar o filtro que exclui mensagens inválidas, eles criaram uma coleção de mensagens inválidas construída manualmente. Outro conjunto de dados treinou Cícero sobre sua propensão a contabilizar incorretamente as entidades do quadro; ainda outro foi projetado para melhorar sua compreensão da negação. Um corpus de jogos de autojogo foi usado para aprendizado por reforço e assim por diante.

Com todos esses dados cuidadosamente projetados em mãos, o sistema precisava aprender o que as mensagens na linguagem significam em termos de ações do jogo; precisava aprender, por exemplo, que a sequência de palavras “Você quer torcer para a Holanda na Bélgica?” significa a ação marcada no jogo como “NTH S BEL”. Para fazer isso, Cícero assumiu que, de um modo geral, as sentenças no diálogo entre A e B se referiam às ações que A e B realizaram no final do diálogo. Espertamente, o sistema procurou na conversa posterior por alegações de desonestidade. Se B disse a A em algum momento "Você mentiu para mim no último turno", então isso indicava que as declarações de A para B no turno anterior não deveriam ser anotadas com as de A movimento real.

Fazer tudo isso funcionar junto é incrível.

Escopo e Limites

Cícero é uma maravilha em muitos aspectos; alcançou de longe a integração mais profunda e extensa de linguagem e ação em um mundo dinâmico de qualquer sistema de IA construído até hoje. Ele também conseguiu realizar interações complexas com humanos de uma forma nunca antes vista.

Mas também é impressionante em como ele faz isso. Surpreendentemente, e em oposição a grande parte do Zeitgeist, Cícero depende bastante do artesanato, tanto nos conjuntos de dados quanto na arquitetura; nesse sentido, ele é, em muitos aspectos, mais uma reminiscência da clássica “Boa e velha IA” do que os sistemas de aprendizado profundo que tendem a ser menos estruturados e menos personalizados para problemas específicos. Há muito mais inato aqui do que normalmente vimos em sistemas de IA recentes

Além disso, vale a pena notar que alguns aspectos de Cícero usam uma abordagem neurosimbólica para IA, como a associação de mensagens na linguagem com representação simbólica de ações, a compreensão embutida (inata) da estrutura do diálogo, a natureza da mentira como um fenômeno que modifica o significado dos enunciados, e assim por diante.

Dito isso, fica menos claro para nós quão generalizáveis são os detalhes de Cícero.

Até onde sabemos, Cícero foi testado apenas em uma única tarefa, a mesma tarefa para a qual foi cuidadosamente criado: jogar diplomacia blitz. Não poderia ser aplicado imediatamente ao desafio de, digamos, atendimento ao cliente ou guiar as ações de um robô doméstico, ou bem, quase qualquer outra coisa, na verdade. Mesmo dentro do mundo da Diplomacia, o escopo é um tanto limitado. Jogadores humanos, por exemplo, provavelmente podem lidar bem com um tabuleiro alternativo (o mapa da Europa de 1400, digamos) ou com regras ligeiramente revisadas para ações (por exemplo, forças que poderiam viajar por ar em vez de apenas por terra ou mar). Em Cícero, não há uma maneira simples de “apresentar” tais mudanças de regra ou mapa, e seu treinamento está fortemente vinculado à linguagem que descreve as ações específicas do quadro de Diplomacia padrão; quanto seria transferido não está claro. Nosso melhor palpite é que, se você jogou Diplomacia com regras alternativas, o sistema gostaria de ter treinado quase do zero,

E não há maneira fácil de retreinar Cícero. Se você quiser construir uma versão do AlphaZero que jogue em um tabuleiro Go 20x20, isso pode ser feito com muito pouco trabalho humano novo, já que o AlphaZero é treinado inteiramente em auto-jogo. Com Cicero, você teria que esperar até que os humanos tivessem jogado 125.000 jogos para treinar novamente, antes de poder continuar com o experimento.

Nada disso sugere um caminho fácil para adaptar Cícero a outras tarefas. A questão crítica que surge, como costuma acontecer na IA, é: até que ponto as técnicas usadas em Cícero se generalizam para outras situações envolvendo ação e interações sociais? Quais aspectos da arquitetura de execução, arquitetura de treinamento ou abordagem metodológica geral de Cícero serão úteis se quisermos construir uma IA que seja útil para alguma interação complexa com pessoas fora do mundo fechado e limitado da Diplomacia?

O sistema é complexo o suficiente para que não possamos prever isso com grande confiança, mas como as coisas estão agora, as perspectivas de generalização nos parecem um tanto limitadas; o estilo de trabalho pode muito bem ser útil em outros problemas, mas pode ser que não muito das especificidades da arquitetura sobreviveriam se o sistema fosse aplicado a outros problemas, como lances em jogos como bridge, ou negociar um horário de trabalho para uma equipe trabalhando em um projeto ou planejando um casamento.

O que o sucesso de Cícero indica sobre a IA em geral?

Cícero faz uso extensivo de aprendizado de máquina, mas dificilmente é um garoto-propaganda por simplesmente fazer modelos cada vez maiores, nem pela visão popular atual de aprendizado de máquina “ponta a ponta” em que alguns algoritmos de aprendizado geral único se aplicam em toda a linha, com pouca estrutura interna e conhecimento inato zero. No tempo de execução, o Cicero consiste em uma matriz complexa de módulos separados feitos à mão com interações complexas. Na hora do treinamento, ele se vale de uma ampla gama de materiais de treinamento, alguns elaborados por especialistas especificamente para Cícero, outros sintetizados em programas feitos à mão por especialistas.

No mesmo dia em que Cícero foi anunciado, houve um debate amigável na conferência da AACL sobre o tema "Is there more to NLP [natural language processing] than Deep Learning", com quatro ilustres pesquisadores formados há algumas décadas argumentando afirmativamente e quatro brilhantes jovens pesquisadores treinados mais recentemente argumentando contra o negativo. Cícero talvez seja um lembrete de que, de fato, há muito mais no processamento de linguagem natural do que aprendizado profundo.

Nosso take-away final? Já sabemos há algum tempo que o aprendizado de máquina é valioso; mas muitas vezes hoje em dia ML é considerado um solvente universal - como se o resto da IA fosse irrelevante - e deixado para fazer tudo por conta própria. Cícero pode mudar esse cálculo. Se Cícero serve de guia, o aprendizado de máquina pode acabar sendo ainda mais valioso se estiver embutido em sistemas altamente estruturados, com uma boa quantidade de maquinaria inata, às vezes neurossimbólica.

Referência: texto traduzido e levemente adaptado de: What does Meta AI’s Diplomacy-winning Cicero Mean for AI? que foi baseado no artigo acadêmico da revista Science: Human-level play in the game of Diplomacy by combining language models with strategic reasoning, de diversos autores da da equipe de pesquisa fundamental de IA da Meta.

Um abraço, @neigrando

Entre para ver ou adicionar um comentário

Outras pessoas também visualizaram

Conferir tópicos