Os 5 principais artigos de pesquisa em IA em 2023: Google, Meta, Microsoft e Outros
A área de pesquisa em Inteligência Artificial (IA) continua a prosperar, com grandes empresas como Google, Meta (anteriormente Facebook) e Microsoft liderando o caminho. No ano de 2023, diversos artigos influentes foram publicados, impulsionando o avanço dessa tecnologia revolucionária. Fui em busca dos 5 principais artigos de pesquisa em IA:
#1 Sparks of Artificial General Intelligence: Early experiments with GPT-4
Neste artigo de pesquisa, uma equipe da Microsoft Research analisa uma versão inicial do GPT-4 da OpenAI, que ainda estava em desenvolvimento ativo na época. A equipe argumenta que o GPT-4 representa uma nova classe de grandes modelos de linguagem, exibindo inteligência mais generalizada em comparação com modelos anteriores de IA. A investigação revela as capacidades expansivas do GPT-4 em vários domínios, incluindo matemática, codificação, visão, medicina, direito e psicologia. Eles destacam que o GPT-4 pode resolver tarefas complexas e novas sem orientação especializada, muitas vezes alcançando um desempenho próximo ao nível humano.
Uma palestra do próprio autor:
A equipe da Microsoft também enfatiza o potencial do GPT-4 para ser considerado uma forma inicial, embora incompleta, de inteligência artificial geral (AGI). Eles se concentram na identificação das limitações do GPT-4 e discutem os desafios no progresso em direção a versões AGI mais avançadas e abrangentes. Isto inclui considerar novos paradigmas além do atual modelo de previsão da próxima palavra.
#2 PaLM-E: An Embodied Multimodal Language Model
O artigo de pesquisa apresenta o PaLM-E , uma nova abordagem para modelos de linguagem que preenche a lacuna entre palavras e percepções no mundo real, incorporando diretamente entradas contínuas de sensores. Este modelo de linguagem incorporada integra perfeitamente sentenças multimodais contendo estimativa de estado visual, contínua e informações textuais. Essas entradas são treinadas de ponta a ponta com um LLM pré-treinado e aplicadas a várias tarefas incorporadas, incluindo planejamento de manipulação robótica sequencial, resposta visual a perguntas e legendas.
O PaLM-E, particularmente o maior modelo com parâmetros 562B, demonstra desempenho notável em uma ampla gama de tarefas e modalidades. Notavelmente, ele se destaca em tarefas de raciocínio incorporado, exibe transferência positiva de treinamento conjunto em domínios de linguagem, visão e linguagem visual e apresenta capacidades de última geração em benchmarking OK-VQA. Apesar de seu foco no raciocínio incorporado, o PaLM-E-562B também exibe uma série de recursos, incluindo raciocínio de cadeia de pensamento multimodal de disparo zero, prompt de poucos disparos, raciocínio matemático sem OCR e raciocínio de múltiplas imagens, apesar de ser treinado apenas em exemplos de imagem única.
#3 Llama 2: Open Foundation and Fine-Tuned Chat Models
LLaMA 2 é uma versão aprimorada de seu antecessor, treinado em um novo mix de dados, apresentando um corpus de pré-treinamento 40% maior, comprimento de contexto duplicado e atenção de consulta agrupada. A série de modelos LLaMA 2 inclui LLaMA 2 e LLaMA 2-Chat , otimizados para diálogo, com tamanhos que variam de 7 a 70 bilhões de parâmetros. Esses modelos apresentam desempenho superior em benchmarks de utilidade e segurança em comparação com equivalentes de código aberto e são comparáveis a alguns modelos de código fechado.
O processo de desenvolvimento envolveu medidas de segurança rigorosas, incluindo anotação de dados específicos de segurança e red-teaming. O artigo visa contribuir para o desenvolvimento responsável de LLMs, fornecendo descrições detalhadas de metodologias de ajuste fino e melhorias de segurança.
#4 LLaVA: Large Language and Vision Assistant
O artigo de pesquisa apresenta LLaVA , Large Language and Vision Assistant, um modelo multimodal inovador que aproveita o GPT -4 somente de linguagem para gerar dados de acompanhamento de instruções para texto e imagens. Esta nova abordagem estende o conceito de sintonia de instrução ao espaço multimodal, permitindo o desenvolvimento de um assistente visual de uso geral.
O artigo aborda o desafio da escassez de dados de acompanhamento de instruções de linguagem visual, apresentando um método para converter pares imagem-texto no formato apropriado de acompanhamento de instruções, utilizando GPT-4. Eles constroem um grande modelo multimodal (LMM) integrando o codificador visual de conjunto aberto do CLIP com o decodificador de linguagem LLaMA. O processo de ajuste fino nos dados de linguagem de visão instrucional gerados mostra-se eficaz, e insights práticos são oferecidos para a construção de um agente visual de acompanhamento de instrução de uso geral.
As contribuições do artigo incluem a geração de dados multimodais de acompanhamento de instruções, o desenvolvimento de grandes modelos multimodais por meio de treinamento ponta a ponta em dados gerados e a obtenção de desempenho de última geração no conjunto de dados de raciocínio multimodal Science QA.
Recomendados pelo LinkedIn
#5 Generative Agents: Interactive Simulacra of Human Behavior
Agentes Generativos é um termo cunhado por pesquisadores da Universidade de Stanford e do Google em seu artigo chamado Agentes Generativos: Simulacros Interativos do Comportamento Humano (Park et al ., 2023). Neste artigo, a pesquisa explica que Agentes Geradores são softwares computacionais que simulam de forma confiável o comportamento humano.
No artigo, eles apresentam como os agentes poderiam agir como os humanos fariam: escrever, cozinhar, falar, votar, dormir, etc., através da implementação de um modelo generativo, especialmente o Large Language Model (LLM). Os agentes podem mostrar a capacidade de fazer inferências sobre si mesmos, outros agentes e seu ambiente, aproveitando o modelo de linguagem natural.
O pesquisador constrói uma arquitetura de sistema para armazenar, sintetizar e aplicar memórias relevantes para gerar comportamento verossímil usando um grande modelo de linguagem, habilitando agentes generativos. Este sistema é constituído por três componentes, são eles:
Gostou deste artigo? Inscreva-se para mais novidades de pesquisa de IA, estarei sempre de olho hehe.
Em 2024 vamos ter ainda mais avanços e GRANDES novidades na área, é impressionante a capacidade de resolver problemas complexos que estamos ganhando através dessas descobertas no campo da IA.
Referências :
BUBECK, Sébastien et al. Sparks of artificial general intelligence: Early experiments with gpt-4. arXiv preprint arXiv:2303.12712, 2023.
DRIESS, Danny et al. Palm-e: An embodied multimodal language model. arXiv preprint arXiv:2303.03378, 2023.
TOUVRON, Hugo et al. Llama 2: Open foundation and fine-tuned chat models, 2023. URL https://arxiv. org/abs/2307.09288, 2023.
LIU, Haotian et al. Visual instruction tuning. arXiv preprint arXiv:2304.08485, 2023.
PARK, Joon Sung et al. Generative agents: Interactive simulacra of human behavior. In: Proceedings of the 36th Annual ACM Symposium on User Interface Software and Technology. 2023. p. 1-22.