O que você deve saber sobre o Google I/O 2024
Enfim concluímos mais um Google I/O, dessa vez um evento menor, porém com muitos anúncios sobre inteligência artificial, em especial a IA Generativa através da Gemini, além de muitas outras novidades em vários produtos.
Para começar, além de IA ter sido “falada” por mais de 121 vezes, e até o CEO da Alphabet, Sundar Pichai, respondeu com esse número à uma provocação que gerou um meme na penúltima edição do evento, o que mais me chamou a atenção foi sobre a “multimodalidade” do Gemini, isso quer dizer que cada vez mais a IA generativa do Google vai permitir você utilizar qualquer tipo de conteúdo para agregar informações e solicitar que a IA responda baseado nesses dados.
Porém existe um desafio: quanto mais dados você fornece, mais custoso ou mais parâmetros são necessários e LLMs (Large Language Models em inglês ou grandes modelos de linguagem) requerem mais poder computacional e mais “tokens”, que é a unidade que classificamos as instruções dadas para a IA. Então vamos ao primeiro anúncio: A Gemini vai permitir 2M (milhões) de tokens na janela de contexto, o que significa que um contexto de dados maior será possível! Existe um formulário para participar da lista de espera.
Uma informação importante: com este anúncio a Gemini passa a ser a LLM que permite o uso de mais tokens no mercado até o momento que este texto foi publicado 😉.
Eu vou listar abaixo alguns dos anúncios que mais me chamaram a atenção, do total de 100 anúncios que você pode conferir no blog post oficial.
Gemini et All
Tem muita coisa para falar de Gemini e como esse LLM vai se conectar com vários produtos da Google, incluindo os produtos corporativos do Google Workspace. Desde a possibilidade da criação de agentes, através do Gem (em resposta aos agentes da OpenAI), até a integração mais próxima da plataforma Android e de outros produtos como o próprio Firebase.
Todos os tópicos abaixo estão conectados com a IA Generativa e quero destacar alguns pontos:
Gemini 1.5 Pro e 1.5 Flash
É óbvio que quem desenvolve prompts para IA generativa sabe que o custo é um fator importante e uma coisa que me chamou a atenção com o lançamento do Gemini 1.5 Pro e do Gemini 1.5 Flash foi deixar claro e criar dois tiers de precificação, bem como informar quais os focos de cada um. Portanto, se você está construindo algo que requer tarefas mais complexas, o Gemini 1.5 Pro é o modelo adequado, mas tarefas corriqueiras e que sejam mais limitadas, você pode optar pelo Flash, que é um modelo mais barato e que também tem um tempo de resposta mais rápido, o que também é outro fator importante.
Detecção de conteúdos gerados por IA
A Google possui um produto chamado SynthID que permite identificar conteúdos de imagem e áudio gerados por IA Generativa. Já era possível reconhecer imagens e áudios e o grande anúncio é que agora também será possível validar textos e vídeos!
Isso é algo super importante para conseguirmos classificar e validar esses conteúdos. Hoje já existe uma discussão no Brasil sobre esses conteúdos no processo eleitoral e ferramentas como essa serão úteis para fiscalizar o uso e produção de conteúdos criados por IA.
Projeto Astra: O agente de IA universal
Eu sei, você sabe e todo mundo já imagina que em vídeo cabe tudo né? Mas a demo do Project Astra, uma IA contextual com interação contínua, vai permitir agregar uma enorme possibilidade de interações com pessoas, abrindo um leque gigantesco de oportunidades.
Imagine que você vai ter 100% do seu tempo uma “pessoa” te acompanhando e respondendo qualquer dúvida que tenha e que lembra o que você fez, aonde esteve, o que e com quem interagiu. Isso é muito poderoso (e ao mesmo tempo perigoso)!
O Astra é isso, uma IA baseada em comunicação audiovisual (áudio e imagem) ligada 100% do tempo. É óbvio que existem desafios: o primeiro é que uma conexão em tempo real 100% do tempo requer energia e os devices hoje não estão preparados para isso. Mas num futuro (espero que próximo), isso deve ser resolvido. Como? Ainda não sei.
Durante a demonstração, feita em dois dispositivos: um celular e um óculos, permitia que a pessoa fizesse perguntas, apontasse para coisas e perguntasse sobre elementos que foram capturados pela câmera. Por mais simples que possa parecer, lembre-se sobre a dificuldade que temos sobre a questão de armazenar um volume massivo de dados e repassar para a IA de forma que ela consiga obter informações.
Uma coisa que não fica claro é se a Google vai lançar um óculos inteligente. Já tivemos a experiência com o Google Glass, que não foi tão bem-sucedida assim, mas já temos outros players no mercado que já construíram dispositivos como essa (sim, estou falando do RayBan feito em parceria com a Meta).
E sinceramente, a demonstração foi a ponta do iceberg, pois, uma vez que essa IA tem acesso a todas as informações que você armazena no Google, será possível inúmeras ações, vou citar algumas aqui:
Estas são algumas das possibilidades que vieram à minha cabeça, mas existem muitas outras, em especial relacionadas a acessibilidade e a construir alternativas para pessoas com baixa visão. Comente aqui quais são as possibilidades que você imagina!
Google AI Edge
O principal desafio da IA Generativa é reduzir a latência. Algumas vezes isso pode ocorrer ao trazer modelos de Machine Learning para a borda, ou seja, diretamente para o dispositivo que vai realizar a captura do dado e fazer o processamento direto nele.
Algumas tentativas foram feitas em relação a isso, em especial para dispositivos IoT, como aconteceu com a implementação do AIY Vision Kit que incluía um chip da Movidius MV2450, que permitia rodar uma rede neural profunda diretamente no dispositivo.
Recomendados pelo LinkedIn
Neste I/O foi anunciado o Google AI Edge, como uma plataforma (ou solução) que agrupa todas as tecnologias de IA na borda, incluindo o TensorFlow Lite, MediaPipe, além de ferramentas para visualização e análise de modelos. O grande benefício ao meu ver aqui é a possibilidade de rodar modelos offline, sem a necessidade de recorrer à nuvem.
Novidades no Firebase
Além da nova logo do Firebase, muitos anúncios relacionados a integração com a IA Generativa foram feitos, além de algumas outras novidades que são demandas da comunidade há muito tempo. Vou destacar algumas que acho bem interessantes e o que me chamou a atenção aqui é que boa parte dos lançamentos fazem uso das outras tecnologias de nuvem da Google, mas de forma automatizada. Você vai perceber que todas elas constróem por baixo dos panos uma infraestrutura que suporte cada uma das funcionalidades mencionadas.
Firebase Data Connect com Cloud SQL
O Firebase é a principal plataforma para desenvolvimento rápido de aplicações multiplataforma. Se você quer construir um app para dispositivos móveis e web, mas sem precisar se preocupar com a estrutura de backend e uso de banco de dados no-SQL, ele é um ótimo ponto de partida.
Porém uma das principais demandas de pessoas desenvolvedoras na plataforma era a possibilidade de uso de banco de dados SQL. Neste I/O foi anunciado o Data Connect, uma nova opção que permitirá conectar diretamente com banco de dados PostgreSQL, fornecido pela Google Cloud SQL.
Além das funcionalidades básicas de todo banco SQL, ele também inclui a busca vetorial de dados (olá IA!), gatilho de funções, entre outras! Você pode definir o modelo do seus dados, as consultas ao banco e as modificações que deseja permitir, tudo baseado em GraphQL. Ao implementar uma base de dados com o Data Connect, ele irá automaticamente construir o banco de dados no Cloud SQL, um servidor de API baseado na estrutura do Google Cloud, incluindo controle de acesso aos dados e um SDK para uso nas suas aplicações web e mobile.
O Data Connect está em Beta público e você pode solicitar participar do programa através do console do Firebase ou no site do Firebase Data Connect.
Firebase Genkit: Gemini no Firebase
Este é o segundo destaque mais importante para mim do Firebase: o GenKit é um framework de código aberto que foi criado para integrar serviços de IA Generativa na nuvem, para permitir a construção e implementação de funcionalidades de IA em aplicações mobile e web.
O uso desse framework reduz a complexidade da integração dessa tecnologia, permite a utilização de múltiplos modelos e ferramentas (Gemini Pro, Gemini 1.5 Pro, Gemini Pro Vision, Imagen2, Anthropic Claude 3, Llama 3, Mistral, LangChain, ChromaDB, Pinecone, entre outros), oferece a possibilidade de definir um esquema de saída e a criação de ferramentas para execução de tarefas.
Ao meu ver essa é a tentativa da Google de se posicionar dentro do mercado de LLMs e oferecer a Gemini de forma simplificada, permitindo a qualquer pessoa desenvolvedora a construção rápida e uso da IA Generativa.
Outro ponto importante é que o GenKit, além de fornecer uma interface de visualização e teste, ele permite também executar e inspecionar a execução dos fluxos localmente, dando maior visibilidade no momento de construção dos prompts.
Firebase App Hosting
Distribuir aplicações web de última geração tem sido uma das principais demandas da comunidade Firebase e que agora é possível com o lançamento do Firebase App Hosting, ainda em “preview”, combinando a oferta de uma CDN até a renderização do lado do servidor (server-size rendering). O suporte nativo a frameworks modernos, como Angular e NextJS vem para concorrer com serviços como a Vercel.
Quais são os próximos passos?
Eu confesso que a gente tem um futuro promissor na nossa frente e é claro que ele vai depender de como entendemos o papel da tecnologia: ela deve nos ajudar ou nos substituir? Será que a singularidade vai chegar em algum momento e seremos obsoletos enquanto carne e osso ou será que passaremos a nos preocupar mais com nosso bem estar?
Se você quer espiar essas novas tecnologias e tentar dar um uso responsável e humanizado para as IAs, confira algumas coisas que já pode começar agora mesmo:
Divulgando 👏🏾
Fundadora & Diretora Geral de Ideias de Futuro
7 mArrasou no resumo, tks por compartilhar suas visões sempre tão ricas!