Algoritmos, Modelos e Ferramentas: Entendendo a IA Além do ChatGPT
A maioria das pessoas foi apresentada à IA através do ChatGPT e da explosão da IA em 2023. O ChatGPT é uma ferramenta com o propósito de ser simples e fácil, sempre pronta para responder de forma rápida e parecendo super-humana, passando a impressão de que é simples e que está sempre aprendendo. No entanto, a realidade é um pouco diferente. Analisar a IA apenas sob este prisma oferece uma visão distorcida da realidade; por isso, é crucial entender as bases. Se o seu foco é usar a IA como negócio, é essencial deixar de pensar como um usuário final do ChatGPT.
Com a liberação do código do Grok para se tornar um modelo open source, muitas pessoas expressaram preocupações, sugerindo que isso seria ruim, pois, se a empresa oferece algo gratuitamente, ela poderia falir. Porém, a realidade é justamente o oposto. É comum termos essa percepção equivocada, o que será esclarecido por meio dos três conceitos que abordarei neste post. Após a leitura, você estará mais preparado para o mercado e compreenderá como transformar a IA em negócio.
Para resumir de forma simples, para que uma ferramenta de IA generativa chegue ao mercado, ela passa por três etapas.
1- A primeira é o algoritmo de IA, que é o código em si, sem treinamento - apenas o algoritmo. Se for liberado para o mercado sem treinamento, a IA será ineficaz, produzindo imagens sem sentido ou textos desconexos.
2- O modelo é o resultado do algoritmo após passar por um treinamento. Por exemplo, se ele foi treinado com fotos de qualidade, poderá gerar novas fotos; ou se foi treinado com textos, será capaz de criar bons textos. Os treinamentos são caros e exigem uma infraestrutura robusta para desenvolver um modelo eficiente, e os próprios modelos requerem uma estrutura complexa para operar. Para ilustrar, o Grok, para ser executado em uma máquina ou servidor, precisa, no mínimo, de quase 300GB de espaço e de uma placa NVIDIA que custe mais de R$5.000; assim, mesmo oferecendo um modelo gratuitamente, apenas um grupo seleto de pessoas e empresas poderá utilizar esse modelo.
Recomendados pelo LinkedIn
3-Por fim, temos a ferramenta: ela é a combinação de vários modelos integrados em uma interface amigável, operando, na maioria das vezes, online, para que até PCs menos potentes ou celulares possam usá-la, seja para escrever um prompt e receber uma resposta imediata, seja ela em texto, imagem ou ambos.
Vamos agora a algumas correções e frases que você pode ouvir por aí: ChatGPT é uma ferramenta; ele não é o modelo. De fato, dentro do ChatGPT, diversos modelos estão em funcionamento, como o GPT-4, que é uma LLM, responsável pelos textos; o DALL-E 3, um modelo de difusão que gera as imagens; além de um modelo de visão, que interpreta imagens enviadas; e um modelo de voz, que lê textos em voz alta. São, portanto, vários modelos atuando simultaneamente na ferramenta. Outro exemplo de ferramenta conhecida é o Midjourney. Nela, você encontra vários modelos atuando; por exemplo, o Midjourney V6 é o modelo de difusão responsável pela criação das imagens. Além disso, dentro da ferramenta, existem modelos de visão e modelos de controle. Mais recentemente, foi adicionada uma nova função que permite replicar rostos, ou seja, um novo modelo de controle foi instalado nela para atuar com os modelos existentes.
As empresas de tecnologia lucram com a ferramenta ou com APIs, oferecendo a melhor experiência dessa combinação de modelos. Assim, quando você ouvir que uma empresa disponibilizou um modelo open source, não significa que o ChatGPT esteja gratuito para todos ou que o Grok, a ferramenta do Twitter, esteja grátis; o que está disponível gratuitamente é o modelo treinado de linguagem (LLM gera apenas texto, não imagens, então evite perguntas e erros conceituais como: "Qual LLM gerou esta imagem?") para que você baixe os 300GB e, caso tenha uma máquina com uma NVIDIA acima de R$5.000, o execute.
Mas por que liberar o modelo é lucrativo para as empresas que o fazem? Primeiramente, ao disponibilizar o modelo, você permite que outras empresas utilizem seu modelo para criar novas ferramentas; desenvolver produtos com base na sua estrutura inicial permite que você mantenha um certo controle. Eu vivenciei isso desde 2016, atuando com IA no marketing: as duas startups de IA que criei foram baseadas em modelos de terceiros e fechados; em ambos os casos, a empresa proprietária do código fez uma pequena alteração, tornando as startups inviáveis. Por isso, alerto especialmente as empresas que dependem de tecnologia de terceiros, principalmente fechadas. Em segundo lugar, ao liberar o modelo, você pode lucrar com a venda de API: modelos disponibilizados são testados extensivamente e resultam em diversas soluções inovadoras usando-os como base, mas nem todas as empresas ou indivíduos têm recursos para rodar seu próprio modelo, então contratam o acesso ao seu ambiente onde o modelo está operacional, pagando pelo uso. Em terceiro lugar, sendo open source, mais empresas utilizam sua tecnologia, o que acaba consolidando sua posição de líder de mercado e fazendo com que sua ferramenta seja vista como a melhor para determinada aplicação, mesmo sendo utilizada por outras empresas.
Resumindo, entender a diferença entre modelos e ferramentas ajudará você a compreender todo o ecossistema de negócios de IA e a não pensar apenas como um consumidor final. Compartilhe este texto com outras pessoas para disseminarmos informações mais realistas sobre o mercado de IA. Deixe seu comentário abaixo sobre o que achou.