A Revolução dos Modelos Text2Video
A indústria de inteligência artificial está em constante evolução, e os modelos de Text2Video são um exemplo claro desse progresso.
Recentemente, me deparei com um estudo de caso muito legal que explorou as funcionalidades do Open-Sora 1.1 Stage3 para criar animações em stop motion, e os resultados são incríveis! Especialmente para desenvolvedores e criadores de conteúdo.
Mas como garantir que os modelos gerem vídeos que atendam às necessidades específicas de projetos? A resposta está no fine-tuning.
Utilizando o modelo open-source Open-Sora, o estudo realizou o treinamento de dois modelos: o text2bricks-360p-64f e o text2bricks-360p-32f. Abaixo um resumo do processo e como ele pode beneficiar a jornada na criação de conteúdo dinâmico e personalizado.
Setup e Infraestrutura
Toda essa magia foi possível graças a uma infraestrutura bastante robusta. Um cluster Lambda 1-Click com 32 GPUs NVIDIA H100 SXM Tensor Core conectadas por uma rede de 400 Gb/s NVIDIA Quantum-2 InfiniBand, permitindo a escalabilidade horizontal necessária.
Além disto, foram utilizadas as ferramentas NVIDIA CUDA, PyTorch e Transformers, para o ambiente de desenvolvimento do Open-Sora.
Bases de Dados e Processamento
O dataset foi compilado a partir de vários canais populares do YouTube especializados em animações de stop motion com blocos LEGO, como MICHAELHICKOXFilms e LEGO Land. Com o GPT-4o esses vídeos foram catalogados com descrições detalhadas que ajudaram o modelo a entender e reproduzir os estilos dessas animações.
Recomendados pelo LinkedIn
Modelos e Resultados
Ao todo, foram investidos mais de 1.000 horas de GPU para treinar o modelo text2bricks-360p-64f, que foi capaz de produzir vídeos de 360p com até 64 quadros. Um segundo modelo, mais econômico em termos de tempo de treinamento, mas igualmente eficaz - o text2bricks-360p-32f - foi criado em apenas 170 horas de GPU.
Os resultados desse fine-tuning foram incríveis!
Alguns exemplos de resultados obtidos:
Incrível, neh?!
E o time do projeto indicou algumas áreas de melhorias dos modelos, como a consistência temporal em sequências mais longas e a redução de ruídos. Além disso, a melhoria na resolução e na quantidade de frames são itens que o time do projeto deseja explorar para aumentar ainda mais a aplicabilidade desses modelos.