OpenAI, empresa do ChatGPT, introduz IA capaz de simular mundos

Essa semana, a OpenAI apresentou a ferramenta Sora que consegue criar vídeos realistas a partir de texto com instruções sobre o vídeo. Esse é o maior lançamento da empresa desde o ChatGPT e GPT 4.

Cena de um vídeo gerado pelo Sora
Cena de um vídeo gerado pelo Sora com as instruções de "mulher estilosa andando por Tóquio". Crédito: OpenAI

Durante o ano passado, a empresa de inteligência artificial OpenAI ficou mundialmente conhecida com a popularidade do ChatGPT. Em pouco tempo, ChatGPT se tornou a ferramente mais rápida a alcançar 1 milhão de usuários, ultrapassando Facebook e Instagram. Até hoje, o ChatGPT é comumente usado devido sua capacidade de criar textos.

Com o DALL-E, a empresa já mostrava o avanço no uso de textos para gerar imagens e vídeos. A ideia é uma ferramenta semelhante ao ChatGPT mas que retornava imagens em vez de textos. Ano passado, DALL-E foi implementado no buscador Bing da Microsoft. A Microsoft conseguiu os direitos de implementar tanto ChatGPT quanto DALL-E.

Essa semana, eles deram mais um passo no uso de inteligência artificial generativa com a introdução do Sora. Sora é uma ferramente que consegue criar vídeos realistas a partir de texto com instruções, semelhante ao ChatGPT e DALL-E. No anúncio, a OpenAI afirmou que Sora é capaz de simular mundos físicos de forma realista.

Inteligência artificial generativa

A área de inteligência artificial é abrangente e possui uma variedade de técnicas diferentes dependendo da aplicação. Nos últimos anos, uma área chamada inteligência artificial generativa ganhou destaque. A IA generativa corresponde a modelos que são construídos para gerar novos dados que vão desde textos até vídeos.

Inteligência artificial generativa é treinada de forma a aprender características e propriedades de dados já existentes para gerar mais dados do tipo.

A IA generativa começou a ganhar popularidade em 2014 quando o cientista Ian Goodfellow introduziu as redes neurais generativas (ou, em inglês, GANs). As GANs usavam técnicas de teoria de jogos para gerar novas imagens a partir de ruídos. O avanço mesmo aconteceu quando a Google introduziu um novo tipo de arquitetura chamado de Transformers.

Transformers

Se você pensa no que significa o T de GPT é por causa da técnica que foi usada para construir esses modelos: as transformers. Elas são um tipo de arquitetura que foram introduzidas em 2017. O uso original das transformers foi em aplicações de processamento de linguagem natural.

Esquema de uma transformer
Esquema de uma transformer com as camadas de atenção. Crédito: NVIDIA

O diferencial da transformer está em uma camada chamada de atenção ou mecanismo de atenção. Essa camada utiliza ferramentas matemáticas que fazem com que a função preste atenção em diferentes regiões dos dados. Com essa camada, o modelo consegue realizar tarefas com base nas partes mais importantes.

Além disso, as transformers foram construídas de forma a lidar com sequências. Uma frase é uma sequência de palavras que possuem relações que podem ser complexas. As transformers conseguem entender a relação entre palavras em uma frase. Mais tarde, a aplicação de transformers foi para sequências temporais ou sequências de pixels que formam imagens.

Gerar textos, imagens e vídeos

Nesses últimos anos, diversas empresas e pesquisadores focaram no uso de transformers para inteligência artificial generativa. A capacidade de aprendizado de arquiteturas usando transformers se mostrou com um potencial alto. Não demorou muito para que ferramentas públicas fossem criadas com base nas transformers.

A mais famosa entre essas ferramentas é o ChatGPT que foi introduzido pela OpenAI. O ChatGPT utiliza transformer em seu arquitetura é um modelo conhecido como text-to-texto, ou seja, de texto para texto. No entanto, logo a OpenAI introduziu o DALL-E que também funciona com transformers e é um tipo text-to-image. Agora, o Sora surge como uma ferramenta text-to-video.

Sora

Segundo a OpenAI, Sora é um modelo que foi ensinado a entender e simular o mundo físico através de vídeos. Sora consegue gerar vídeos de até 1 minuto que são extremamente realistas apenas com base em um texto com instruções de entrada. Na página oficial do projeto, diversos vídeos criados pelo modelo foram disponibilizados.

Na página, OpenAI argumenta que o modelo é capaz de gerar cenas complexas com vários personagens, tipos específicos de movimento e detalhes precisos do assunto e do fundo. Além disso, outra vantagem é que o modelo consegue criar cenas considerando o ambiente e como as coisas existem no mundo físico.

Criar mundos

A empresa se refere ao modelo como “simulador de mundos” já que ele apresenta a capacidade de compreender o mundo físico e tridimensional. O modelo consegue criar, com base nessa compreensão, outras versões desse mundo dada as instruções em texto como entrada. Porém, a OpenAI admite que Sora ainda está em fase de teste e possui limitações.

Algumas das limitações estão associadas a confusão de aspectos espaciais, por exemplo. Se descrever como quer que a câmera crie as imagens, Sora pode ter dificuldade em entender a posição. Um erro que viralizou foi que Sora criou uma cadeira de plástico como se fosse areia em um vídeo imitando arqueólogos escavando.