Tecnologia

Sora, novo modelo da OpenAI, gera vídeos de até 1 minuto com IA

Por meio de inteligência artificial generativa e ainda com imperfeições, Sora transforma comandos de texto em vídeos de alta qualidade com até 60 segundos

Imagem: OpenAI/Divulgação

Por Murilo Tunholi16 de fevereiro de 2024 às 10:484 minutos de leitura

Criadora do ChatGPT, a OpenAI lançou, nesta quinta-feira (15), um novo modelo de inteligência artificial generativa: Sora. Com ele, é possível gerar vídeos em alta resolução de até um minuto a partir de comandos em texto.

Por enquanto, a ferramenta está disponível apenas para um pequeno grupo de pesquisadores, artistas visuais, designers e cineastas. Esse grupo seleto de usuários deve analisar o modelo para descobrir possíveis problemas e riscos durante o uso.

Sora é capaz de gerar vídeos complexos de até 60 segundos

O Sora, que significa “céu” em japonês, vai demorar para ficar disponível para o público geral. Com promessa de ser bastante poderoso, o modelo que transforma textos em vídeos é capaz de entender os mínimos detalhes inclusos nos comandos.

“Sora é capaz de gerar cenas complexas com vários personagens, tipos específicos de movimento e detalhes precisos tanto no primeiro quanto no segundo plano. O modelo entende não apenas o que o usuário pediu no comando, mas também como essas coisas existem no mundo físico.

O modelo tem um profundo conhecimento da linguagem, o que lhe permite interpretar com precisão as instruções e gerar personagens atraentes que expressam emoções vibrantes. Sora também pode criar várias tomadas em um único vídeo gerado que mantém com precisão os personagens e o estilo visual”.

OpenAI.

Exemplos de vídeos gerados com o Sora

A OpenAI compartilhou nas redes sociais alguns vídeos criados a partir do Sora, junto aos comandos usados para gerar os materiais. Alguns exemplos são:

Prompt: “A linda e nevada cidade de Tóquio está movimentada. A câmera se move pelas movimentadas ruas da cidade, acompanhando diversas pessoas aproveitando o lindo clima de neve e fazendo compras nas barracas próximas. Lindas pétalas de sakura estão voando ao vento com flocos de neve”.

Introducing Sora, our text-to-video model.
Sora can create videos of up to 60 seconds featuring highly detailed scenes, complex camera motion, and multiple characters with vibrant emotions. Prompt: “Beautiful, snowy… — OpenAI (@OpenAI)

Prompt: “Vários mamutes peludos gigantes se aproximam caminhando por um prado nevado, seu longo pelo lanoso balança levemente ao vento enquanto caminham, árvores cobertas de neve e montanhas cobertas de neve dramáticas ao longe, luz do meio da tarde com nuvens finas e um sol alto a distância cria um brilho quente, a visão baixa da câmera é impressionante, capturando o grande mamífero peludo com uma bela fotografia e profundidade de campo”.

Prompt: “Several giant wooly mammoths approach treading through a snowy meadow, their long wooly fur lightly blows in the wind as they walk, snow covered trees and dramatic snow capped mountains in the distance, mid afternoon light with wispy clouds and a sun high in the distance… — OpenAI (@OpenAI)

Prompt: “A cena animada apresenta um close-up de um monstro pequeno e fofo ajoelhado ao lado de uma vela vermelha derretida. O estilo artístico é 3D e realista, com foco em iluminação e textura. O clima da pintura é de admiração e curiosidade, enquanto o monstro olha para a chama com olhos arregalados e boca aberta. A sua pose e expressão transmitem uma sensação de inocência e diversão, como se estivesse a explorar o mundo à sua volta pela primeira vez. O uso de cores quentes e iluminação dramática realça ainda mais a atmosfera aconchegante da imagem”.

Prompt: “Animated scene features a close-up of a short fluffy monster kneeling beside a melting red candle. the art style is 3d and realistic, with a focus on lighting and texture. the mood of the painting is one of wonder and curiosity, as the monster gazes at the flame with… — OpenAI (@OpenAI)

O Sora não é perfeito

Assim como todos os modelos de inteligência artificial generativa, o Sora não é perfeito. Em um dos exemplos disponíveis no , o comando pede um vídeo de um “cachorro dálmata olhando por uma janela e pessoas caminhando e andando de bicicleta pelas ruas do canal”. Porém, a ferramenta omite totalmente as pessoas e as ruas no vídeo.

Segundo a OpenAI, o modelo tem dificuldade para entender causa e efeito. É possível, por exemplo, ter um vídeo em que uma pessoa morde um biscoito, mas o biscoito não fica com marcas de mordida.

O Sora não é o primeiro modelo que transforma textos em vídeos. Outras empresas, como Meta, Google e Runway, também têm ferramentas parecidas. Contudo, nenhuma delas é capaz de gerar vídeos inteiros com até 60 segundos de uma só vez.

OpenAI quer evitar mau uso do Sora

A OpenAI ainda disse estar trabalhando com especialistas que estudam desinformação, conteúdo de ódio e preconceito para testar a plataforma antes de liberar ao público. A empresa também prometeu lançar ferramentas capazes de detectar vídeos gerados pelo Sora e incluir metadados nos vídeos para facilitar a detecção.

Até o momento, a OpenAI não informou como treinou o Sora. Ao — que, aliás, está processando a OpenAI por violação de direitos autorais —, a empresa explicou apenas ter utilizado “vídeos disponíveis publicamente”, assim como “vídeos licenciados pelos detentores dos direitos autorais”.

Murilo Tunholi

Jornalista especializado em tecnologia, jogos, entretenimento e ciência. Já passou por grandes redações do Brasil (TechTudo, Tecnoblog, Terra e Olhar Digital) e trabalhou com relações públicas e assessoria de imprensa na Theogames, atendendo à Blizzard Entertainment e mais clientes do mercado de videogames. É apaixonado pela cultura geek, música e produção de conteúdo. Nas horas vagas, é aspirante a artista marcial e cozinheiro.