Omnihuman-1: dona do tiktok lança ia que cria vídeos humanos a partir de uma única imagem. Foto: reprodução / omnihuman-1.

OmniHuman-1: dona do TikTok lança IA que cria vídeos humanos a partir de uma única imagem

Avatar de alexandre marques
A Bytedance, empresa controladora do TikTok, apresentou uma nova IA de modelos de animação humana. Entenda como e por que essa ferramenta pode ser revolucionária.

A Bytedance, proprietária do TikTok, apresentou recentemente o OmniHuman-1, uma nova inteligência artificial que gera vídeos humanos extremamente realistas a partir de uma única imagem. A ferramenta se destaca por utilizar sinais fracos, como áudio, para criar esses vídeos, estabelecendo um novo padrão em métodos de criação de conteúdo digital existentes. Confira tudo sobre a novidade:

Como o OmniHuman-1 funciona

Alan turing, pioneiro da computação e inteligência artificial, em foto histórica.
Imagem estática de Albert Einstein usada para gerar um novo vídeo com o OmniHuman-1. Foto: Reprodução / OmniHuman-1.

O OmniHuman-1 utiliza uma inovadora estrutura de geração de vídeos humanos condicionados por multimodalidade, que consegue criar vídeos altamente realistas a partir de uma única imagem humana e sinais de movimento, como áudio e vídeo. Sua arquitetura incorpora uma estratégia de treinamento misto, que permite ao modelo aprender a partir de uma quantidade de dados de diferentes fontes. Isso resolve o problema das abordagens anteriores de outros modelos, que enfrentavam muitas vezes dificuldades devido à falta de dados de alta qualidade para treinamento.

A ferramenta suporta entradas de imagens em diversas proporções, como retratos, imagens de meio corpo e corpo inteiro. Esse recurso é essencial para a criação de vídeos realistas em diferentes contextos e cenários. Além disso, o OmniHuman-1 consegue manter a fidelidade dos detalhes, como movimentos, iluminação e textura, assegurando que o resultado seja convincente e natural.

Outro aspecto importante do OmniHuman-1 é sua capacidade de lidar com diversos estilos visuais e de áudio. Ele pode gerar vídeos a partir de sinais fracos, como apenas áudio, ou combinar áudio e vídeo para uma direção mais precisa dos movimentos. Essa versatilidade torna a ferramenta ideal para aplicações em mídia e entretenimento, onde a personalização e a qualidade são essenciais. A OmniHuman-1, portanto, representa um avanço na geração de conteúdo digital, oferecendo novas possibilidades para a criação de vídeos interativos e personalizados.

A seguir, vamos conferir melhor cada aspecto que torna o OmniHuman-1 uma IA de geração de vídeos revolucionária.

Suporte para qualquer proporção e formato corporal

Supercomputador de ia com tecnologia omnihuman em exibição na showmetech.
Em um vídeo que muitos consideraram uma gozação com a Nvidia, o OmniHuman-1 usou uma foto de Jensen Huang para gerar um vídeo. Foto: Reprodução / OmniHuman-1.

O suporte a entradas de imagem de qualquer proporção, seja retrato, meio corpo ou corpo inteiro é um dos grandes trunfos do OmniHuman-1. Isso significa que a ferramenta pode gerar vídeos realistas independentemente do formato da imagem fornecida, algo que muitas tecnologias anteriores não conseguiam fazer com a mesma precisão. Essa flexibilidade permite a aplicação da ferramenta em uma variedade de contextos, desde vídeos pessoais e profissionais até produções artísticas e comerciais, garantindo resultados consistentes e de alta qualidade em todos os casos.

Além disso, o suporte a diferentes formatos corporais é crucial para a criação de vídeos mais naturais e personalizados. O OmniHuman-1 não apenas se adapta à proporção da imagem, mas também mantém a fidelidade dos movimentos e características físicas do sujeito. Isso é particularmente útil em áreas como a mídia e o entretenimento, onde a autenticidade e o realismo são essenciais para envolver e cativar o público.

Opções de áudio, pose e referência de imagem

A capacidade do OmniHuman-1 de trabalhar com diferentes tipos de entradas de sinal, como áudio e vídeo, permite que a IA possa gerar vídeos humanos realistas usando apenas um sinal de áudio, ou combinar áudio e vídeo para obter resultados ainda mais precisos e naturais. Essa característica permite que o OmniHuman-1 crie vídeos com base em diversas referências, ampliando suas aplicações potenciais em várias indústrias.

Além das opções de áudio, por exemplo, o OmniHuman-1 também demonstra a capacidade de lidar com diversas poses e referências de imagem. Isso significa que, independentemente da posição ou postura do sujeito na imagem de entrada, a ferramenta pode gerar um vídeo que mantém a naturalidade e fluidez dos movimentos. Essa versatilidade é um avanço em comparação com tecnologias anteriores, que enfrentavam muitas vezes dificuldades com poses complexas ou não usuais.

Vídeos com diferentes estilos visuais

_título: jovem tocando violão ao ar livre com fundo de céu azul e nuvens_.
O OmniHuman-1 é capaz de produzir vídeos em diversos estilos visuais, desde o realismo extremo até representações mais estilizadas. Foto: Reprodução / OmniHuman-1.

O OmniHuman-1 consegue produzir vídeos com diferentes estilos visuais, o que o torna uma ferramenta incrivelmente versátil para criadores de conteúdo. Ele pode se adaptar a uma ampla variedade de estilos, desde o realismo extremo até representações mais estilizadas, garantindo que o resultado atenda às necessidades e preferências específicas do usuário. Essa capacidade de gerar vídeos com diferentes estilos visuais é possível graças à sofisticada estratégia de treinamento do OmniHuman-1, que permite ao modelo aprender a partir de uma vasta gama de dados visuais.

Interação entre humanos e objetos

Outra característica inovadora do OmniHuman-1 é a sua capacidade de representar a interação entre humanos e objetos de maneira realista e natural. Isso significa que a ferramenta pode gerar vídeos onde o sujeito interage com diferentes objetos no ambiente, mantendo a coerência dos movimentos e a fidelidade dos detalhes. Essa funcionalidade é essencial para aplicações em áreas como a realidade aumentada e virtual, onde a interação realista com o ambiente é fundamental para a imersão do usuário.

A representação precisa de interações entre humanos e objetos é um desafio significativo para muitas tecnologias de geração de vídeo, mas o OmniHuman-1 consegue superá-lo graças à sua estratégia avançada de treinamento e ao uso de dados de alta qualidade.

Disponibilidade da IA

Criação de ia - omnihuman, tecnologia avançada, inovação e futuro no universo digital.
A Bytedance ainda não disponibilizou a OmniHuman-1 para uso público, seja por meio de serviços ou downloads. Foto: Reprodução / OmniHuman-1.

Apesar de já ter apresentado o OmniHuman-1, a Bytedance ainda não disponibilizou a ferramenta para uso público, seja por meio de serviços ou downloads. No entanto, o Showmetech estará atento e trará todas as informações necessárias aos seus leitores assim que a IA estiver disponível para acesso.

O que achou dessa novidade no universo das IAs geradoras de vídeo? Conta para gente nos comentários abaixo!

Veja também:

Fontes: GitHub, Marktech e Instagram.

Revisado por Gabriel Princesval em 05/02/2025


Descubra mais sobre Showmetech

Assine para receber nossas notícias mais recentes por e-mail.

Deixe um comentário
Posts Relacionados