Notícias em alta
Ao utilizar nosso site, você concorda com o uso de nossos cookies.

Notícias

Ai System StreamDit GeneTes Livessream Videos vide texto a 16 fps 512p
Tecnologia

Ai System StreamDit GeneTes Livessream Videos vide texto a 16 fps 512p 



Resumo
Resumo

O novo sistema de IA chamado StreamDit CantE Live Moves das descrições de texto, abrindo a atualização da nova posisabilidade para jogos e mídia interativa.

Desenvolvido por pesquisadores da Meta e da Universidade da Califórnia, Berkeley, Streamdit cria vídeos em um momento real de um único GPO de ponta. O modelo, com 4 bilhões de parâmetros, produz vídeos na resolução de 512p. Ultima métodos anteriores que os videoclipes completos de genestate abordam os transmissões de vídeo ao vivo, quadro da FARA.

Vídeo: Kodaira et al.

A equipe exibiu vários casos de uso. Vídeos de StreamDit Canté de um minuto em tempo real, respondam a instruções intelectivas e edite os vídeos existentes em tempo real. Em uma demonstração, o porco em um vídeo foi transformado em Cat Whit, os planos da mesma forma.

Anúncio

Quatro quadros: o vídeo de entrada do porco em execução (em cima) e a saída FAMES PROMSFUD para (inferior) em um beco de uvas.
O uso do prompt de texto de texto, executando o porco no vídeo de entrada no gato no fluxo de saída, desmontando a edição de vídeo com base em tempo real. | Imagem: Kodaira et al.

O sistema depende da SATURE ARTSTER Custom construída para velocidade. Usos de streamdit de buffer de movimento para processar quadros de vários biles simples, trabalhando na necessidade de Fara sedutor. Novos quadros começam barulhentos, mas são graduados em reviva tatil os são lidos para exibição. De acordo com o artigo, o sistema tributou cerca de meio segundo Farans, produz oito com o IGESESESEDESED IGESED.

Divisão de buffer de Schiment Indo K Quadros de referência e n pedaços; Além disso, as etapas de denoise automaticamente com valores de correlação decrescente
StreamDit divide seu buffer em quadros de referências de referência fixa e pedaços curtos. Imagem IMOWs visile de sequência automática similarify (de verde para vermelho) como programas de denoising. | Imagem: Kodaira et al.

Treinamento para versatilidade

O processo de treinamento foi projetado para melhorar a versatilidade. Em vez de se concentrar no método de criação de foda, o modelo estava treinando ritmos resumidos, usando 3.000 vídeos Highty e Laarger Datat de 2,6 milhões de vídeos. O treinamento ocorreu em 128 GPUs NVIDIA H100. Os pesquisadores descobriram que a mistura de tamanhos de bloco de 1 a 16 quadros produz os melhores resultados.

Para a execução em tempo real em tempo real, a equipe da equipe, a equipe informável e o Access Ted corta o número de etapas de cálculo requerem, para apenas 8, com um impacto mínimo na qualidade da imagem. A arkacture também é otimizada para eficiência: rathsanimant evey imenements, as informações são trocas apenas entre a reabilitação local.

Nas comparações frente a frente, o StreamDit superou os métodos existentes como Reusediffuse e FIFO Diffusion, especialmente para vídeos com muito movimento. Os outros modelos tendiam a criar para criar cenas estáticas, o StreamDit Games mais dinâmico e o movimento natural.

As taxas humanas recalaram a execução do sistema no syformace A fluidez do movimento, a integridade dos quadros de animulação e a qualidade geral. Em todas as categorias, o StreamDit ficou no topo do melhor de Ben em vídeos de oito segundos e 512p.

Recomenda -se

Notícia Original

Postagens relacionadas

Deixe um comentário

Os campos obrigatórios estão marcados *