Com o avanço acelerado das tecnologias de modelos grandes, ampliar imagens para torná-las mais nítidas se tornou comum, mas a digitalização de vídeos ainda é um grande desafio. Recentemente, a Universidade Politécnica de Hong Kong e o Instituto OPPO lançaram conjuntamente um framework aberto chamado DLoRAL, que baseia-se em modelos de difusão (Diffusion Model) para gerar vídeos de alta qualidade em uma única etapa, rompendo o ineficiente gargalo das iterações múltiplas, trazendo uma nova ruptura na área de super-resolução de vídeo.
A arquitetura técnica do DLoRAL é criativa. Primeiro, ele adota uma arquitetura de dois LoRA: C-LoRA se concentra em manter a consistência temporal entre as quadros do vídeo, garantindo que a imagem seja suave e sem piscar; D-LoRA é responsável por melhorar os detalhes espaciais, aumentando nitidez e agudeza. Em segundo lugar, o framework introduz uma estratégia de treinamento em duas etapas, dividida em uma fase de consistência e uma fase de melhoria. Na fase de consistência, otimiza a continuidade temporal, evitando pulos entre quadros adjacentes; na fase de melhoria, foca nas informações de alta frequência, melhorando significativamente a expressão dos detalhes da imagem.
Gracias a essas inovações, o DLoRAL mantém a fluidez do vídeo ao mesmo tempo em que aumenta significativamente a nitidez e os detalhes, superando métodos tradicionais de super-resolução de vídeo, além de aumentar a velocidade de inferência em cerca de 10 vezes. Como projeto open source, o DLoRAL fornece ferramentas eficientes para pesquisadores e desenvolvedores, ajudando na criação de conteúdo de vídeo a atingir novos patamares.