13 de maio, o grupo Kunlun AI anunciou oficialmente a abertura do código-fonte do modelo Matrix-Game, uma solução avançada focada na geração de mundos interativos, marcando um novo marco no campo da tecnologia de geração de mundos interativos. O Matrix-Game é a implementação oficial da série Matrix na direção da geração de mundos interativos e também o primeiro grande modelo inteligente espacial com mais de 10 bilhões de parâmetros aberto ao público no setor industrial, projetado especificamente para gerar alta qualidade em ambientes abertos com controle preciso. Este passo de abrir o código não apenas eleva o limite técnico da geração de mundos interativos, mas também estabelece um novo padrão para construir uma base virtual universal.
O modelo Matrix-Game é composto por três partes principais: o conjunto de dados Matrix-Game-MC, o modelo principal Matrix-Game e o sistema de avaliação GameWorld Score. O conjunto de dados Matrix-Game-MC é um grande conjunto de dados de mundo interativo construído de forma autônoma, contendo vídeos massivos sem rótulos do jogo Minecraft e dados de vídeo controláveis de Minecraft e Unreal com sinais de controle do teclado e mouse, com anotações detalhadas de movimentos. Esse conjunto de dados suporta modelagem e aprendizado eficientes de dinâmicas e padrões de interação em ambientes complexos.
O modelo principal Matrix-Game foi desenvolvido com base em tecnologias avançadas de modelos de difusão, capaz de gerar vídeos interativos coerentes e controláveis com base nas entradas do usuário, equilibrando qualidade visual, consistência temporal e razoabilidade física. O modelo utiliza uma estratégia de treinamento em duas etapas (pré-treinamento com dados não rotulados + treinamento controlável com dados rotulados), alcançando melhorias significativas em compreensão espacial, resposta a instruções do usuário e modelagem de interações físicas. O Matrix-Game possui capacidade de controle interativo granular, suportando operações detalhadas como andar, saltar, atacar e mover a perspectiva, proporcionando uma experiência precisa e natural. Além disso, os resultados gerados mantêm a continuidade visual enquanto seguem as leis físicas naturais, como gravidade e colisões, aumentando significativamente a imersão. Além disso, o Matrix-Game tem capacidade de generalização em vários cenários, cobrindo diferentes tipos de terrenos, climas e biomas, e possui potencial para se generalizar para ambientes de jogos não relacionados ao Minecraft.
Para avaliar e comparar sistematicamente o desempenho dos modelos de geração de mundos interativos, o Matrix-Game propôs o sistema unificado de avaliação GameWorld Score. Esse sistema quantifica o desempenho do modelo em quatro dimensões: qualidade visual, qualidade temporal, controle de movimento e compreensão de regras físicas, preenchendo uma lacuna na falta de critérios de avaliação sistemáticos nesse campo. No sistema de avaliação GameWorld Score, o Matrix-Game obteve desempenhos líderes em todas as quatro dimensões - qualidade visual, consistência temporal, controle de movimento e compreensão de regras físicas -, superando amplamente os modelos baseline existentes, Oasis e MineWorld. Em testes de avaliação cega, os usuários tendem a preferir os vídeos gerados pelo Matrix-Game, demonstrando seu excelente desempenho no campo de geração de mundos interativos.
Página do projeto:
https://matrix-game-homepage.github.io
Relatório técnico:
https://github.com/SkyworkAI/Matrix-Game/blob/main/assets/report.pdf
Endereço do GitHub:
https://github.com/SkyworkAI/Matrix-Game
Endereço do Hugging Face:
https://huggingface.co/Skywork/Matrix-Game