Investigadores de la Universidad de Ciencia y Tecnología de Hong Kong y la Universidad de Ciencia y Tecnología de China, entre otras instituciones, han publicado recientemente el modelo GameGen-X, un modelo de transformador de difusión diseñado específicamente para generar y controlar interactivamente videos de juegos de mundo abierto.
GameGen-X puede generar por sí solo videos de juegos de mundo abierto, simulando diversas funciones de los motores de juego, incluyendo la generación de personajes innovadores, entornos dinámicos, acciones complejas y eventos diversos. Además, interactúa contigo, permitiéndote experimentar la emoción de ser un diseñador de juegos.

Uno de los puntos fuertes de GameGen-X es su capacidad de control interactivo. Puede predecir y modificar el contenido futuro basándose en el fragmento de juego actual, simulando así la jugabilidad.
Los usuarios pueden influir en el contenido generado a través de señales de control multimodales, como instrucciones de texto estructurado y control por teclado, permitiendo controlar la interacción de los personajes y el contenido de las escenas.
Para entrenar GameGen-X, los investigadores también construyeron el primer conjunto de datos de video de juegos de mundo abierto a gran escala, OGameData. Este conjunto de datos contiene más de 1 millón de fragmentos de video de juegos diferentes de más de 150 juegos, y se utilizaron descripciones de texto informativas generadas por GPT-4.
El proceso de entrenamiento de GameGen-X se divide en dos fases: preentrenamiento del modelo base y ajuste fino por instrucciones. En la primera fase, el modelo se preentrena mediante tareas de generación de vídeo a partir de texto y continuación de vídeo, lo que le permite generar videos de juegos de dominio abierto de alta calidad y largas secuencias.
En la segunda fase, para lograr la capacidad de control interactivo, los investigadores diseñaron el módulo InstructNet, que integra expertos en señales de control multimodales relacionadas con el juego.
InstructNet permite al modelo ajustar las representaciones latentes según la entrada del usuario, unificando por primera vez el control de la interacción de los personajes y el contenido de la escena en la generación de video. Durante el ajuste fino por instrucciones, solo se actualiza InstructNet, mientras que el modelo base preentrenado se congela, lo que permite al modelo integrar la capacidad de control interactivo sin perder la diversidad y la calidad del contenido del video generado.
Los resultados experimentales muestran que GameGen-X presenta un excelente rendimiento en la generación de contenido de juegos de alta calidad y ofrece una excelente capacidad de control del entorno y los personajes, superando a otros modelos de código abierto y comerciales.
Por supuesto, esta IA aún se encuentra en una etapa inicial y aún queda un largo camino por recorrer antes de que pueda reemplazar realmente a los diseñadores de juegos. Sin embargo, su aparición sin duda ha abierto nuevas posibilidades para el desarrollo de juegos. Ofrece un nuevo método para el diseño y desarrollo de contenido de juegos, mostrando el potencial de los modelos generativos como herramientas auxiliares de las técnicas de renderizado tradicionales, fusionando eficazmente la generación creativa con las funciones interactivas, y abriendo nuevas posibilidades para el futuro desarrollo de juegos.
Dirección del proyecto: https://gamegen-x.github.io/