En el campo de la visión por computadora y la graficación, la abstracción de formas 3D es un área fundamental e importante de investigación. Al descomponer formas 3D complejas en unidades geométricas simples, los investigadores pueden comprender mejor los mecanismos detrás de la percepción visual humana.

QQ_1747013398902.png

A pesar de esto, los métodos existentes de generación de formas 3D suelen no cumplir con los requisitos de semántica profunda y explicabilidad para tareas como la manipulación robótica o la comprensión del entorno. Los métodos tradicionales de abstracción de formas a menudo enfrentan problemas de segmentación excesiva o falta de capacidad generalizadora.

PrimitiveAnything: Un marco revolucionario

El equipo de investigación de Tencent AIPD junto con la Universidad Tsinghua presentó el marco PrimitiveAnything, cuyo objetivo es redifinir la abstracción de formas como una tarea de generación de componentes primarios. Este marco utiliza un transformador basado en decodificadores que puede generar secuencias de componentes primarios de longitud variable según las características de la forma, mejorando significativamente la precisión geométrica y la eficiencia de aprendizaje.

El núcleo de PrimitiveAnything radica en su esquema paramétrico unificado y sin ambigüedad, que puede soportar varios tipos de formas primarias. Este diseño innovador permite al marco capturar efectivamente cómo se descomponen formas complejas en componentes más simples, lo que resulta en una representación más intuitiva para los humanos.

QQ_1747013363011.png

Generación mediante regresión automática: reconstrucción eficiente

PrimitiveAnything genera formas 3D utilizando un enfoque de regresión automática. Los atributos de cada componente primario, como tipo, posición, rotación y escala, se codifican e ingresan al transformador para predecir el siguiente componente. Este marco utiliza decodificadores en cascada para modelar las relaciones dependientes entre atributos, asegurando la consistencia durante el proceso de generación.

En el proceso de entrenamiento, PrimitiveAnything combina la pérdida de entropía cruzada, la distancia de Chamfer (para precisión de reconstrucción) y Gumbel-Softmax (para muestreo diferenciable), hasta generar un marcador de finalización. Este flujo permite descomponer formas 3D complejas de manera flexible y similar a los humanos.

Conjunto de datos de componentes primarios humanos: evaluación integral

Para verificar la efectividad del marco, el equipo de investigación construyó el conjunto de datos HumanPrim a gran escala, que incluye 120 mil muestras con componentes primarios anotados manualmente. A través de múltiples métricas como la distancia de Chamfer, la distancia del transportador de tierras y la distancia de Hausdorff, PrimitiveAnything demostró un rendimiento excelente tanto en precisión de reconstrucción como en consistencia con los patrones de abstracción humanos.

Además, este marco permite generar contenido 3D desde entradas de texto o imágenes, permitiendo a los usuarios editar fácilmente los resultados generados, mantener alta calidad de modelado y lograr un ahorro de almacenamiento superior al 95%, lo que lo hace ideal para aplicaciones interactivas de 3D eficientes.

Conclusión: Generación 3D eficiente y conveniente

El marco PrimitiveAnything captura patrones de descomposición intuitivos al considerar la abstracción de formas 3D como una tarea de generación de secuencias, aprovechando componentes primarios diseñados por humanos. Este marco logra generaciones de alta calidad en varias categorías de objetos, mostrando una fuerte capacidad de generalización.

Gracias a sus características eficientes y ligeros, PrimitiveAnything es ideal para aplicaciones de creación de contenido generado por usuarios que requieren rendimiento y facilidad de uso, como juegos.

demo: https://huggingface.co/spaces/hyz317/PrimitiveAnything