El 9 de abril de 2025, se presentó oficialmente OmniSVG, un potente modelo de generación de SVG (gráficos vectoriales escalables), marcando un nuevo hito en la tecnología de generación de gráficos vectoriales. Desarrollado conjuntamente por StepFun y la Universidad de Fudan, este modelo se considera el modelo de generación de SVG más avanzado hasta la fecha, y su excepcional capacidad de generación multimodal y su alto rendimiento han generado un gran interés.

Los avances tecnológicos de OmniSVG

OmniSVG se basa en el modelo de lenguaje visual preentrenado (Vision-Language Model, VLM) Qwen-VL e integra innovadoramente un tokenizador SVG. Al parametrizar los comandos y coordenadas SVG como tokens discretos, OmniSVG desacopla con éxito la lógica estructural de los gráficos vectoriales de los detalles geométricos de bajo nivel. Este diseño no solo mejora la eficiencia del entrenamiento, sino que también conserva la capacidad de expresión para generar estructuras SVG complejas. Ya sea generando SVG a partir de texto (Text-to-SVG), convirtiendo imágenes a SVG (Image-to-SVG) o generando SVG a partir de referencias de personajes (Character-Reference SVG), OmniSVG puede generar una variedad de imágenes, desde iconos simples hasta personajes de anime complejos, mostrando una flexibilidad sorprendente y una salida de alta calidad.

En comparación con los métodos tradicionales, OmniSVG supera algunos de los problemas centrales de las tecnologías de generación de SVG anteriores. Los métodos tradicionales suelen generar resultados con estructuras dispersas y un alto coste computacional, o se limitan a iconos monocromáticos y demasiado simplificados. OmniSVG, mediante un marco de generación multimodal de extremo a extremo, mejora significativamente la calidad y la complejidad de la generación, pudiendo generar gráficos vectoriales con colores vivos y detalles vívidos.

Conjunto de datos MMSVG-2M y evaluación estandarizada

Para impulsar el desarrollo de la tecnología de generación de SVG, el equipo de OmniSVG también ha publicado el conjunto de datos MMSVG-2M. Se trata de un conjunto de datos multimodales que contiene 2 millones de recursos SVG con anotaciones enriquecidas, que abarcan tres subconjuntos: iconos, ilustraciones y personajes. Además, han propuesto un protocolo de evaluación estandarizado, MMSVG-Bench, para probar el rendimiento de las tareas de generación de SVG condicionales. Este conjunto de datos y este sistema de evaluación proporcionan recursos valiosos para futuras investigaciones sobre SVG.

Los resultados experimentales muestran que OmniSVG supera a los métodos existentes en cuanto a calidad y diversidad de generación. Los SVG generados no solo tienen un excelente efecto visual, sino que también son editables y se pueden integrar perfectamente en los flujos de trabajo de diseño profesional. Esta característica le proporciona amplias perspectivas de aplicación en campos como el diseño gráfico y el desarrollo web.

Reacción entusiasta de la comunidad

Desde el lanzamiento de OmniSVG, sus videos demostrativos y descripciones se han difundido rápidamente por Internet. Investigadores y diseñadores se han mostrado impresionados por los SVG de alta calidad generados, especialmente por su rendimiento en el tratamiento de gráficos complejos. Algunos comentarios señalan que la aparición de OmniSVG ha redefinido el estándar de generación de SVG, pasando de la generación de iconos únicos a la compatibilidad total con gráficos complejos y multimodales.

Perspectivas de futuro

La aparición de OmniSVG no solo demuestra el enorme potencial de la inteligencia artificial en el campo de los gráficos vectoriales, sino que también aporta nuevas líneas de investigación a la comunidad de AIGC (contenido generado por IA). En el futuro, con la optimización continua de la tecnología, OmniSVG podría convertirse en una herramienta poderosa para diseñadores y desarrolladores profesionales, impulsando la aplicación generalizada de SVG en el diseño digital.

Dirección: https://omnisvg.github.io