Janus es un innovador marco autorregresivo que logra la comprensión y generación multimodal mediante la separación de la codificación visual. Esta desacoplamiento no solo mitiga el conflicto de roles del codificador visual en la comprensión y generación, sino que también aumenta la flexibilidad del marco. Janus supera a los modelos unificados anteriores y iguala o supera el rendimiento de los modelos para tareas específicas. Su simplicidad, alta flexibilidad y eficacia lo convierten en un sólido candidato para la próxima generación de modelos multimodales unificados.