Los laboratorios de IA de Tencent, en colaboración con un equipo de la Universidad China de Hong Kong, han presentado UniRepLKNet, un desafío al dominio de los Transformers en el ámbito multimodal. Esta arquitectura CNN de gran núcleo destaca en tareas que involucran nubes de puntos, audio y video, sin necesidad de modificar la estructura del modelo.
UniRepLKNet ha superado a los Transformers en tareas como ImageNet, COCO y ADE20K, demostrando el potencial de las CNN de gran núcleo en aplicaciones multimodales.