El ganador del Premio Turing y científico jefe de IA de Meta, Yann LeCun, señaló en el Foro Económico Mundial que los modelos generativos no son adecuados para procesar video, y que la IA necesita realizar predicciones en un espacio abstracto. Con el agotamiento de los datos de texto en internet, los investigadores de IA han dirigido su atención a los videos, y se han dado cuenta de que comprender las relaciones causales es crucial para los sistemas de IA del futuro. Por lo tanto, los nuevos modelos deberían aprender a predecir en un espacio de representación abstracto, en lugar de hacerlo en el espacio de píxeles.

El desafío en el procesamiento de video radica en la complejidad del espacio de píxeles; por lo tanto, se requieren nuevas arquitecturas para manejar la entrada de video y realizar predicciones en un espacio de representación abstracto. Para abordar los desafíos en el procesamiento de video, es necesario crear nuevos métodos y técnicas científicas que permitan a los sistemas de IA utilizar la información de manera similar a como lo hacen los humanos.