En el Día de Intercambio Tecnológico de SenseTime del 10 de abril, SenseTime presentó sus últimos modelos grandes multimodales, "SenseNova V6" y el sistema "SenseCore 2.0". Este nuevo modelo grande de lenguaje busca integrar texto, imágenes y vídeo para ofrecer a los usuarios una experiencia de interacción más natural y rica.

La serie SenseNova V6 lanzada incluye cuatro versiones. La más destacada es SenseNova V6Pro, con una arquitectura de experto mixto de 6200 mil millones de parámetros, mostrando una potente capacidad de fusión multimodal. SenseNova V6Reasoner Pro mejora aún más la capacidad de razonamiento multimodal, permitiendo análisis lógicos más profundos. Además, SenseNova V6Video se centra en la comprensión de vídeo, pudiendo resumir y analizar en profundidad el contenido de los vídeos, mientras que SenseNova V6Omni es un modelo de interacción multimodal ligero que combina lenguaje, voz y vídeo para ofrecer interacción en tiempo real.

En la demostración en vivo, SenseNova V6 mostró su capacidad multimodal única. Los usuarios pueden interactuar con el modelo a través de fotos de problemas matemáticos escritos a mano; el modelo no solo resuelve los problemas, sino que también analiza las respuestas del usuario y guía al usuario paso a paso a través de la voz para comprender el proceso de resolución, incluso ofreciendo ayuda en tiempo real si el usuario tiene problemas. Esta característica hace que SenseNova V6 se parezca más a un tutor privado.

SenseTime

Lin Dahua, cofundador de SenseTime, afirmó que la interacción futura será necesariamente multimodal, y que el objetivo de SenseTime es dominar la tecnología central de la interacción futura. Señaló que actualmente hay relativamente pocas empresas nacionales que investiguen la capacidad de razonamiento e interacción multimodales, y SenseTime espera aprovechar sus ventajas en visión por computadora para adelantarse en el mercado de los modelos grandes multimodales.

Además, la capacidad multimodal de SenseNova V6Pro de SenseTime ya puede competir con los modelos principales internacionales como Gemini 2.0 Pro y GPT-4.5. SenseTime también destaca que el razonamiento sólido, la interacción sólida y la memoria a largo plazo son tres avances clave de sus capacidades tecnológicas. Estas capacidades no solo permiten al modelo comprender mejor las intenciones humanas, sino que también permiten una interacción más amigable con el usuario.

SenseTime planea integrar SenseNova V6 en escenarios empresariales reales para satisfacer las necesidades de los usuarios en diferentes campos. Las nuevas aplicaciones abarcan varios sectores como la enseñanza, la traducción y el turismo. SenseTime también colabora con la empresa de inteligencia encarnada Fourier para dotar a los robots de una mayor comprensión del entorno y capacidad de interacción humano-robot, logrando un futuro verdaderamente inteligente.