No dia 10 de abril, no dia de intercâmbio tecnológico da SenseTime, a SenseTime lançou seu mais recente modelo de linguagem multimodal, "SenseNova V6" e o sistema "SenseCore 2.0". Este novo modelo de linguagem visa integrar várias formas de informação, como texto, imagens e vídeos, para fornecer aos usuários uma experiência de interação mais natural e rica.
A série SenseNova V6 lançada inclui quatro versões, sendo a mais notável a SenseNova V6Pro. Ela emprega uma arquitetura de especialista mista com 620 bilhões de parâmetros, demonstrando uma poderosa capacidade de fusão multimodal. A SenseNova V6Reasoner Pro aprimora ainda mais a capacidade de raciocínio multimodal, permitindo análises lógicas mais profundas. Além disso, a SenseNova V6Video concentra-se na compreensão de vídeo, podendo resumir e analisar profundamente o conteúdo de vídeos, enquanto a SenseNova V6Omni é um modelo de interação multimodal leve que combina linguagem, voz e vídeo para fornecer interação em tempo real.
Na demonstração ao vivo, a SenseNova V6 exibiu sua capacidade multimodal única. Os usuários podem interagir com o modelo usando uma foto de um problema de matemática manuscrito; o modelo não apenas resolve o problema, mas também analisa a resposta do usuário e guia o usuário passo a passo na compreensão do processo de solução por meio de voz, fornecendo até mesmo suporte em tempo real se o usuário encontrar problemas. Este recurso torna a SenseNova V6 semelhante a um tutor particular.

Lin Dahua, cofundador da SenseTime, afirmou que a interação futura será necessariamente multimodal, e o objetivo da SenseTime é dominar a tecnologia central para a interação futura. Ele apontou que atualmente há relativamente pouco desenvolvimento de capacidade de raciocínio e interação multimodais por empresas nacionais, e a SenseTime espera, por meio de suas vantagens na área de visão computacional, se posicionar antecipadamente no mercado de modelos de linguagem multimodais.
Além disso, a capacidade multimodal da SenseNova V6Pro da SenseTime já pode competir com modelos principais internacionais como Gemini 2.0Pro e GPT-4.5. A SenseTime também enfatizou que raciocínio forte, interação forte e memória longa são as três principais inovações tecnológicas. Essas capacidades não apenas permitem que o modelo entenda melhor as intenções humanas, mas também estabelece uma relação de interação mais amigável com os usuários.
A SenseTime planeja integrar a SenseNova V6 em cenários de negócios reais para atender às necessidades dos usuários em diferentes áreas. Novos cenários de aplicação abrangem vários setores, como educação, tradução e turismo. A SenseTime também está colaborando com a empresa de inteligência incorporada Fourier para fornecer aos robôs uma capacidade aprimorada de compreensão ambiental e interação humano-robô, realizando verdadeiramente o futuro inteligente.




