SpeechGPT 2.0-prévia é um modelo avançado de interação de voz desenvolvido pelo Laboratório de Processamento de Linguagem Natural da Universidade de Fudan. Treinado com uma grande quantidade de dados de voz, ele alcançou uma capacidade de interação de voz de baixa latência e alta naturalidade. O modelo pode simular expressões de voz com várias emoções, estilos e papéis, além de suportar recursos como chamada de ferramentas, pesquisa online e acesso a bancos de conhecimento externos. Suas principais vantagens incluem uma poderosa capacidade de generalização de estilo de voz, simulação de múltiplos papéis e experiência interativa de baixa latência. Atualmente, o modelo suporta apenas interação de voz em chinês, com planos futuros para expandir para mais idiomas.