MNBVC (Massive Never-ending BT Vast Chinese corpus) é um projeto que visa fornecer um rico corpus de língua chinesa para IA. Ele inclui não apenas conteúdo da cultura dominante, mas também abarca cultura de nicho e gírias da internet. O conjunto de dados inclui diversas formas de dados de texto puro em chinês, como notícias, redações, romances, livros, revistas, artigos científicos, falas, posts, wikis, poemas antigos, letras de músicas, descrições de produtos, piadas, histórias engraçadas e registros de bate-papo.