MNBVC (Massive Never-ending BT Vast Chinese corpus) es un proyecto cuyo objetivo es proporcionar abundantes datos de texto en chino para la IA. No solo incluye contenido de la cultura mainstream, sino que también abarca la cultura de nicho y el lenguaje coloquial de internet. El conjunto de datos incluye diversas formas de texto en chino, como noticias, ensayos, novelas, libros, revistas, artículos académicos, diálogos, publicaciones en foros, contenido de wikis, poesía clásica, letras de canciones, descripciones de productos, chistes, anécdotas divertidas y registros de chat.