不久前,专注于AIGC领域的科研机构Epochai发布了一项重磅研究报告。报告里说,咱们人类公开的高质量文本训练数据集,大约有300万亿个tokens。但随着ChatGPT等大模型的胃口越来越大,这些数据可能在2026年到2032年间就被吃干抹净了!