哈佛、哥大开源1600万组蛋白质序列,解决AlphaFold 2训练数据私有难题!
["哈佛、哥大发布开源数据集OpenProteinSet,包含1600万蛋白质多序列对齐和相关数据,为AI模型训练提供支持。","AlphaFold 2的准确性在蛋白质结构预测领域创下里程碑,但其私有数据限制了其他研究者的进展。","OpenProteinSet包括PDB中所有蛋白质的MSAs,为蛋白质机器学习社区提供充足的预计算MSA资源。","该数据集可用于结构生物学各种任务,推动生物信息学和蛋白质机器学习领域的研究。","OpenProteinSet是一个重要的生物信息学资源,为多模态语言模型提供了宝贵的生物知识。"]