哈佛、哥大開源1600萬組蛋白質序列,解決AlphaFold 2訓練數據私有難題!
["哈佛、哥大發布開源數據集OpenProteinSet,包含1600萬蛋白質多序列對齊和相關數據,爲AI模型訓練提供支持。","AlphaFold 2的準確性在蛋白質結構預測領域創下里程碑,但其私有數據限制了其他研究者的進展。","OpenProteinSet包括PDB中所有蛋白質的MSAs,爲蛋白質機器學習社區提供充足的預計算MSA資源。","該數據集可用於結構生物學各種任務,推動生物信息學和蛋白質機器學習領域的研究。","OpenProteinSet是一個重要的生物信息學資源,爲多模態語言模型提供了寶貴的生物知識。"]