OpenAI发布生命科学专用AI模型GPT-Rosalind,以DNA结构发现者罗莎琳德·富兰克林命名,正式进军生物化学与基因组学领域。该模型针对生物研究需求深度微调,旨在帮助科学家缩短药物研发周期,将数据分析转化为高效智能科研流程,具备卓越科学推理能力。
OpenAI推出生物学专用大模型GPT-Rosalind,旨在解决基因组数据过载和专业术语壁垒两大研究痛点,与通用科学模型形成差异化竞争。
澳大利亚AI专家Paul Conyngham借助ChatGPT、AlphaFold等AI工具,为患癌爱犬Rosie制定实验性治疗方案。通过AI分析基因组测序数据,识别靶蛋白并筛选FDA批准药物,展示了生成式AI在辅助复杂医疗决策中的潜力。
清华大学团队研发出AI药物筛选平台DrugCLIP,利用深度对比学习技术,实现基因组级别的高通量虚拟筛选。该成果已发表于《科学》杂志,有望大幅提升药物靶点探索效率,突破当前仅覆盖约10%可成药靶点的研发瓶颈。
70亿参数的元基因组基础模型,用于流行病监测和病原体检测.
andrewdalpino
ESMC蛋白质功能预测器是基于进化规模模型(ESM)的工具,能够根据氨基酸序列利用基因本体论(GO)预测蛋白质功能。该模型在UniRef、MGnify和联合基因组研究所数据库上预训练,在AmiGO Boost数据集上微调,可预测蛋白质的分子功能、生物过程和细胞位置。
InstaDeepAI
BulkRNABert是基于Transformer架构的仅编码器语言模型,专门用于处理批量RNA测序数据。该模型采用自监督的掩码语言建模方法,在TCGA数据集的RNA-seq图谱上进行预训练,能够从基因的基因组上下文重建随机掩码的基因表达值,学习具有生物学意义的转录组表示。
monsoon-nlp
基于块扩散架构的DNA序列生成模型,使用6核苷酸标记(4096种组合),在木瓜基因组上训练
macwiatrak
Bacformer是一个用于细菌基因组学的基础模型,将整个细菌基因组建模为蛋白质序列。该模型以基因组中按位置排序的蛋白质集合作为输入,通过Transformer计算上下文蛋白质表示,捕捉蛋白质-蛋白质相互作用。在约130万个细菌基因组和4万个完整基因组上训练,包含约30亿个蛋白质序列。
roychowdhuryresearch
基于Transformer架构的DNA序列嵌入模型,支持序列比对和基因组学应用
GenerTeam
GENERator是一个具有9.8万碱基对上下文长度和30亿参数的生成式基因组基础模型,基于真核生物DNA扩展数据集训练
SegmentBorzoi 是一种基于 Borzoi 的分割模型,用于预测序列中多种基因组元素在单核苷酸分辨率下的位置。
kuleshov-group
PlantCaduceus是一个基于16种被子植物基因组预训练的DNA语言模型,采用Caduceus和Mamba架构,通过掩码语言建模目标学习进化保守性和DNA序列语法。
PlantCaduceus是基于16种被子植物基因组预训练的DNA语言模型,采用Caduceus和Mamba架构,通过掩码语言建模目标学习进化保守性和DNA序列语法。
基于850个物种基因组预训练的DNA序列基础语言模型,专注于蛋白质任务预测
SegmentNT-multi-species 是一种基于Nucleotide Transformer的分割模型,用于以单核苷酸分辨率预测多种基因组元素的位置。
SegmentNT是一个基于Nucleotide Transformer的DNA分割模型,能够以单核苷酸分辨率预测序列中多种基因组元素的位置。
LongSafari
HyenaDNA是一个长距离基因组基础模型,预训练上下文长度可达100万个标记,具有单核苷酸分辨率。
HyenaDNA是一个长距离基因组基础模型,在高达100万个标记的上下文长度上以单核苷酸分辨率进行预训练。该模型使用Hyena算子替代传统注意力机制,实现了次二次计算复杂度,能够处理超长DNA序列。
HyenaDNA是一个长距离基因组基础模型,在单核苷酸分辨率下预训练了长达100万个标记的上下文长度。
AgroNT是一个基于可食用植物基因组训练的DNA语言模型,能够学习核苷酸序列的通用表示。
核苷酸变换器v2是一个基于全基因组DNA序列预训练的2.5亿参数变换器模型,整合了来自850个不同物种的基因组信息,包括人类、模式生物和非模式生物。该模型在分子表型预测方面比现有方法更加准确,采用旋转位置嵌入和门控线性单元等第二代架构改进。
基于全基因组DNA序列预训练的基础语言模型,整合了3200多个人类基因组和850个广泛物种基因组的信息。
核苷酸变换器是一组基于全基因组DNA序列进行预训练的基础语言模型,整合了3200多个人类基因组和850个广泛物种的基因组数据。
基于850个物种基因组预训练的DNA序列分析模型,支持分子表型预测等任务
非官方的STRING数据库MCP服务器,提供蛋白质相互作用网络分析、功能富集分析和比较基因组学工具,支持通过STRING API访问全面的蛋白质数据。
biocTcgaMcp是一个演示MCP服务器的R包,提供TCGA癌症基因组数据分析工具,支持通过MCP协议查询TCGA肿瘤类型等数据。
一个提供gnomAD基因组数据库访问的MCP服务器,支持查询基因信息、变异分析和群体遗传数据。
非官方的STRING数据库MCP服务器,提供蛋白质相互作用网络分析、功能富集和比较基因组学工具,支持通过STRING API进行全面的蛋白质网络研究。
非官方GTEx门户MCP服务器,提供对GTEx(基因型-组织表达)项目基因表达和调控数据的全面访问,包含25个专业工具,支持基因表达分析、eQTL关联分析和基因组数据查询。
该项目是基于Broad研究所Liftover工具的MCP服务接口,提供基因组坐标转换功能,支持单点、区间、变异和HGVS格式的转换。
非官方的Ensembl MCP服务器,提供标准化的接口访问Ensembl基因组数据库,支持基因查询、序列获取、变异分析等功能。
一个高性能的癌症基因组学MCP服务器,通过异步Python架构实现与cBioPortal数据的无缝交互,采用企业级模块化设计,性能提升4.5倍。
非官方的Ensembl MCP服务器,提供基因组数据、比较基因组学和生物注释的全面访问接口,支持基因查询、序列检索、变异分析和跨物种比较等功能。