在生命科学领域,人工智能(AI)正逐渐展现出巨大的潜力,为科研带来前所未有的突破。近日,美国Arc研究所与NVIDIA公司、斯坦福大学和加州大学伯克利分校等机构合作,发布了迄今为止最大的公开可用生物学AI模型Evo 2,有望彻底改变人们对生命遗传信息的理解和应用。
与初代Evo模型相比,Evo 2拓展了训练数据范围并在架构与数据处理能力上实现了大幅升级。Evo 2基于12.8万个物种基因组的9.3万亿个核苷酸进行训练,涵盖人类和其他动物、植物和其他真核生物,完整版高达400亿参数。Evo 2处理与分析生物数据的能力上远高于现有的同类模型,可广泛应用于生物分子研究、药物研发、 农业、 合成生物等领域。相关内容以预印本形式发表在Arc网站。
2024年11月,Arc研究所团队及美国斯坦福大学团队推出了首个基因组基础模型Evo,能够分析和生成跨DNA、RNA 和蛋白质的生物序列,是基因组研究领域的一个突破性里程碑。Evo训练数据包括80,000 种细菌和古细菌(称为原核生物的简单生物)的基因组及其病毒和其他序列,共涵盖70亿参数。
Evo模型核心是其创新的深度学习架构StripedHyena,这是一个结合了29个Hyena层的混合模型,能够克服传统 Transformer模型的限制,使Evo在单核苷酸分辨率下高效处理131kb长度的上下文。该模型能够将微小的序列变化与系统级和有机体级的影响联系起来,弥合分子生物学与进化基因组学之间的差距,是基因组研究领域的一个突破性里程碑。( 查看更多相关内容请点击 )图:Evo模型
如今,Evo迎来了重大升级——Evo 2。Evo 2基于NVIDIA的DGX Cloud平台构建,并在覆盖生命三域(原核生物、古菌、真核生物)超12.8万个物种基因组上进行训练,累计处理9.3万亿核苷酸序列。与仅关注原核基因组的Evo相比,Evo 2纳入了来自人类、植物以及真核生物域中其他更复杂的单细胞和多细胞物种信息,实现了前所未有的跨物种泛化,并显著拓宽了其应用范围。
在技术层面,Evo 2模型使用了一种名为StripedHyena 2的新架构,其基于卷积的多混合设计,可实现三倍优于传统Transformer的训练效率提升 ;并能捕捉基因组的相互作用,自主学习外显子—内含子边界以及转录因子结合位点等信息。该模型还具有400亿个参数,与Meta、DeepMind或OpenAI发布的当前主流大语言模型处于同一量级。Evo2囊括了生物学的基本语言(DNA、RNA 和蛋白质),显著扩大了上下文窗口,能一次性处理多达100万个碱基对,这使得其能够理解基因组中相距较远部分之间的关联。
“
Arc研究所的联合创始人Patrick Hsu博士表示,这种长上下文处理能力突破基因组远程调控解析的技术瓶颈、解锁了多个分子尺度,可从短生物分子(如tRNA)或基因簇(如操纵子)到整个细菌基因组或真核生物染色体,这使Evo 2成为多模态和多尺度生物建模领域的领导者。
”图:Evo 2模型概述
Evo 2 的扩展训练数据和优化架构使其能够在各种生物应用中表现卓越。
在医疗保健领域,了解哪些基因变异与某种疾病相关,对于治疗方法的研发来说至关重要。初步验证表明,Evo 2模型可以确定基因突变如何影响蛋白质、RNA和生物体适应性,预测BRCA1基因(与乳腺癌和卵巢癌风险相关)致病突变的准确率超90% 。
Evo 2是唯一能够预测编码突变和非编码突变影响的模型。Patrick Hsu博士说道:“对于编码突变的预测,它是第二优秀的模型;但在非编码突变方面,它处于最先进的水平,其超越了DeepMind的AlphaMissense等单任务模型无法对非编码突变进行评估这一局限。”
图:Evo 2预测所有生命领域的蛋白质、 RNA 和生物体适应性的突变效应
由于生物功能并非由单个蛋白质分子独立完成,构建合成基因组可为研究更广泛的生物背景提供有利条件,而Evo 2正致力于此。斯坦福大学化学工程助理教授Brian Hie表示:“到目前为止,许多生物设计都聚焦于分子层面。如果我们有一个强大的模型,能够在完整生物体的尺度上进行生成,这将开启许多具有广泛应用场景的下游任务。”
在预印本论文中,研究团队描述了Evo 2在三项跨越不同基因组复杂程度的设计任务中的表现 :1.线粒体基因组;2.常用最小基因组模型——生殖支原体原核基因组;3.代表真核生物的酵母染色体。在这三项任务中,Evo 2均展现出良好的基因组连贯性。例如,在线粒体基因组设计中,成功构建了编码电子传递链所有成分的基因(由AlphaFold 3预测);在酵母染色体设计中,不仅存在天然同源物,还准确重构了内含子等更复杂的基因组结构。
在农业方面,Evo 2可通过提供对植物生物学的见解并帮助科学家开发更具气候适应性或营养更丰富的作物品种来帮助解决全球粮食短缺问题。在其他科学领域,Evo 2可用于设计生物燃料或设计分解石油或塑料的蛋白质。
此外,预印本还介绍了一种 “生成式表观基因组学” 工作流程,通过设计具有理想染色质可及性的 DNA 序列,来模拟真核基因调控。研究团队正在与华盛顿大学DNA生物学团队合作,计划通过小鼠细胞实验验证其表观基因组设计功能,特别是染色质可及性调控序列的体内有效性。
展望未来,Arc研究所将通过构建“虚拟细胞”来进一步探索生物学复杂性。研究团队将Evo 2 视为”操作系统”,或者说是一个基础层,其为广泛的生成性功能基因组学提供了一个平台 ;希望科研界能够在这些基础模型之上进行拓展研究,合理利用这个生物学的“应用商店 ” 。目前,Evo 2已向公众全面开放。专业研究人员可通过NVIDIA BioNeMo平台调用完整功能;公众用户则可通过交互式界面Evo Designer进行基础操作。此外,Evo 2的训练数据集、核心代码以及模型权重均已开源,为全球科研人员提供了宝贵的资源。
版权声明
本文为本站原创内容,转载需注明文章来源(https://www.eiefun.com),另:文中部分素材可能会引用自其他平台,如有侵权或其它,请联系 admin@eiefun.com,我们会第一时间配合删除