谷歌今天一口气放出两个王炸,一个对标Claude Code 和 Cursor的开源编程神器Gemini CLI,另一个就是AlphaGenome,专门用来精准预测基因变异
谷歌DeepMind宣布推出一款名为AlphaGenome的全新人工智能(AI)模型。该模型旨在更深入、更准确地理解基因组,通过预测DNA序列的微小变化如何影响复杂的基因调控过程,为疾病研究、基因治疗和基础生命科学开辟了新的可能性。目前,AlphaGenome已通过API向非商业研究领域开放

基因组是指导生命体生长、发育、运作和繁殖的终极“细胞说明书”。这本由DNA构成的“说明书”中的细微变化,即基因变异,可能深刻影响我们对环境的反应,甚至决定我们对某些疾病的易感性。然而,破译基因组指令在分子层面被读取的全过程,以及一个微小的DNA变异究竟会引发何种连锁反应,至今仍是生物学最大的谜团之一
为了攻克这一难题,谷歌DeepMind推出了AlphaGenome——一个全新的AI工具。它能够更全面、更精确地预测人类DNA序列中的单个变异或突变如何影响广泛的基因调控生物过程。这一突破得益于模型架构的技术进步,使其能够处理超长的DNA序列并输出高分辨率的预测结果
DeepMind相信,AlphaGenome将成为科学界的重要资源,帮助科学家更好地理解基因组功能、疾病生物学,并最终推动新的生物学发现和新疗法的开发
AlphaGenome如何工作?
AlphaGenome的核心工作流程是:接收一段长达100万个碱基对的DNA序列作为输入,并预测数千种表征其调控活性的分子特性。同时,它还能通过对比突变序列和原始序列的预测结果,来评估特定基因变异或突变所带来的影响
其预测的特性范围极广,包括:
-
• 在不同细胞和组织中,基因的起始和终止位置。 -
• RNA的剪接方式。 -
• RNA的生成数量。 -
• DNA碱基的可及性、空间上的接近程度,以及是否与特定蛋白质结合。
为了实现这些功能,AlphaGenome在来自ENCODE、GTEx、4D Nucleome和FANTOM5等大型公共数据库的海量实验数据上进行了训练。这些数据覆盖了数百种人类和老鼠细胞及组织中重要的基因调控模式
在技术架构上,AlphaGenome采用了卷积层来初步检测基因组序列中的短模式,再利用Transformer模型来整合序列上所有位置的信息,最终通过一系列输出层将这些模式转化为对不同分子特性的具体预测。
值得一提的是,该模型建立在DeepMind之前的基因组学模型Enformer之上,并与专注于解读蛋白质编码区(仅占基因组2%)变异影响的AlphaMissense形成完美互补。AlphaGenome则专注于解读占基因组98%的广阔非编码区,这些区域对调控基因活动至关重要,并包含了大量与疾病相关的变异。
AlphaGenome的四大独特优势
相较于现有的DNA序列模型,AlphaGenome展现出几个显著的特点:
-
1. 长序列上下文与高分辨率: 模型能分析长达100万个DNA碱基对的序列,并以单个碱基的分辨率进行预测。这对于捕捉远距离基因调控元件和精细的生物学细节至关重要。与以往模型需要在序列长度和分辨率之间做出取舍不同,AlphaGenome在不显著增加训练成本的情况下(训练时间仅为4小时,计算预算为原Enformer模型的一半)实现了二者的统一 -
2. 全面的多模态预测: 通过解锁对长序列的高分辨率预测,AlphaGenome能够同时预测最多样化的分子特性,为科学家提供关于基因调控复杂步骤的更全面信息。 -
3. 高效的变异评分: 模型可以在一秒内高效评估一个基因变异对所有相关分子特性的影响。它通过对比突变前后的预测差异来实现这一点,并为不同特性提供了高效的差异总结方法。 -
4. 新颖的剪接点建模: 许多罕见遗传病(如脊髓性肌萎缩症)由RNA剪接错误引起。AlphaGenome首次能够直接从DNA序列中明确地模拟剪接点的位置和表达水平,为理解遗传变异如何影响RNA剪接提供了更深刻的见解。
在多项基准测试中,AlphaGenome均表现出业界顶尖(State-of-the-art)的性能。无论是预测DNA序列功能,还是评估变异影响,它在绝大多数评测中都优于或持平于当前最优的专用模型,充分展示了其强大的通用性

图:AlphaGenome在选定的DNA序列任务和变异效应任务上,相对于当前最佳方法的性能提升百分比
研究潜力
AlphaGenome的通用性使其成为一个强大的科研工具,有望在多个领域发挥关键作用:
疾病理解: 通过更精确地预测遗传变异的功能影响,帮助研究人员精确定位疾病的潜在原因,更好地解释与特定性状相关的变异,甚至发现新的治疗靶点。尤其适用于研究那些效应较大的罕见孟德尔疾病
合成生物学: 其预测能力可用于指导设计具有特定调控功能的合成DNA。例如,设计一段只在神经细胞中激活某个基因,而在肌肉细胞中保持沉默的DNA序列
基础研究: 加速我们对基因组的理解,帮助绘制关键功能元件图谱,并定义它们在调控特定细胞类型功能中的确切作用。
当前的局限性
尽管AlphaGenome是重要的一步,但DeepMind也坦诚其存在局限性。例如,精确捕捉超过10万个碱基对的超远距离调控元件仍是挑战。此外,该模型目前并未针对个人基因组预测进行设计或验证,也不能完全描绘出遗传变异如何导致复杂性状或疾病(这些通常涉及更广泛的生物过程及环境因素)
开放社区
为了推动科学进步,AlphaGenome现已通过AlphaGenome API向全球研究人员提供非商业性使用。DeepMind诚邀学术界、工业界和政府组织的研究人员试用该模型,并通过社区论坛分享潜在用例、提出问题或提供反馈
DeepMind希望通过与更广泛的科学界合作,共同深化对DNA序列中复杂细胞过程的理解,推动基因组学和医疗健康的颠覆性新发现。
paper:
https://deepmind.google/discover/blog/alphagenome-ai-for-better-understanding-the-genome/
AlphaGenome API 使用:
https://deepmind.google/discover/blog/alphagenome-ai-for-better-understanding-the-genome/
参考:
https://deepmind.google/discover/blog/alphagenome-ai-for-better-understanding-the-genome/
⭐
(文:AI寒武纪)