1958年,F.H.C. 克里克提出了生物学中的核心中心法则:DNA->RNA->蛋白质。该法则表明,DNA能够转录形成RNA,而RNA则被翻译成氨基酸,最终组合形成蛋白质。
通过这一法则,我们可以将DNA比作工业生产中的设计蓝图,而蛋白质则是实现这一蓝图的工具。因此,蛋白质是生命活动的基础,参与了遗传、发育、繁殖等几乎所有生物学过程。深入研究蛋白质将帮助我们更好地理解生命体的构成和运作规律,从而揭示生命的运行与发展机制,促进生物科学、药物研发、合成生物学和酶科学等领域的进步。
当前,探究生物体内各种蛋白质的功能及其机制是蛋白质研究的主要方向,也是后基因组时代生命科学的重要研究热点之一。蛋白质的功能在很大程度上依赖于其结构,因此破解蛋白质的三维结构成为科学家的研究重点。
AlphaFold2的诞生
近年来,随着人工智能技术的发展,深度学习等技术已被用于蛋白质结构预测。2018年,谷歌DeepMind团队的AlphaFold在国际权威的蛋白质结构预测竞赛CASP 13中获得了70多分,战胜众多研究团队,取得了里程碑式的进展。到2020年,AlphaFold2在CASP 14中以92.4分夺得第一,解决了生物学家困扰了50年的问题,取得了重大突破。92.4分意味着该模型对竞赛目标蛋白的预测精度达到92.4,分数超过90分通常被认为可以替代实验方式,这表明AlphaFold2的预测结果与实验得到的蛋白质结构基本一致。
2021年7月15日,DeepMind团队在国际顶级期刊《Nature》上发表了关于AlphaFold2的论文,详细介绍了其设计思路,并提供了基于JAX的可运行模型和代码。由于JAX的受众主要为专业AI科学计算研究人员,且飞桨社区尚无蛋白质结构预测的开源项目,百度的PaddleHelix生物计算团队基于飞桨深度学习框架复现了AlphaFold2模型,以便于广大飞桨开发者快速入门蛋白质结构预测。
AlphaFold2算法的设计思路
AlphaFold2通过独特的神经网络和训练过程设计,实现了首次端到端的蛋白质结构学习。整个算法框架通过协同学习蛋白质的多序列比对(MSA)和氨基酸对(pairwise)的表征,将蛋白质序列的进化信息与其结构的物理和几何约束结合到深度学习网络中。以下将从数据预处理、EvofoRMeR和structure module三个模块分析AlphaFold2算法的设计思想。




