互联网技术 / 互联网资讯 · 2023年11月8日 0

AI成功解码蛋白质分子折叠问题

生物学界最大的谜题之一,蛋白质折叠问题终于被人工智能成功解密。

在CASP14大会上,近七旬的加州大学戴维斯分校科学家Andriy Kryshtafovych感慨道:“我曾怀疑自己能否活到看到这一时刻。”

11月30日,一则重磅消息引起了科技界的广泛关注:谷歌旗下的人工智能公司DeepMind推出的深度学习算法“AlphaFold”成功破解了这个困扰科学界五十年的蛋白质分子折叠问题。

最新版本的AlphaFold 2,现已具备预测蛋白质三维折叠形状的能力,这一复杂过程对理解生命的形成机制至关重要。

DeepMind的这一重大科研突破迅速引发了《Nature》、《Science》等科学杂志的报道,桑达尔·皮查伊、伊隆·马斯克等科技界领袖也对这一成果表示祝贺。

科学家们指出,AlphaFold的研究成果将有助于揭示某些疾病的机制,并为药物设计、农作物增产以及可降解塑料的“超级酶”研发铺平道路。

DeepMind的创始人兼首席执行官德米斯·哈萨比斯表示:“这是该领域激动人心的时刻,这些算法已足够成熟,能够应用于真正具有挑战性的科学问题。”

蛋白质是生命的基础,由氨基酸链构成的复杂分子,其功能取决于独特的三维结构。弄清蛋白质如何折叠成特定形状被称为“蛋白质折叠问题”。在过去的五十年里,蛋白质折叠一直是生物学领域的重大挑战。

DeepMind的AlphaFold在这一问题上取得了显著突破。在今年的国际蛋白质结构预测竞赛CASP中,AlphaFold的最新版本超越了其他选手,并在准确性方面接近人类实验结果,成为解决蛋白质折叠问题的关键。这一进展彰显了人工智能在科学发现,特别是基础科学研究中的重要影响。

在每两年举办一次的CASP竞赛中,各参赛组竞争预测蛋白质的三维结构。今年,AlphaFold不仅击败了所有其他团队,还在准确性上与实验结果相匹配。

对于不熟悉生物领域的人来说,CASP可能并不陌生—CASP全称为The CRITICAL ASSESSMENT of PROTEIN structure PREDICTION,旨在评估蛋白质结构预测,被誉为蛋白质结构预测的“奥林匹克竞赛”。CASP自1994年开始举办,每两年一次,目前进行的是11月30日开始的CASP14。

那么,DeepMind的这一突破将产生怎样的影响呢?

哥伦比亚大学计算生物学家Mohammed Alquraishi在《Nature》文章中表示:“这将对蛋白质结构预测领域造成深远影响。我认为很多人可能会离开这个领域,因为核心问题已得到解决。这是顶尖的科学突破,也是我一生中最重要的科学成果之一。”

蛋白质的形状与其功能密切相关,预测蛋白质结构对于理解其功能和工作原理至关重要。许多困扰人类的重大问题(如寻找分解工业废料的酶)与蛋白质及其角色息息相关。

多年来,研究者一直在使用核磁共振、X射线、冷冻电镜等技术探测和确定蛋白质结构。然而,这些方法通常需要大量的试错和昂贵的设备,每项结构的研究可能耗费数年时间。

1972年,美国科学家克里斯蒂安·安芬森因研究核糖核酸酶及其氨基酸序列与生物活性构象之间的关系而获得诺贝尔化学奖。在颁奖典礼上,他提出了一项著名的假设:蛋白质的氨基酸序列应该能够完全决定其结构。这一假设引发了长达五十年的探索,即仅基于蛋白质的一维氨基酸序列推算其三维结构。

然而,这一思路面临的挑战在于,在形成三维结构之前,蛋白质的理论折叠方式的可能性是一个天文数字。1969年,Cyrus Levinthal指出,若通过蛮力计算来枚举一种蛋白质可能存在的构象,所需的时间甚至超过宇宙的年龄。Levinthal估计,一种蛋白质约有10^300种可能构象。在自然界中,蛋白质会自发折叠,有些仅需几毫秒,这就是所谓的Levinthal悖论。

蛋白质折叠问题解读视频请戳:

CASP 14比赛最新结果:AlphaFold中位GDT高达92.4

CASP竞赛由John Moult和Krzysztof Fidelis教授于1994年创立,每两年进行一次盲审,旨在促进蛋白质结构预测领域的最新研究成果。

CASP一直选择近期实验确定的蛋白质结构作为参赛团队测试其预测方法的目标(部分结构在评估时尚待确定)。这些结构不会事先公布,参赛者需对其进行盲测,最终将预测结果与实验数据进行对比。正因如此,CASP被誉为预测技术评估领域的“黄金标准”。

CASP衡量预测准确率的主要指标是GDT(Global Distance Test),其范围从0到100,表示预测的氨基酸残基在正确位置阈值距离内的百分比。John Moult教授表示,GDT分数在90左右即可视为具备与人类实验方法的竞争力。

在刚刚公布的第14届CASP评估结果中,DeepMind的最新AlphaFold系统在所有预测目标中的中位GDT达到了92.4,意味着其平均误差大约为1.6埃(Angstrom),相当于一个原子的宽度(或0.1纳米)。即便在难度最高的自由建模类别中,AlphaFold的中位GDT也达到了87.0。

历届CASP竞赛自由建模类别中预测准确率中位数的提升情况,度量指标为best-OF-5 GDT。

CASP竞赛自由建模类别中的两个目标蛋白质示例。AlphaFold能够预测出高度准确的蛋白质结构。

这些令人振奋的结果标志着生物学家开始将计算结构预测作为科研主要工具的新时代。DeepMind提出的方法特别适用于某些重要的蛋白质类别,例如膜蛋白(Membrane Protein),因为膜蛋白难以结晶,导致通过实验方法确定其结构非常困难。

这一计算工作代表了在蛋白质折叠这一拥有50年历史的生物学问题上的巨大进展,意味着该领域的研究者在预测蛋白质折叠结构方面的能力大幅提升。我们期待这一成果能在多个领域推动生物学研究的根本性变革。——Venki Ramakrishnan教授(诺贝尔奖得主,英国皇家学会会长)

DeepMind是如何解决蛋白质折叠问题的?

2018年,DeepMind团队使用初代AlphaFold参加CASP13比赛,取得了最高的准确率。随后,DeepMind将CASP13的方法与…