互联网资讯 / 人工智能 · 2024年1月2日

谷歌AI注释蛋白质序列的重大进展

蛋白质是构成细胞和组织的重要成分,所有重要的生物结构都依赖于蛋白质的参与。

目前已知的蛋白质种类多达数十亿,但大约三分之一的功能仍未被了解。探索这些未知功能至关重要,因为它们与抗生素耐药性和气候变化等重大问题息息相关。例如,青霉素是蛋白质之间自然反应的产物,植物蛋白则有助于减少大气中的二氧化碳。

近期,谷歌与欧洲生物信息学研究所合作开发了一项名为ProtCNN的技术,利用神经网络来可靠地预测蛋白质功能,帮助我们探索蛋白质的未知领域。

谷歌表示,这种新方法能够更准确地预测蛋白质的功能及其突变效应,并助力蛋白质设计,应用于药物发现和酶设计,甚至深入理解生命的起源。

论文:USing deep learning to annOTAte the ProtEIN univeRse

谷歌AI一次注释了10%的已知蛋白质序列,超过人类十年研究成果

论文链接:https://www.natuRe.coM/Articles/s41587-021-01179-w

谷歌提出的方法有效预测了更多蛋白质的作用,其速度快、成本低、易于应用,使得主流数据库PFAM中注释的蛋白质序列增加了近10%,超越了过去十年的速度,并对360种人类蛋白质功能进行了预测。

谷歌AI一次注释了10%的已知蛋白质序列,超过人类十年研究成果

PFAM数据库集合了多种蛋白质家族,每个家族通过多序列比对和隐马尔可夫模型表示。

这些结果表明,深度学习模型将成为未来蛋白质注释的重要工具。

许多人对DeepMind的AlphaFold算法更为熟悉,该算法预测了蛋白质的结构,而最新研究则专注于这些生物机器的功能及用途。

生物医疗领域非常活跃,每天都有超过十万个蛋白质序列被添加到全球数据库中。然而,如果没有功能注释,这些数据对科研工作者的价值有限。尽管努力从文献中提取注释,评估超过六万篇论文,但手动注释的蛋白质序列仅占0.03%。

谷歌AI一次注释了10%的已知蛋白质序列,超过人类十年研究成果

科学界长期以来一直试图直接从氨基酸序列推断蛋白质功能。从1980年代开始,BLAST等方法依赖于序列比较,假设查询蛋白质与已注释序列高度相似则具有相同功能。随后,基于特征的Prosite数据库对特定功能的蛋白质中发现的短氨基酸“基序”进行了分类。Profile隐马尔可夫模型(pHMM)是这一方法的关键改进,将相关蛋白质序列对齐并提供匹配程度的评分。

Profile HMM允许更长的特征和更模糊的匹配,目前用于更新流行数据库,如InteRPro和PFAM。后续的改进增强了这些技术的灵敏度和计算效率,其高可用性使研究者能够将其方便地整合到工作流程中。

这些计算建模方法对学术界产生了显著影响,但至今仍有三分之一的细菌蛋白质未被注释。原因在于当前方法对每个比较序列或模型进行独立比较,未能充分利用不同功能类共享的特征。

为了扩展蛋白质序列的注释,需要对与训练数据相似度低的序列进行准确分类。新研究的基准测试集包含21,293个序列,ProtENN在所有类别的分类准确度上显著提高,尤其是对于远距离测试序列的分类,这是扩大蛋白质领域覆盖范围的关键。为了解决从少数例子中推断的挑战,研究者使用深度模型学习的序列表示来提升性能。

谷歌AI一次注释了10%的已知蛋白质序列,超过人类十年研究成果

PFAM-seed模型的性能。

谷歌AI一次注释了10%的已知蛋白质序列,超过人类十年研究成果

谷歌AI一次注释了10%的已知蛋白质序列,超过人类十年研究成果

ProtCNN的架构。中心图展示了输入(红色)、嵌入(黄色)和预测(绿色)网络以及残差网络ResNet架构(左侧),右侧图展示了ProtCNN和ProtREP通过简单的最近邻方法利用。在这一表示中,每个序列对应一个点,来自同一家族的序列通常比来自其他家族的序列更接近。

ProtCNN学习每序列长度为1100的实值向量,适用于未对齐的长度。为了确保高精度,来自每个家族的表示必须紧密聚集,以便不同家族之间能够良好区分。为测试这种学习表示是否能准确分类最小家族的序列,研究者构建了一种名为ProtREP的新方法。ProtREP通过计算每个家族在其训练序列中的平均学习表示生成标记家族表示,再通过在学习表示空间中找到最近标记来对保留的测试序列进行分类。相同计算成本下,ProtREP在聚类分割上的准确性超越了ProtCNN。

谷歌AI一次注释了10%的已知蛋白质序列,超过人类十年研究成果

ProtENN与TPHMM的组合提升了远程同源任务的性能。TPHMM和ProtENN模型的简单组合将错误率降低了38.6%,将ProtENN数据的准确度从89.0%提升至93.3%。

为探究深度模型对蛋白质序列数据的理解,研究者在来自PFAM-full的80%未对齐序列上训练ProtCNN,并计算了氨基酸表示的相似性矩阵。

结果表明,ProtCNN学习了一种有意义的蛋白质序列表示,能够泛化到未知序列空间,适用于预测和理解蛋白质序列的特性。另一个挑战是检测蛋白质结构域及其在蛋白质序列中的位置,此任务类似于图像分割,正是深度学习模型的强项。尽管ProtCNN使用域进行训练,但研究表明其能够通过简单的滑动窗口方法将完整序列分割成结构域。

尽管不依赖序列比对,ProtCNN依然展现了卓越的准确性。