图片来源@视觉中国
长期以来,如何快速、准确地确定蛋白质的三维空间结构,在生命科学领域一直是一个难题。而人工智能技术的快速发展,让生命科学研究者看到了希望。
2020 年 11 月 30 日,由 DeepMind 公司开发的人工智能程序AlphaFold 2,在蛋白质结构预测大赛 CASP14 中,对大部分蛋白质结构的预测与真实结构只差一个原子的宽度,达到了人类利用冷冻电镜等复杂仪器观察预测的水平,这是蛋白质结构预测史无前例的巨大进步。
随后,来自华盛顿大学蛋白设计研究所以及霍华德休斯医学研究所的 David Baker 教授带领的研究人员,研发出了一款完全免费的、新的深度学习工具 RoseTTAFold,不仅拥有媲美 AlphaFold2 的蛋白质结构预测超高准确度,而且更快、所需计算机处理能力更低。
现在,David Baker 教授带领的研究团队,进一步将 AlphaFold 2 与 RoseTTAFold 相结合,成功用于蛋白质-蛋白质复合物结构的预测。
在对 830 万对酵母蛋白质进行了筛选后,他们识别出了 1505 种可能的蛋白质相互作用,发现了 106 个全新蛋白质复合物以及 806 个全新的蛋白质复合结构。这些新的复合物拥有多达 5 个结构亚型,在真核生物细胞的几乎所有重要生命活动中发挥着重要作用,为全面了解蛋白质的生物学功能打下了坚实的基础。
相关研究以“Computed structures of core eukaryotic protein complexes”为题,发表在最新一期的 Science 杂志上。
蛋白质相互作用的意义蛋白质作为构成人体组织器官的支架和主要物质,在人体生命活动中起着重要作用。许多生命活动是以蛋白质分子的结合和解离来实现的,细胞的各种重要生理活动,细胞对外界环境及内环境作用的反应等,均是以蛋白质间相互作用为纽带,形成信号转导网络系统。
图 | 复杂的细胞结构(来源:Pixabay)
所谓蛋白质相互作用,是指两种或以上的蛋白质结合的过程,通常旨在执行其生化功能。在细胞中,大量蛋白质元件组成分子机器,透过蛋白质相互作用执行细胞内重要的分子过程,例如:
(1)遗传功能,如 DNA 复制等常常需要相应的蛋白质间相互作用参与;
(2)细胞间信号传递途径也离不开蛋白质的相互作用;
(3)蛋白酶——蛋白质底物间的相互作用,与生物的催化反应密切相关;
(4)蛋白质的相互作用对于整合如 RNA 多聚酶或对多成分酶促反应,也有至关重要的影响。
图 | 细胞中复杂的蛋白质网络(来源:Cellsignal)
可见,细胞的代谢、信号传导以及基因表达调控都与蛋白质的功能密切相关,蛋白质与其他生物大分子一样,必须参与到错综复杂的相互作用网络中行使其功能,这也是目前所有生物学研究的基础。
蛋白质的相互作用能产生许多效应,如改变蛋白质的动力学,形成特异底物作用通道,生成新的结合位点,使蛋白质失活,改变蛋白质对其作用底物的专一性等。了解蛋白质相互作用的方式、作用程度、作用结果,将有助于解决蛋白质功能的分析、生命发育的探索、疑难病理的研究、有效药物的开发等众多问题。
因此,对蛋白质相互作用的深入研究,是认识和理解各种生命现象的必要前提。其中,解析蛋白质相互作用的结构,对于了解蛋白质相互作用的功能至关重要。
蛋白质相互作用的研究对于生物学发展至关重要,,对基础科学和药物发现具有重大意义,但是预测多蛋白复合物的结构是生物化学中的一项巨大挑战。即使经过的大量的努力,长期以来众多真核生物蛋白质复合物的结构依旧未知,许多蛋白质相互作用的机制尚未确定。
为此,David Baker 教授带领的研究团队利用全蛋白质组氨基酸协同进化分析和基于深度学习的结构建模,试图系统地识别和构建酵母蛋白质复合物的准确结构。
在本研究中,David Baker 教授选择使用 RoseTTAFold 和 AlphaFold 的组合对 830 万对酵母蛋白的配对进行多序列比对,最终识别出了 1505 种可能的蛋白相互作用,并确定了 106 个全新的蛋白复合物以及 806 个全新蛋白质复合物结构。这些新发现的蛋白复合物拥有多大 5 个结构亚型,在几乎所有的真核细胞关键生命活动中发挥了重要作用。
图 | 复杂的蛋白质复合物结构(来源:Science)
这一研究结果表明,将大规模深度学习技术从单个蛋白质结构预测扩展到蛋白质复合物结构预测是可行的。研究中发现的众多全新蛋白复合物以及相应结构对于后续人们理解真核细胞的生命过程具有重要意义,且为药物研发奠定了基础。
研究人员表示,“上述方案可以直接扩展到人类蛋白质相互作用的大规模研究,但是由于人类蛋白质种类数量比酵母大得多,因此需要更多的计算时间。不过,由于共同进化的相关性较弱,以及基因复制产生的许多旁系同源物,这一模型可能并不一定能准确预测高等真核生物,例如人类蛋白质复合物结构。但是,如果有足够的同源物序列,此方案可以快速预测单个蛋白或蛋白质复合物的相互作用以及结构。”
“在蛋白质复合物结构预测上,AlphaFold 2 与 RoseTTAFold 应进一步提升性能,尤其是针对具有较少同源物或较弱相互作用的蛋白质复合物。总的来说,本研究结果预示着结构生物学的新时代,在这个时代,计算机在蛋白质相互作用的发现和结构确定中均发挥着重要作用。”
被认为“必拿诺奖”的 David BakerDavid Baker 是华盛顿大学生物化学教授和霍华德休斯医学研究所的研究员,IPD 所长和首席研究员。作为大名鼎鼎的蛋白质设计大师,David Baker 近几年一直被认为是诺奖热门人选。
图 | David Baker(来源:Brian Dalbalcon/UW Medicine)
1998 年,David Baker 团队开发了一种用于蛋白质结构预测的 Rosetta 算法平台,利用这个平台构建虚拟的氨基酸链,然后计算出它们最容易折叠的形式。
为了获得更加强大的计算能力,2005 年他们创建了一个名为 Rosetta@home 的众包性外延项目,该项目可以让人们将闲置的计算机用于需要进行的计算,从而研究所有潜在的蛋白折叠。
在超过 100 多万名众包用户的帮助下,David Baker 团队已经找到了如何选择创建一种能够呈现他们想要形状的蛋白质所需的构建模块。
不久前,David Baker 团队研发出一款新的深度学习工具 RoseTTAFold,不仅拥有媲美AlphaFold2 的蛋白质结构预测超高准确度,而且更快、所需计算机处理能力更低,更重要的是,RoseTTAFold 完全免费!相关研究结果同样发表在 Science 杂志上。
作为团队主要负责人,Baker 说:“在蛋白质设计研究所这忙碌的一年中,我们设计 COVID-19 疗法和疫苗并将其投入临床试验,同时开发出用于高精度蛋白质结构预测的 RoseTTAFold 工具。我很高兴科学界已经在使用 RoseTTAFold 服务器来解决突出的生物学问题。”
参考资料:
https://www.science.org/doi/10.1126/science.abm4805
https://www.eurekalert.org/news-releases/934108