今年8月,谷歌旗下的日本DeepMind公司利用AlphaFold2模型,公布了大概 2.2 亿种蛋白质的预测结构,它几乎囊括了 DNA 数据库中已知生物体的所有蛋白质。而如今,另一家科技大鳄Meta(前身为Facebook)正利用人工智能ESMFold(“宏基因组”数据库) 填补我们蛋白质宇宙的“暗物质”。
这项最新研究中,Meta公司借助ESMFold,在两周内预测了来自真菌、病毒和其他仍未被表征微生物的约6亿多种蛋白质的结构,速度是目前世界最快模型的60倍。相关研究早已递交生物预印本网站biorxiv.org。
通常,语言模型是在大量文本上进行训练的,Meta 为了将语言模型应用于蛋白质,团队负责人Alexander Rives 及其朋友将已知的蛋白质序列作为输入,这些蛋白质由 20 种多肽组成,并用不同的字母表示,接着,ESMFold在遮蔽一定比列多肽的情况下学会了手动补全蛋白质。
团队负责人Alexander Rives表示,这些训练让ESMFold对包含蛋白质形状信息的蛋白质序列有了直观了解。而且,与“阿尔法折叠”一样,这一网路能将这种了解到的信息与已知蛋白质结构和序列之间关系的信息结合,生成预测结构。ESMFold似乎不像“阿尔法折叠”那么确切,但在预测结构方面的速率要快60倍,这意味着她们可将结构预测扩充到更大的数据库。Alexanderander Rives称:“这些结构是我们所知最少的,我觉得它们提供了深入了解生物学的潜力。该模型的准确性水平可以与AlphaFold2‘竞争’”。
AlphaFold是曾开发出AlphaGo的DeepMind公司研制的蛋白质结构预测深度学习模型。2021年7月,DeepMind表示,AlphaFold2与AlphaFold完全不同,“这是一个基于神经网路的新模型,其预测的蛋白质结构能达到原子水平的准确度。”这一巨大进步被Nature和Science选为“2021年度十大科学突破”。
两种模型最大的区别就是速率。AlphaFold2 的工作依赖于多序列比对(MSA),而ESMFold 引入了小型语言预测模型,大大推动了结构预测的速率。
但同时也有科学家对其预测的精准度表示怀疑。哈佛大学进化生物学家Sergey Ovchinnikov觉得其中有些预测结果可能缺少明晰的结构,另一些可能属于被错判的非编码DNA。“似乎仍有一半以上的蛋白质空间我们一无所知。”他说。德国慕尼黑工业大学的计算生物学家Burkhard Rost也指责:ESMFold模型在预测宏基因组数据库中的蛋白质时,是否真的比AlphaFold2精度更具优势。
对此,澎湃科技连线了复旦大学复杂体系多尺度研究院教授马剑鹏。马剑鹏表示,虽然ESMFold的预测准确性仍未达到AlphaFold,但在预测结构方面它比 AlphaFold 快约 60 倍,这意味着其可以用于建立更大的蛋白质预测结构数据库。
马剑鹏觉得,该模型的贡献还在于向世界展示了AI算法的强悍,连预测蛋白质结构这些困惑了人类几十年的困局都可以利用AI解决,说明一个属于AI算法的时代早已离我们不远了。
此外,马剑鹏还表示,该技术除了对全世界结构生物学的发展有影响,对我国结构生物学的发展也有帮助,但是不能完全依赖于此。“不能只借鉴他人的技术分子动力学模拟软件ms,中国必须从核心算法等底层技术做起。”至于AI发展是否会让传统结构生物学家“失业”,马剑鹏觉得还“为潮流早”。
对话:
ESMFold新在哪里
澎湃科技:结构生物学属于生物学的哪些分支?
马剑鹏(复旦大学复杂体系多尺度研究院校长):结构生物学是分子生物学类的一个分支,它主要关注蛋白质结构,但是分子生物学有基因分子动力学模拟软件ms,有结构,还有抗生素设计,它都是生物学问题。
澎湃科技:与AlphaFold相比,ESMFold的特征是哪些?
马剑鹏:今年,DeepMind 公布了大概 2.2 亿种蛋白质的预测结构,几乎囊括了 DNA 数据库中已知生物体的所有蛋白质。最近,Meta AI 宣布推出包含 6 亿多个蛋白质的宏基因组图谱,比任何现有的蛋白质结构数据库都要大 3 倍,并且是第一个全面、大规模地囊括宏基因组蛋白质的数据库。与AlphaFold2相比,ESMFold只使用了序列信息,并没有进行多序列比对(MSA)。虽然ESMFold的预测准确性仍未达到AlphaFold,但在预测结构方面,它比 AlphaFold 快约 60 倍。它只用了2周就预测出了大概6亿种蛋白质的形状。
澎湃科技:它的速率比AlphaFold更快,但这会不会影响它的精准度?
马剑鹏:ESMFold的预测准确性仍未达到AlphaFold。具体来讲,在 cameo 数据集上比使用全 MSA序列的 AlphaFold 仅差0.05/0.88。但更快的速率意味着其可以用于建立更大的蛋白质预测结构数据库。
澎湃科技:之前有专家表示AlphaFold2几乎达到了实验科学的最高水平,现在又出现了赶超AlphaFold的Meta模型。你怎样看Meta模型未来的发展和应用?
马剑鹏:目前来看,ESMFold报导的准确性并没有赶超AlphaFold2。但Meta 模型是基于蛋白质序列库训练的大语言模型,它完全打破了结构预测对于传统多重序列对齐算法(MSA)的依赖,使用无监督学习来学习蛋白质序列在高维空间的embedding(嵌入)层,做到了用深度学习模型来描述蛋白质的进化。可以说,meta研制的ESMFold模型实现了真正意义上的完全用深度学习来做结构预测,是一个奇迹。虽然精度不及 AlphaFold,但结果比 AlphaFold 更进一步。同时也为研究人员提供了一个可以交叉验证预测结构的数据库。
会让结构生物学专家“失业”吗
澎湃科技:该模型对结构生物学最大的影响是哪些?
马剑鹏:我觉得它可以推动这些用急冻电镜之类的实验手段来预测蛋白质结构的速率,因为无论是实验手段预测还是计算机预测,都须要建模。而建模须要实验数据做基础,现在有了这个预测模型,先搭建模型再加入数据,就能得到一个初始模型,这是他最大的好处。其次,蛋白质结构决定了其生物学功能,准确的预测结构可以为其它生物学领域提供帮助,如抗生素设计等。也可以为结构生物学的结构解析工作提供帮助。
澎湃科技:它的影响仅限于结构生物学吗?对其他科学领域是否有影响?
马剑鹏:首先让以前是小众学科的计算生物学弄成了引领式学科。用计算机来研究生物学问题,已经显得十分重要。其次,蛋白质结构决定了其生物学功能,准确的预测结构可以为其它生物学领域提供帮助,如抗生素设计等。此外,宏基因组预测结构图谱将使科学家才能在数亿蛋白质的尺度上搜索和剖析宏基因组蛋白质的结构,从而找寻遥远的进化关系。它还有一个重要贡献在于它向世人展示了一个超级强悍的AI算法的时代来了,连预测蛋白质结构这些困惑了科学家几十年的困局都可以利用AI解决,那将会有更多困局才能借机迎刃而解,甚至可以说人生无处不AI,所以对其他科学领域的影响也是巨大的。
澎湃科技:对解析生物结构的科学家有哪些影响?他们可能面临“失业”吗?
马剑鹏:我觉得这个说法为潮流早,目前还是有很多蛋白结构难以借助AlphaFold2模型进行准确地预测。因为AlphaFold2主要借助MSA(多序列比对)信息,把蛋白质的结构和生物信息整合到了深度学习算法中,所以当面对诸如孤儿序列(找不到其他与其相似的序列)这样的蛋白时,该模型就难以准确地生效了。另一方面,ESMFold的准确率也尚待完善。所以我觉得目前的技术发展还远没有达到代替实验结构生物学的程度,它只是为科学家确切的结构解析提供了帮助。
ESMFold意义何在
澎湃科技:借助此,未来结构生物学的研究新方向和新领域是哪些?
马剑鹏:目前的模型都用于预测蛋白质的静态结构,结构生物学的研究新方向应当是使用深度学习方法来实现真正的端对端高精度结构预测,也就是实现单序列输出结构。因此继续发展下去,我们甚至可以以此剖析出蛋白质动态的结构变化。
澎湃科技:该研究会推进好多未解医学困局的发展吗?比如推进疾病诊治研究?
马剑鹏:从破解困局来说,有可能模型还能预测目前实验还未预测到的结果,大家能从结构信息来剖析相应的生物过程。要说促进新药研制的话,这是一个须要时间的过程。本质上来讲AlphaFold2和ESMFold模型的底层逻辑是一致的,他们主要预测蛋白质的静态结构,下一步还须要研究蛋白质的动态结构,这个研究领域叫分子动力学模拟。所以该模型也会帮助我们推动了分子动力学模拟领域的研究速率。当这两个领域的研究都完成后,下一步才是抗生素设计。总之,AI赋能新药设计这个领域从长远看确实具有巨大的潜力,但是还须要一步一个脚印前进,还须要时间。
澎湃科技:该技术对国外结构生物学的发展有哪些帮助和影响吗?
马剑鹏:当然,它对全世界结构生物学的发展都有影响。但我们要听到,我们不能只借鉴他人的技术,有人觉得AlphaFold开源了,中国就不用研究了,这是完全错误的。对于国家来说,这甚至是核心卡舌头技术之一。中国必须从核心算法等底层技术做起。因此该技术对我国结构生物学发展有帮助,但是不能完全依赖于此。
澎湃科技:最近研究结构生物学的专家颜宁院士宣布归国发展造成热议,也有人称是AI挤压了结构生物学的研究空间,你对此如何看呢?
马剑鹏:我不认同该观点。恰恰相反,计算生物学的突飞猛进对颜宁院士这样的实验结构生物学家的工作是有巨大的利空的。颜教授的归国,是大好事,我觉得这正说明国外科研环境更好了。而且如同我此前说的,不管是AlphaFold2还是ESMFold,都只是解决了结构生物学一小部份的问题,还有很宽广的领域未被开拓,很多不是AI算法可以完全解决的,需要交叉学科的科学家们的共同努力。