爱收集资源网

AIforScience:科研新范式

网络整理 2023-09-27 05:01

AI for Science是近些年盛行的将人工智能和科学相结合的一种趋势,通过借助机器学习和其他AI技术可以拿来解决科学研究中的问题,从预测天气和蛋白质结构,到模拟星系碰撞、设计优化核聚变反应堆,甚至像科学家一样进行科学发觉,被称为科学发觉的"第五范式"。

人工智能正在着力推动推动科研的发展。在AI for Science的大背景下,未来,传统科学将会成为人工智能的主战场之一,同时就会给生物药业、芯片、材料、工业制造等领域带来新的产业模式。

AI for Science赋能科学研究新范式

为什么说AI for Science赋能科学研究新范式?

这须要从科学研究常年面临的窘境讲起。以往做科学研究有两种主要的方式,一个是基本原理驱动,比方说像量子力学、欧拉方程等,另一个就是数据驱动。但数据驱动的方式遭到了两方面的限制分子动力学模拟软件ms,一是缺少数据,二是缺少数据剖析的工具。

这个困难的核心之一就是自由度太多,自由度太多带来的直接困难就是所谓的维数灾难。维数就是自由度的个数,维数灾难就是指随着维数降低,计算量成指数降低。维数灾难促使科学研究在好多情况下,只能用极其粗糙的办法解决实际问题,比如量子力学中一个十分知名的Hatree近似,它指的是用单变量函数的乘积来代替多变量的函数,这样的迫近方式其实是十分粗糙的。尽管如此粗糙,Hatree近似一直是迄今为止量子力学、量子化学上面最基本的工具之一。

而深度学习恰恰是解决这种问题的工具。深度学习有三个典型实用性场景,第一个是图象辨识,第二个是人脸图片的生成,第三个就是你们十分熟悉的AlphaGo。

图像辨识从物理的角度来讲,实际上是在迫近一个高维的函数,例如对于一张32x32x3的图片,其维数是3072,也就是说每位图片有3072个自由度。如此高维的函数,用方程拟合是根本不可想像的,但是深度学习提供了非常好的解决方案,能够有效处理高维问题。

为什么深度学习方法可以处理高维问题?因为它用了一个基本的工具就是神经网路,这类特殊函数与方程不一样,它对于高维函数提供了有效的迫近技巧。这意味着在函数这个层面构建了一个十分有效的新工具,它带来的影响是巨大的,这也是AI for Science的物理基础。

以下是一些人工智能(深度学习)方法给科学研究带来突破的事例:

AI突破数据驱动困局

分子动力学模拟软件ms_分子动力学模拟软件ms_分子动力学模拟软件ms

数据驱动面临一个很大的困局就是欠缺有效的数据剖析方式,深度学习或则说人工智能则提供了新的突破。如早已才能预测超过100万个物种的2.14亿个蛋白质结构,几乎囊括了月球上所有已知蛋白质,破解了生物学领域最重大的困局之一的Alphfold,可以说是估算生物界的大明星。它就是一个十分典型的数据驱动的技巧。

AI突破模型驱动困局

除了数据驱动的方式以外,模型驱动的方式也得到了新的突破。例如过去很难发展既精确又高效的分子动力学方式,深度学习方法给我们提供了有效的解决方案,如DeePMD,就是分子动力学的工具,它帮助实现了在分子层面大规模、高效的模拟,同时保证了微观科学领域上面估算的尺度和精度。

这样的看法不仅仅可以用到分子动力学层面,在整个数学模型的生态链上,从最底层的薛定谔方程,密度泛函、分子动力学、玻尔兹曼方程等估算物理、计算材料科学、计算生物学常用的工具,再到大气科学、海洋科学上面的紊流模型,我们都可以用人工智能或则机器学习的方式来设计新的模型和新的算法,因此可以说,基于机器学习的新算法,开启了科学估算的新时代。

AI有机结合数据驱动和模型驱动 赋能医药研究

例如现今好多团队都在做的事情就是通过数据驱动方式和模型驱动方式有机结合,来建立愈发系统、高效、自动化的抗生素研制过程。例如比较早开始推进AI for Science的企业深势科技,它推出了一个Uni-系列。Uni-系列有一系列的工具,包括Uni-Fold,实际上是AlphaFold的再现;Uni-FEP,这个是估算结合自由能的;Uni-Mol,这是预测各种各样的性质实现抗生素分子的定向生成。这一系列工具的主要目的就是要把数据驱动方式和基本原理驱动方式结合在一起,更高效、更精准地去设计抗生素。

如何把数据驱动方式和模型驱动方式结合在一起?例如第一步用AlphaFold来预测蛋白结构,这就是是Uni-Fold做的结果,对这样的一个蛋白,通过Uni-Fold得到的结果跟实验的偏差,大概是2。在这个基础上,第二步可以用RiD(Reinforced Dynamics的缩写,中文为加强动力学),它把强化学习的一些看法放在动力学模型里头,得到一个高效的结构优化的工具。通过加强动力学可以把偏差减少到0.5,这其中,第一步是数据驱动,第二步是模型驱动。

诸如此类的研究有望为我们目前面临的一些最可怕的病原体恐吓提供前所未有的新医治方案。在创造内容之外,让AI实现合成 DNA 序列、发现新药,或是发觉新的病症医治技巧。

AI for Science加速爆发

在过去的几年里,人工智能改变了分子生物学领域。2022年,有几个研究小组首次成功应用人工智能来辨识新型药物抗生素。2022年3月,中国科学院的马越和他的朋友使用最初为自然语言处理开发的机器学习技术来辨识由人类肝脏微生物基因组序列编码的抗菌肽。该算法能辨识出2349个潜在的抗菌肽序列。

分子动力学模拟软件ms_分子动力学模拟软件ms_分子动力学模拟软件ms

以上只是AI做医药研究的反例。AI 能做的科研还远远不止这种。比如说还可以用AI来预测新材料的性能,用AI来剖析基因的功能等等。

类似于生命科学领域,分子动力学领域也出现了影响力同样明显的DeePMD-kit项目,其通过借助机器学习、高性能估算技术与化学建模相结合,能够将分子动力学的极限提高至10亿原子规模,同时保持高精度,大大解决了传统分子动力学中“快而不准”、“准而不快”的困局。

还有在气象预测领域,基于新型算子学习的神经网路模型FourCastNet,能够将天气预报提速45000倍;在工业领域的流体、结构等PDE多项式求解方面,也已否认基于数据+物理机理融合的AI方式,是解决复杂高维化学问题的突破口……

从作坊模式到安卓模式

AI for Science赋能“平台科研”新范式

这里带来的一个可能的转变,是科研范式从作坊模式到安卓模式的改变。目前国外科学家做科研、带中学生、培养研究生很大程度上是师父带师父的办法分子动力学模拟软件ms,这是作坊模式的彰显,它带来的困难之一是效率比较低下。

未来基于人工智能发展的促进,这样的作坊模式会转变到安卓模式。所谓的安卓模式就是构建一些由你们共同建设的大平台,在这个平台的基础上,我们可以开发各自感兴趣的应用。

其中一个重要的成果就是开发了DeepModeling这样的开源社区。DeepModeling是好多年轻人做的社区,社区集成了机器学习和化学模型相结合的科学估算方式、模型和基础设施。

举一个事例。有一个预训练模型叫DPA,覆盖了所有的元素周期表,有强悍的迁移能力。有了这样的预训练模型之后,如果遇到一个新的分子体系,只须要极少量的数据,就可以在预训练模型的基础上训练下来特别精确的针对新体系的分子动力学势函数。

AI for Science作为一个充分彰显交叉学科的新兴科研范式,涉及生物学、分子动力学、计算流体力学、固体力学等学科,需要大量的跨领域科研人才,且不断扩充的开源生态库,要与传统数据集模拟软件、数据集打通,才能满足研制人员对开发工具链的需求,逐步产生稳定且优质的科研生态。

结语

人工智能将在可预见的未来,能对基础研究方式带来全方位的推动提高。包括但不限于生命科学、材料科学、新药研制、数学研究、大气科学乃至金融经济学等基础学科研究领域。与此同时,在未来还须要将人工智能与产业应用结合上去,推动人工智能赋能科学研究新范式,用原始创新推动科创发展,让人工智能和产业的结合促使底层的科研,用底层创新带动行业发展,助力科技发展不断迈向前沿。

分子动力学模拟软件ms
上一篇:火灾防护 | 高效灭火器和质量检测 下一篇:没有了