转载于ScienceAI

作者/凯霞

5月10-11日,首届中国生物计算大会于苏州召开。活动特邀中国科学院院士、普林斯顿大学数学系和应用数学研究所教授、北京大数据研究院院长鄂维南院士作题为「机器学习与科学计算」的主题报告。
鄂维南院士就「机器学习与科学计算」分享了科学计算的两大主题——处理物理模型和处理数据,指出机器学习、数据驱动在处理生物实验数据、设计新型实验以及创建更高效的生物计算模型方面的广阔前景。随着AI的发展,AI 在生物、化学、材料、工程等传统科学领域将会有非常广阔的前景。将科学模型、机器学习与高性能计算相结合,进一步开发出更加高效和准确的研究方法,促进科学研究从「小农作坊」模式到「安卓」模式的转变。  
鄂维南说:「我是最早用深度学习来做生物计算的,2015年我开始用生物学习分析生物学数据,当时做了一个软件——『DeFine』,那时就已经看到,深度学习从数据分析和科学模型的角度,给我们带来的新机会。」
科学计算第一大主题——处理物理模型
科学计算有两大主题,第一大主题是处理物理模型。科学的主要模型都是来自于物理学,比如牛顿方程、空气动力学,弹性力学、电磁场理论、量子力学等等。
薛定谔方程是量子力学的基本方程,科学计算的第一任务就是要解这类的方程。「一张图」基本囊括了整个科学领域最基本的量子模型。甚至于工程领域基本的物理模型都在这张图中。
 

图示:在不同尺度上对应不同物理问题所用的不同理论。(ScienceAI现场拍摄)
有效数学方法出现之前,为了解决实际问题,科学家唯一能够做的事情就是简化模型。虽然有物理学家们找到了基本原理,但没办法使用,实际用时却是另外一套,到现在这种事情仍在发生。
直到50年代开始,有了电子计算机才发生了根本的变化,做计算方法的人发展了一系列的方法,比如说差分方法、有限元方法、谱方法,有了这些方法以后,人类历史上第一次实现了直接用基本原理解决实际问题。目前还没有达到从基本原理到药物设计,但是基本原理来做桥梁设计、大楼的设计、飞机的设计这些已经做到了。从数学的角度来说,微积分里面所有的函数都可以多项式逼近。
但是仍然有很多问题没有解决,包括药物设计,并没有从基本原理的角度来适应,眼下生物设计是非常经验化的学科,造成的结果就是做理论的人、做实验的人和做实际应用(企业、公司)的人这三个场景相差距离非常远。
造成以上问题的一个共同根源就是「维数灾难」,内在变量太多,维数增加,计算量呈指数增长。比如薛定谔方程是一个基本方程,这个波函数的自由度的维数个数是电子个数的3倍。
科学技术第二大主题——处理数据
科学技术的第二大主题是处理数据。数据种类很多,例如把图像看成数据,有三个主要任务,第一是imaging,通过实验仪器的数据反演出内在结构。第二是image processing,包括图像去噪、分割和修补等等。第三是image recognition,也就是图像识别。
做数学的也在处理图像,处理的是前两个任务,很少做到第三个任务。做计算机的人不同于做数学的,他们一直在努力,找到了深度学习这样一个工具,深度学习工具使图像识别得到有效的解决,带来高维图像识别的解决方法。
从解决高维数学问题来说,图像识别是解决高维函数逼近,图像生成是高维概率密度,AlphaGo是解高维(超大空间的)Bellman方程。其本质原因是深度学习对高维函数提供了有效的逼近方法,函数是非常基本的数学工具(之一)。
从科学计算的角度,最大的影响就是把处理数学计算的方法和物理数据的方法结合起来,这就是「AI for science」。以前要么是模型,要么是数据;现在有一个新的套路,从模型出发,从模型得到数据,从数据得到更有效的模型。
1985年,通过量子力学计算原子之间的相互作用力,使得分子动力学成为可靠的工具,但只能处理几百个原子的简单体系。因为这个方法不够有效,解决实际问题时,人们用的方法就是猜,用猜的方法去设计药物显然不可行。
按照机器学习的「套路」,从量子力学模型提供数据,在这个基础上通过机器学习提供新的更有效又可靠的模型,这样新的套路得到了很好的实现。通过这样的方法,深度势能(DP)团队第一次把机器学习和科学计算、高性能计算结合在一起,获2020年戈登贝尔奖(Gordon Bell Prize)。
「除了分子动力学以外,我们也发展了一系列方法,这对做药物是有用的,比如密度泛函,我们发展了所谓的『DEEP』,这些工具不能说已经百分之百成熟了,但至少提供了新的可能性。」鄂维南说,「自由能计算是药物设计最重要的工具之一。在这个方面我们发展了『Rid』方法——界定强化学习,来做粗略化的分子动力学。这个方法是开源社区的概念,即把深度学习和物理模型相结合,这是新的机会,但是这个事情某种程度来说还是非常难的,需要大家一起努力,我们前几天发布了『DeepModeling』开源社区,希望大家把力量整合在一起,一起推动这个事情。我们希望通过这样的社区推动大家来做这样的事情。」
AI for science
最后,鄂维南院士再次强调「AI for science」。比如自动驾驶有很好的前景,但是传统制造领域,像生物、化学、材料、工程等会成为人工智能的主战场,而且是更大的主战场,这对应的具体应用是生物制药、能源材料和先进制造。
具体落地的是新一代科学软件。大家最近这些年谈科学软件,工业软件「卡脖子」,这个新模式将推动新一代的科学软件,这些科学软件的建设是一个非常好的机会。
「小农作坊」到「安卓」转变
推进科学研究从「小农作坊」模式到「安卓」模式的转变。科学家在自己实验室里面干,是自给自足的「小农作坊」,以后就是大平台,在这个大平台基础上大家开发自己感兴趣的应用就是平台科研。社区建设会成为一个重要的趋势,希望我们一起努力,把社区建设好。