进驻欧亚大陆之北,俄罗斯联邦共和国——1996 年一无所获,1997 年一无所获,1998 年依然一无所获,1999 年勉强接到第一笔买单——38 美元。
尽管折戟多年,一家中国公司却于此地招募数十位数学家,建立了彼时几乎无人窥其深意的研究机构——华为俄罗斯数学研究所。然而仅数年之后,该研究所就在全球范围内首次突破性地实现了 GSM 多载波合并,创造性地用非线性数学多维空间逆函数解决了 GSM 多载波干扰问题,得以通过软件打通 2G、3G、4G 网络,达成了在一个机柜内实现三种无线通信制式的融合功能,进而实现了 2G、3G 、LTE 的单基站 SingleRAN 设计。
这一突破被华为运用到全球产品上。在技术升级换代过程中,很多运营商要同时使用多个平台多个波段,移动网络里的算法打通后,2G、3G、4G 产品可以在同一平台上运行,一个波段一根天线的状态被打破,实际节约了 20%-30% 的成本,同时也节约了一半重量,欧洲运营商因此得以把基站放到屋顶上,从而减少站址的使用,又节省了房租等一系列工程成本。
而华为的日益崛起及其在欧洲等发达国家市场的成功探索,恰恰就得益于 SingleRAN 和分布式基站这两大架构式的颠覆性产品创新,前者更是被沃达丰技术专家称作“性感的技术发明”。
也正因此,很多人都说,是数学成就了今日的华为。
而数学所能做到的,或许远不止于此……
2019 年 5 月 16 日,“智源论坛(第3期)——人工智能的数理基础”系列报告上,中国科学院院士、北京大学数学科学学院教授张平文带来了《机器学习驱动的可计算建模》主题报告,本文内容基于此次报告撰写,从建模的角度剖析了人工智能的数学基础。
查看完整报告视频请复制并在浏览器中打开 https://www.bilibili.com/video/av59553660
应用数学的研究手段大体可归为三个方面:统计、计算和分析。若论这三者的成功领域,统计更偏向于社会科学,早前在经济领域“发家”,现如今生物统计等也逐渐崛起;计算过去则多以力学为背景的工程、材料、化学等领域为主,目前研究生物计算的人正在逐渐增多。
放眼大数据人工智能时代,区别于“过去”的两个最大特点分别是:
计算无边界,现在什么都可以做计算;
模型、算法不可分,难于明确分清模型和算法的概念。
人工智能的数理基础包括可计算性、可解释性、泛化性和稳定性这几个方面,因此算法和模型皆不可弃之不顾。那么数学工作者在建模问题上,究竟又能不能发挥作用呢?这是一个在很长一段时间内都在不断困扰着数学工作者的问题。
首先,所谓数学建模,是以数学的概念和语言对一个体系进行描述。那么可计算建模又当何解?简言之,就是根据所研究问题对计算精度的要求,综合运用相关领域知识建立或简化模型,减少计算量,提高计算效率,使得模型在现有计算机条件下可计算。
以湍流为例,它可以是一个 Navier-Stokes 方程,但由于计算量庞大导致难于计算,因此就需要大涡的模拟,也就是平均化。但平均化之后还需要封闭,而关键在于如何封闭,这就是问题的复杂所在,这一类工作被称作可计算建模。这个概念提出之后,大家都认为这确乎该交由数学家来完成。
数学建模的重要性
数学建模的重要性主要体现在以下三个方面:
为自然科学和社会科学研究提供了重要手段,建模实际上是不同领域专家在一起工作的一个最重要环节;
很多规律、机制的刻画离不开数学语言
接受实践检验,并指导实践。
数学建模的分类
那么建模又有哪些类别?其一是过去做计算的人所谓的“机理建模”,或者叫“白盒子”建模。数学家其实非常简单,追求的无外乎简洁与美。人常道数理不分家,所以物理学家亦是如此,惯以简单和美为佳,所以我们建的模型最好没有参数,即使有参数也特别少,这样的模型具有相当优秀的解释性。
过去我们研究的是从机理出发来建模,而研究机理的则是物理学家。过去大量的模型都是如此,例如流体力学的方程,若再加上计算区域、初值条件、边值条件,就成了一个模型。这一类中最重要的当属能量守恒、质量守恒等基本的物理原理。
而现在的大数据建模,则被称作“黑盒子”模型,或“基于数据的建模”,其对体系的运行等缺乏了解,但是从实践中获得了大量的数据,从数据出发建立模型,此处不涉及机理。
事实上,正是因为社会科学中没有像是量子力学、广义相对论这样的机理,一直存在很大的争议,即“社会科学能否算作科学”,而这一问题至今悬而未决。其间一个很重要的区别就在于社会科学是基于数据来建模,而很多我们过去称之为自然科学或工程科学的,则大量使用机理。
因此,“黑盒子”模型面临着机理不清、不可解释等诸多问题,使用时需要特别小心。然而真正的问题在于,大量数学模型介于白盒子和黑盒子之间,既不是黑盒子,也不是机理。
数学模型的评价原则
上文分析了两类模型,一类是基于数据的建模,一类是基于机理的建模,那么面对这些模型,又当如何评价数学模型的质量?大抵可归结为以下几个方面:
可解释性,能够解释模型为什么工作或为什么不工作等诸多相关问题。在这一点上,基于机理的建模都表现得很好,不存在什么可解释性问题;
置信度,模型的精确程度/误差大小。以股票模型为例,能否赚钱就与其精度有关;
可预测性,是否能指导实践,在实践中受到检验。能够预测才有价值;
可计算性,是否能以可接受的计算开销求解。这一点关注的是模型能不能算,计算量是否过于庞大。(如果所有模型都能成功计算,我们就不需要化学了——二十世纪初,著名物理学家狄拉克就曾说过:“所有化学的基本规律都已经确定,今后的问题仅仅是怎样将规律应用于其复杂的体系中”,也就是说化学任务都已完成,因为一切规律可以通过计算的途径获得,但我们却碰上了“可计算性”的问题。)
所以我们的目标就是要建立一个可解释、高置信、可预测的模型。这几点要求说起来容易做起来难,因为其间有些东西是相互矛盾的,这就要求我们找到平衡点,而不同问题的平衡点又各不相同。
单看精度要求这一点,就差异颇大——化学对精度的要求高于物理学,生命科学又比化学的要求更高。而对人工智能来说很重要的一点在于,其比较对象是“人”——人总会犯错,也总存在很多随机因素,所以人工智能只需要做到犯错几率比人小,这实际上是提供了一种精度。
如何才能可计算建模?
算法可以说是一门学问,现在无论是机器学习,还是计算数学、优化乃至统计也都要做算法。但建模却未能成为一门学问,也没有哪里会专门发建模的文章,这又是为什么呢?这里的终极目标就是想要把建模也变成一门学问。
寻找弱机理
关于可计算建模的共性问题,首先很重要的一点就是寻找弱机理。在聊什么是弱机理之前,我们先看下什么是机理?所谓机理就是体系的客观规律,其有强弱之分:
强机理的特性是适用范围广、精度高、预测能力强,例如量子力学,很多研究都可以套用,化学的所有问题也都可以从中导出,所以这就是强机理,其解释性也特别好。
相对的,弱机理则适用范围窄、精度低,预测能力自然也较弱,但既然属于机理,自然也具有一定的可解释性。
实际上,所谓强机理可以说是天才促成的百年一遇,因此大多数人所做的主要还是寻找弱机理的工作。而寻找弱机理需要有手段,机器学习、数学就提供了很多这种手段。
先从最简单最经典的例子入手:
这里的开普勒三定律就是弱机理;牛顿力学、爱因斯坦相对论就都是强机理,因为从某种角度来说,开普勒三定律可以从牛顿力学里导出。鉴于地球上的物体正常的运动速度都远小于光速,所以牛顿力学可以算作普遍适用的超强机理。但当运动接近光速时,则需转到爱因斯坦相对论。因此如上图所示,从内到外机理的强度逐步增加,爱因斯坦相对论最强,开普勒三定律较之其他两者就要弱一些。与此同时,适用范围依次变广,运算能力依次变高,计算复杂度也依次提高。
但如果让我们处理太阳、地球怎么运动的问题,用爱因斯坦广义相论来求解无疑是多此一举式的“自讨苦吃”,所以弱机理本身仍有存在的价值。实际上事情的发展也是如此,“凡人们”发现弱机理,“天才们”再从中洞见强机理。
再以微观物体运动为例,比如量子力学是众所周知的绝对强机理,但由于量子力学的计算量过于庞大,密度泛函应需而生,两相对比,密度泛函从某种角度来说就是弱机理。除此之外,分子动力学研究也离不开经典力场,而经典力场又从何而来?虽然可以通过密度泛函计算得出,但由于难度太大,所以往往还是基于人的猜测——经典立场相对于密度泛函就是弱机理。
因此如上图所示,从内到外的机理强度同样也是从弱到强,其适用范围也是依次变广,精度、预测能力依次提高,但计算的复杂度也会依次升高。
最外圈是薛定谔方程,从数学角度来看可谓极美,属于线性方程、特征值问题,解释性也特别好,这样的条件下数学理论问题无疑很容易解决,但缺点就在于计算量庞大,只能算很小的体系,解决不了问题。
于是物理学家就转向了 Kohn-Sham 方程,相对于薛定谔方程而言,这也就属于大量“普通人”都在研究的弱机理,适用范围极其有限。
然而薛定谔方程由于维数太高,基本上是不可计算的,所以综合考虑可计算性的问题,Kohn-Sham 密度泛函还是比较强的。再较之经典力场,Kohn-Sham 就变得非常适用,容易程度就相当于牛顿力学从我们的角度来解常微分方程。但我们不清楚这个力是什么样的,而且从数学角度来说也远算不上漂亮精确,但事实上又确实有用。所以只追求简单和美有时也是不够的。
再看湍流也是一样,比如湍流里有一个很重要的理论,名为 Kolmogorov 能谱理论,该理论很美观,也能解释一些东西,但左右也不过是湍流的一个统计现象,依旧属于弱机理。
如果要做湍流模型,要平均化,其中十分重要的一条就是雷诺平均化 NS 方程要如何表达,而建立一个模型的本质也就是找一个表达,即在某种特殊环境下理解湍流的某些现象,使之可解释。机器学习实际上也只是提供了一种手段,而湍流模型则有很多,因此可能经常需要多个弱机理来协同建模。
这套逻辑可以对应到金融领域来理解——对于看似随机,却又不是完全随机的市场现象,我们就可以从中找规律,但只找到一个规律解决不了问题,可能要找若干个规律组合起来才有机会获利。所谓组合的直接目的就是提高精度,而且这些规律不是一成不变的,像是某个规律如果在市场中被频繁使用,也就逐渐失效了。
幂律
幂律在弱机理中可以找到很多例子,就像湍流里的 Kolmogorov 能谱理论、社会科学里的 Zipf 法则等,颗粒聚团的规律也会满足某种幂律,这属于化工领域,是一种弱规律,是统计的一种性质表达。
其中,Zipf 法则是社会科学重点关注的幂律,社会科学的论文基本上都是在研究类似的内容。全世界范围内有诸多城市,其研究的问题便是城市和人口之间的关系。
换言之,对不同的国家而言,大城市的个数,乃至不同规模的城市如何分布,都是有规律的,这个规律虽然不是十分美观,但也的确有迹可循,同时也存在一定的误差,有了这个规律我们就能认识并解释一些现象。
众所周知,自然科学里有广义相对论、量子力学、麦克斯韦方程、流体运动方程等——这些构成自然科学的规律很多都是由底层发展而来。但社会科学里并没有这些——其在社会科学里可能没什么前景,但弱机理仍然存在。
除此之外,还有关于手机使用和财富状况此二者间关系的研究,试图从手机的数据中找出财富的关系。这方面的研究本质上是从数据中归纳弱机理,这也需要有手段。数学的手段在过去看来就是统计,但是统计后的归纳也特别简单。现在的人工智能算法和机器学习算法的一大重点就是用数学家的观点使模型复杂化,但其好处在于得到的函数可以描述任何现象,建模的差事也就省掉了,所有困难都被扔给了算法,所以从大数据人工智能的角度来说看到的只是算法。
如果要对这个社会有解释,就需要做到可解释,这里的可解释有两层含义,一是对算法可解释;二个是对规律、问题可解释,这不是同一个概念。可解释的一个前提条件就是参数较少,函数形式较简单。
那么弱机理对可计算建模究竟具有什么样的意义呢?虽然强机理有最广泛的适用范围、最高的精确度和预测能力,但可计算性往往比较差,像社会科学这样的领域可能就不存在强机理。弱机理本质上也是机理,也是体系的客观规律。眼下的机器学习之所以如此热门,一个很重要的原因就是它提供了一个比过去的统计更强大的手段,来帮助我们寻找弱机理。弱机理的适用范围相对较窄,精确度、预测能力相对较低,但是一般具有比较强的可计算性。
小结
推导、归纳、总结弱机理,是可计算建模的一个重要手段。十年前,张平文提出了可计算建模的概念,并于《中国科学》发布了同名文章。该文在此之后被大量下载,这一概念开始被大量用于基金申请,但是很少作为论文引证出现。究其原因,是因为目前它还只是一个概念,缺乏手段。张平文计划慢慢建立一些手段,来帮助我们进行可计算建模,机器学习实际上为可计算建模提供了手段(当然过去数学的分析、统计的手段也仍然可用)。
机器学习给可计算建模插上翅膀
首先,机器学习确实对发现弱机理有促进作用,有助于加速计算。
以密度泛函为例,我们可以通过深度学习找到经典力场,其准确度可匹敌密度泛函,如此一来,我们就不再需要凭运气“猜”经典力场了。
除此之外,机器学习还可以辅助分类。以聚团为例,什么是团,又该如何分类?
关于这个问题,也可以通过机器学习的手段,找到一些统计规律,比如其幂律。如下文中的路线图所示:如果要做可计算建模,一是从机理出发,例如我们有很强的机理,主要利用平均场理论,利用数学经典展开,或者找到小参数去展开,这些都是手段。然后从强机理中导出一些弱机理,很多科学领域都是如此操作的。因为这个体系太过复杂,包含的强机理计算量庞大且无法解释,但可以通过一些平均手段,或是数学的小参数展开来找到一些弱机理。
这又叫 Top-Down,即从上往下的手段。原来的体系虽然有强机理,但方程难以计算无法解决,就转而去寻觅一些弱机理。
还有一种反过来的手段,叫 Bottom-Up:我们有且仅有很多数据,这些数据可能是实验数据、观测数据,以及从强机理推算而来的数据。之后我们通过统计和机器学习的手段,也来寻找弱机理,继而得以用一个或多个弱机理,来建立可计算的模型。
但大量实际中的问题,其实都介于二者之间,天气预报就是一个典型的例子。
天气预报原则上都可以通过计算得出,但计算量极大,因此有很多模式,其中加入了很多弱机理。以平均化方程为例,如果用这个方法,我们可能需要对边界层、云层、辐射等都有一定的理解,而这些也都属于弱机理。再由此得到一个可计算的天气预报模型,这就是天气预报的模式。所以中国的模式跟欧洲的模式就不一样,因为我们对这些弱机理的理解不一定完全一致。
可光凭这些还是解决不了天气预报的问题,因为还涉及诸多观测,像是卫星云图、雷达图、站点数据等等,真正的天气预报问题需要结合强机理和数据,才能真正得到解决。
实际上在湍流问题上也是如此,天气预报本身边界层的机理也可以用机器学习的手段来研究,而云以及辐射等问题的研究至今还尚未展开,现在大多用的还都是经验公式,因为真正从数据的角度来处理这些问题仍旧相当困难。
2022 冬奥赛区天气预报项目
2022 年,北京和张家口将联合举办冬季奥运会。此番冬奥会和夏季奥运会相比,一大重点区别就在于很多比赛的场地落在延庆和张家口,而且都是地处山区。
如今,平原地区的天气预报可谓相当容易,但山区的天气预报又岂一个“难”字了得——山前山后、山上山下都不一样。但恶劣的气候条件对比赛乃至运动员自身都有极为负面的影响,因此对天气预报的要求非常高。虽然国家专门有项目组,但他们最终还是依赖于气象局(主要是北京气象局联合河北气象局),所以他们该如何完成准确播报的任务?
为此,北京又重新布上了很多观察站,但观察站只能观察过去,现在要的却是“未来”。我们往常的天气预报反映的都是大尺度的平均效应,这在天气差别不大的平原地区无甚问题,却又容易在山区“踢到铁板”。这样的天气预报算出来的是一种平均值,但我们现在要的不是所谓的“平均”,而是每时每刻的准确。
过去的天气预报都是依靠人工基于大量各来源数据的商讨,因此准确性也难于保障。那么能否通过计算机及 AI 的手段来处理这些不同来源的数据,以机器取代人工?此次冬奥会天气预报是该研究的“第一站”,目标是为其提供一些算法,以满足冬奥会天气预报的超高要求。
目前,张平文同大气物理所和北京气象局专门成立了一个气象大数据实验室,分组负责数据收集、数据解释、特征工程、算法及框架设计等工作。其中,负责特征工程的小组就是通过提取特征,把数据减少到能用的模式;算法及框架设计小组则主要负责解决现有算法无法突破的瓶颈(例如山区天气预报不准),寻求真正意义上的创新。所谓算法,一种是单靠人想出来的,但更多还是通过不同的工程问题,发现现有算法解决不了的难点,从而倒逼新需求及新想法的涌现。
于是乎,一套通过数据来改进弱机理的方案应运而生:
通常情况下,模式可预测的都是低频大尺度的信息。但山区还需要高频小尺度的信息,这就需要结合数据加以改进。一方面,数据通常不能预测,即使可以预测时间也非常短,但是数据里包含我们所需的高频信息;另一方面,模式中可预测,但却又只有低频信息,因此我们要结合这二者来解决山区里既要预测还必须高频的问题。
用了这套办法之后,比起欧洲最好的模式 ECMWF,我们的准确率也得到了不错的提升。除此之外,与仅利用统计手段相比,引入机器学习后的准确率也有了比较大的提高。
写在最后
综上所述,推导规律,归纳总结弱机理是可计算建模的核心手段。弱机理的获得方式有两种:一是从更强的机理出发,通过推导获得,这可能比数学分析的办法更管用;另外是从数据中归纳总结所得,主要就是借由统计和机器学习的手段。随后我们得到一些弱机理,再从一个或多个弱机理出发通过某些组合/融合,建立可计算的模型。
张平文在此次报告最后的总结中表示,“眼下建模尚无方法论,而我最终希望建立一个建模的方法论,这是个值得我们深入探讨的问题”。计算建模的共性问题是弱机理,而寻找弱机理并不需要天才出马。一个问题一旦有了方法论,就有可能成为一门科学。
正是因为大数据人工智能的发展,数学工作者得以在建模中发挥更重要的作用,例如从强机理推弱机理,从数据中归纳总结弱机理,组合这些弱机理……这些都需要数学。
事实上,无论是人工智能还是大数据,追根溯源也不过数学二字。很多计算机人才也都是数学出身,而人才恰恰又处于大数据人工智能竞争的核心。论及人才培养三要素,分别是数据来源、商业模式和应用场景。那么从数据到应用场景之间又该如何架桥?终归还是要仰赖算法,故而人工智能和大数据的基础、真正创新的源头都绕不开“算法”二字。而新算法的稳定性、可解释性、泛化性又是基于数学这一根基。
因此,如今的数学家已然对建模更加有信心了,同时应用数学家的社会地位也有望日益提高。“大数据人工智能的发展,让数学家真正站起来了!”
来源:莫然博客,欢迎分享本文!