参考:
生成人脸图像以实现逼真的效果:
参考:
机器学习的应用还有很多,日常生活中,人们常常在不知不觉中使用机器学习提供的服务,比如我们电子邮件系统中的垃圾邮件过滤、我们汽车和手机中的语音识别、我们手机中的指纹解锁……
所有这些令人瞩目的成就,本质上都是一些经典数学问题的成功解决。
❖
对于图像分类问题,我们实际上感兴趣的是函数
:
:图片 → 分类
功能
将图像映射到其所属的类别。我们知道
训练集的值用于查找函数
的足够好的近似值。
一般来说,监督学习问题的本质是基于有限的训练集S提供目标函数的有效近似。
❖
人脸生成问题的本质是对一个未知的概率分布进行近似和采样。在这个问题中,“人脸”是一个随机变量,我们不知道它的概率分布。但是,我们有“人脸”的样本:海量的人脸照片。我们利用这些样本近似“人脸”的概率分布,生成新的样本(即生成人脸)。
一般而言,无监督学习的本质是利用有限的样本去近似和采样问题背后未知的概率分布。
❖
对于下围棋的Alphago来说,如果给定对手的策略,围棋的动态就是一个动态规划问题的解,它的最优策略满足贝尔曼方程,所以Alphago的本质就是求解贝尔曼方程。
一般来说,强化学习的本质是寻找马尔可夫过程的最优策略。
但这些问题都是计算数学领域的经典问题!
毕竟函数逼近、概率分布的逼近与采样、微分方程与差分方程的数值解都是计算数学领域极其经典的问题。那么,这些问题在机器学习的背景下和在经典计算数学中有什么不同呢?答案是:
维度
例如,在图像识别问题中,输入维度是
对于经典的数值近似方法,
尺寸问题,包括
带参数模型的逼近误差
换句话说,如果你想将错误减少 10 倍,参数数量需要增加
当维度
随着 的增加,计算成本呈指数增长。这种现象通常被称为:
维数灾难
所有经典算法,比如多项式近似、小波近似,都遭受了维数灾难。显然,机器学习的成功告诉我们,深度神经网络在高维问题上的表现远胜于经典算法。然而,这种“成功”是如何实现的?为什么其他方法在高维问题上失败,而深度神经网络却取得了前所未有的成功?
从数学出发,读懂机器学习的“黑魔法”:监督学习的数学理论
2.1 符号和设置
神经网络是一种特殊类型的函数。例如,两层神经网络是:
有两组参数。
和
。
是激活函数,可以是:
·
、ReLU函数;
·
、S 形函数。
神经网络的基本构成要素为线性变换与一维非线性变换,深度神经网络一般由以下结构组成:
为了简单起见,我们在此省略所有偏差项。
。
是权重矩阵,激活函数
对每个组件采取行动。
我们将在训练集 S 上近似目标函数
假设
的领域
。制作
为了
分布。那么我们的目标是最小化测试误差
(测试错误,也称为群体风险或泛化错误):
2.2 监督学习中的错误
监督学习一般有以下步骤:
❖
步骤 1:选择一个假设空间(一组测试函数)
(m 与测试空间的尺寸成正比);
❖
步骤2:选择要优化的损失函数。通常,我们选择经验风险来拟合数据:
有时,我们还会增加其他惩罚。
❖
步骤 3:解决优化问题,例如:
梯度下降:
随机梯度下降:
从 1,…n 中随机选择。
如果我们记录机器学习的输出
,则总误差为
.我们重新定义:
❖
是假设空间中的最佳近似;
❖
它是基于数据集S在假设空间中的最佳近似。
由此,我们可以将错误分解为三个部分:
❖
是近似误差:完全由假设空间的选择决定;
❖
是估计误差:由于数据集大小有限而导致的额外误差;
❖
是优化误差:由训练(优化)引起的额外误差。
2.3 近似误差
下面我们重点关注近似误差。
我们先用传统方法傅里叶变换来做个比较:
如果我们使用离散傅里叶变换来近似它:
它的错误
正比于
,无疑遭受了维数灾难。
如果一个函数可以以所需的形式表达:
制作
这是一项措施
对于独立同分布的样本,我们有:
那么此时的错误是:
正如您所见,这与维度无关!
如果激活函数是
,所以
那是
这个结果意味着,这类函数(可以表示为期望)可以用两层神经网络来近似,并且近似误差率与维度无关!
对于一般的两层神经网络,我们可以得到一系列类似的逼近结果。关键问题是:什么样的函数可以被两层神经网络逼近?为此,我们引入Barron空间的定义:
巴伦空间的定义
参考文献:E、Chao Ma、Lei Wu(2019)
对于任何 Barron 函数,都存在一个两层神经网络
,其近似误差满足:
可以看出,这个近似误差与维度无关!
(关于这部分理论的详细介绍,请参考:E, Ma and Wu (2018, 2019),E and Wojtowytsch (2020)。关于Barron空间的其他分类理论,请参考Kurkova (2001),Bach (2017),
Siegel 和 Xu (2021)
类似的理论可以扩展到残差神经网络。在残差神经网络中,我们可以用流诱导函数空间代替Barron空间。
2.4 泛化:训练误差与测试误差的区别
人们会认为训练误差和测试误差之间的差异与
(n 为样本数)。然而,我们训练的机器学习模型与训练数据具有很强的相关性,这意味着蒙特卡洛速率可能不成立。为此,我们给出以下泛化理论:
简而言之,我们用 Rademacher 复杂度来表征空间拟合数据集上随机噪声的能力。Rademacher 复杂度定义为:
在
是独立同分布的随机变量,其值为1或-1。
什么时候
是Liperzis空间中的单位球,其Rademacher复杂度与
。
随着 d 的增加,我们可以看到拟合所需的样本量呈指数增长。这是维数灾难的另一种形式。
2.5 训练过程的数学理解
关于训练神经网络有两个基本问题:
❖
梯度下降法能够快速收敛吗?
❖
训练得到的结果是否具有良好的泛化性能?
对于第一个问题,答案可能是悲观的。Shamir(2018)中的引理告诉我们,基于梯度的训练方法的收敛速度也受到维数灾难的影响。虽然上面提到的 Barron 空间是建立近似理论的好手段,但它对于理解神经网络训练来说是一个太大的空间。
具体来说,这种负面后果可以在高度过度参数化的领域(即 m>>n)中具体表征,其中参数动态表现出尺度分离:对于以下两层神经网络:
在训练过程中,
具体动态如下:
由此我们可以看到尺度分离现象:当m很大时,
动态几乎冻结。
在这种情况下,好消息是我们实现了指数收敛(Du et al, 2018);坏消息是此时神经网络的表现并不比随机特征模型更好。
我们也可以从均值场的角度来理解梯度下降法。设:
,并订购:
但
是以下梯度下降问题的解决方案:
当且仅当
是以下方程的解(参考文献:Chizat 和 Bach (2018)、Mei、Montanari 和 Nguyen (2018)、Rotsko 和 Vanden-Eijnden (2018)、Sirignano 和 Spiliopoulos (2018)):
这种平均场动力学实际上是 Wassenstein 度量意义下的梯度动力学。已经证明,如果初始值
的支撑范围是整个空间,并且梯度下降确实收敛,那么它的收敛结果一定是全局最优(参考:Chizat and Bach (2018,2020),Wojtowytsch (2020))。
机器学习的应用
3.1 解决高维科学计算问题
由于机器学习是处理高维问题的有效工具,我们可以利用机器学习来解决传统计算数学方法难以处理的问题。
第一个例子是随机控制问题,传统的解决随机控制问题的方法需要求解一个极高维的贝尔曼方程,而利用机器学习的方法可以有效地解决随机控制问题,其思路与残差神经网络颇为相似(参见韩杰群和鄂杰群(2016)):
第二个例子是求解非线性抛物方程。非线性抛物方程可以重写为随机控制问题,其最小值点是唯一的,并且对应于非线性抛物方程的解。
3.2 人工智能在科学领域的应用
利用机器学习处理高维问题,可以解决更多科学问题。这里我们举两个例子,第一个例子是Alphafold。
参考文献:J. Jumper 等人(2021 年)
第二个例子是我们自己的工作:深度势分子动力学(DeePMD)。这是能够达到从头算精度的分子动力学。我们使用的新的模拟“范式”是:
❖
利用量子力学第一性原理计算提供数据;
❖
利用神经网络对势能面进行了精确拟合(参考文献:Behler and Parrinello (2007), Jiequn Han et al (2017), Linfeng Zhang et al (2018))。
使用 DeePMD,我们可以以第一性原理精度模拟一系列材料和分子:
我们还实现了 1 亿个原子的第一性原理精确模拟,并获得了 2020 年戈登贝尔奖:
参考文献:Weile Jia 等,SC20,2020 ACM 戈登贝尔奖
我们给出了水的相图:
参考文献:张林峰,王涵等。 (2021)
事实上,物理建模跨越多个尺度:宏观、中观和微观,机器学习提供了跨尺度建模的工具。
科学人工智能,即利用机器学习解决科学问题,已经取得了一系列重要突破,例如:
❖
量子多体问题:RBM (2017)、DeePWF (2018)、FermiNet (2019)、PauliNet (2019)……;
❖
密度泛函理论:DeePKS(2020)、NeuralXC(2020)、DM21(2021)……;
❖
分子动力学:DeePMD(2018)、DeePCG(2019)...;
❖
动力学方程:机器学习的矩闭合 (Han 等人,2019);
❖
连续动力学:
(2020)
未来五到十年,我们或许能够跨所有物理尺度进行建模和计算,这将彻底改变我们解决现实问题的方式:比如药物设计、材料、内燃机、催化……
总结
机器学习本质上是一个高维数学问题。神经网络是逼近高维函数的有效手段,这为人工智能、科学和技术领域开辟了许多新的可能性。
这也开启了数学上一个新的课题:高维分析。简单来说,可以概括为:
❖
监督学习:高维函数理论;
❖
无监督学习:高维概率分布理论;
❖
强化学习:高维贝尔曼方程;
❖
时间序列学习:高维动力系统。
关于AISI
人工智能科学研究院(AISI)成立于2021年9月,由鄂维南院士牵头,致力于将人工智能技术与科学研究相结合,加速不同科学领域的发展与突破,推动科研范式创新,建设世界领先的“人工智能科学”基础设施体系。
AISI研究人员来自国内外顶尖大学、科研院所和科技公司,重点研究物理建模、数值算法、人工智能、高性能计算等交叉学科领域的核心问题。
AISI致力于打造思想碰撞的学术环境,鼓励自由探索与跨界合作,共同探索人工智能与科研结合的全新可能。© THE END