版权归原作者所有,如有侵权,请联系我们

[科普中国]-网络正则

科学百科
原创
科学百科为用户提供权威科普内容,打造知识科普阵地
收藏

网络正则是指往对神经网络参数添加正则项,是一种控制过拟合手段,正则项可以看作是对网络参数的约束或惩罚,它能引导网络的参数朝某个规定的方向进行优化。添加了正则项后,网络的优化目标由原来的最小化损失函数𝐿(𝑥)变为最小化损失函数与正则项的和𝐿(𝑥)+𝑅(𝑊)。

定义网络正则是一种控制过拟合手段,即通过对网络参数添加正则项。正则项在优化过程中层的参数或层的激活值添加惩罚项,这些惩罚项将与损失函数一起作为网络的最终优化目标。

常见的正则项有𝐿1范数、𝐿2范数、𝐿1+ 𝐿2约束(Elastic Net约束)等。正则化可以看作一种先验假设,如𝐿1范数对应于参数的拉普拉斯分布假设,𝐿2约束对应于参数的高斯分布假设。可以看到,在为损失函数增加𝑅(𝑊)约束项后,那些违背先验假设的参数将会产生较大的惩罚值,因此在优化过程中网络的参数会朝着先验假设的方向更新。例如,当为网络施加𝐿2约束时,具有较大值的参数经过平方后会产生一个很大的数值,不利于目标函数的最小化。因此在网络优化的过程中,参数将避免出现极大或极小的值。参数的值趋向于正态分布时,接近0值的参数较多,模型的复杂度趋于简单,因此能够达到控制过拟合的目的。正则化方法不但适用于神经网络,也适用于大多数机器学习模型。

过拟合机器学习的基本问题是利用模型对数据进行拟合,学习的目的并非是对有限训练集进行正确预测,而是对未曾在训练集合中的样本能够正确预测。模型对训练集数据的误差称为经验误差,对测试集数据的误差称为泛化误差。模型对训练集以外样本的预测能力就称为模型的泛化能力,追求这种泛化能力始终是机器学习的目标。

过拟合和欠拟合是导致模型泛化能力不高的两种常见原因,都是模型学习能力与数据复杂度之间失配的结果。“欠拟合”常常在模型学习能力较弱,而数据复杂度较高的情况出现,此时模型由于学习能力不足,无法学习到数据集中的“一般规律”,因而导致泛化能力弱。与之相反,“过拟合”常常在模型学习能力过强的情况出现,此时的模型学习能力太强,以至于将训练集单个样本自身的特点都能捕捉到,并将其认为是“一般规律”,同样这种情况也会导致模型泛化能力下降。过拟合与欠拟合的区别在于,欠拟合在训练集和测试集上的性能都较差,而过拟合往往能学习训练集数据的性质,而在测试集上的性能较差。解决方法:

(1)在神经网络模型中,可使用权值衰减的方法,即每次迭代过程中以某个小因子降低每个权值。

(2)选取合适的停止训练标准,使对机器的训练在合适的程度;

(3)保留验证数据集,对训练成果进行验证;

(4)获取额外数据进行交叉验证;

(5)正则化,即在进行目标函数或代价函数优化时,在目标函数或代价函数后面加上一个正则项,一般有L1正则与L2正则等。

深度学习深度学习是机器学习的一项分支,是一类由大数据推动,以多层人工神经网络为表现形式,以特征提取为主要目的的算法,既可以用于监督学习,也可以用于非监督学习。我们将深度学习的特性总结如下:

一是计算密集。深度学习的一般形式是多层的人工神经网络,一个深度学习模型往往含有数以百万计甚至千万计的参数,庞大的模型必须有大量的训练样本作为支撑才能抑制过拟合,提高泛化能力。尽管有一些工作试图降低深度学习所需要的样本数,但总体而言,没有大量的数据支撑,深度学习就无从谈起。网络规模和数据量两方面共同决定深度学习具有计算密集的特性。

二是特征的自动提取和分层处理,深度神经网络主要处理的问题是从数据中自动提取特征。这种特征的提取是通过逐层组合抽象完成的,具有分层特性。网络的底层(近输入端)抽取的是局部的,低级的特征,这些特征经过逐层组合和非线性变换,在高层(远输入端)形成全局和抽象的特征。特征的语义性从低到高得到逐渐加强。

三是工程性强,可解释性弱。尽管在深度学习的理论方面已经有许多有意义的工作,但深度学习的原理尚不明确,在大多数情况下深度学习仍然像是一个“黑盒子”,缺乏严格的理论证明。另一方面,深度学习是一门工程性非常强的学科,神经网络的编程、调参、优化都具有很强的实践性,十分依靠工程师的个人经验。

损失函数损失函数(loss function)是用来估量你模型的预测值f(x)与真实值Y的不一致程度,它是一个非负实值函数,通常使用L(Y, f(x))来表示,损失函数越小,模型的鲁棒性就越好。损失函数是经验风险函数的核心部分,也是结构风险函数重要组成部分。模型的结构风险函数包括了经验风险项和正则项。

在统计学,统计决策理论和经济学中,损失函数是指一种将一个事件(在一个样本空间中的一个元素)映射到一个表达与其事件相关的经济成本或机会成本的实数上的一种函数。更通俗地说,在统计学中损失函数是一种衡量损失和错误(这种损失与“错误地”估计有关,如费用或者设备的损失)程度的函数。

本词条内容贡献者为:

王沛 - 副教授、副研究员 - 中国科学院工程热物理研究所