首页 > 程序开发 > 综合编程 > 其他综合 >

卷积神经网络减小过拟合方法

2017-08-10

卷积神经网络减小过拟合方法。防止过拟合的方法有三类:(1)人为增加数据集;(2)正则化;(3)Dropout。

卷积神经网络减小过拟合方法

防止过拟合的方法有三类:(1)人为增加数据集;(2)正则化;(3)Dropout。

人为增加数据集

在原有在训练图像识别的深度神经网络时,使用更多的图像数据集训练的模型会使训练的网络具有更好地泛化性能,减小过拟合。

增加图像数据集的方法是对原始图片进行旋转、镜像。

正则化

正则化有两种方法:L1正则化和L2正则化。

1、L1正则化

在原有代价函数基础上加一项:

\

假设原始代价函数是C0,则代价函数公式变成:

\

梯度公式变成:

\

在优化时使weight变得sparse,最后只使用输入重要部分的sparse子集,对“噪声”具有不变性。即产生一个sparse模型,可以用于特征选择。

当一个特定的权重绝对值|w|很大时,L1规范化权重缩小比L2要小;当一个特定的权重绝对值|w|很小时,L1规范化权重缩小量比L2要大。最终的结果就是:L1规范化趋向于将网络的权重在相对少量的高重要度连接上,而其他权值就会向0 接近。

2、L2正则化 在原有代价函数基础上加一项:

\

假设原始代价函数是C0,则代价函数公式变成:

\

梯度公式变成:

\

L2正则化使权值更加分散,更加小,尽量使用所有的输入(权值和所有输入相乘)而不是只用到一部分输入,模型rubost更强。可以防止模型过拟合。

如果参数分散不均匀,有的参数很大有的很小会使得几个输入特征就严重影响结果,几个特征占据了主要部分。比如,线性回归中,如果参数有的参数很大,只要数据偏移一点点,就会对结果很大影响。

原理:小的权重在某种程度上,意味着更低复杂性,也就对数据给出了一种更简单却更强大的解释。更小的权重意味着网络的行为不会因为我们的随便改变一个输入而改变太大。这会让规范化的网络学习局部噪声的影响更加困难。对比看,大的权重的网络困难会因为输入的微小改变而产生比较大的行为改变。所以一个无规范化的网络可以使用大的权重来学习包含训练数据中的噪声的大量信息的复杂模型。简言之,规范化网络受限于根据训练数据中常见的模式来构造相对简单的模型,而能够抵抗训练数据中的噪声的特性影响。

Dropout

这是一种比较有效的防止过拟合的方法。训练中只保留一部分数量的神经元p。测试时没有dropout。

(1) 由于随机的让一些节点不工作了,因此可以避免某些特征只在固定组合下才生效,有意识地让网络去学习一些普遍的共性(而不是某些训练样本的一些特性)

(2) Bagging方法通过对训练数据有放回的采样来训练多个模型。而Dropout的随机意味着每次训练时只训练了一部分,而且其中大部分参数还是共享的,因此和Bagging有点相似。因此,Dropout可以看做训练了多个模型,实际使用时采用了模型平均作为输出

\

由于dropout可以用两种方法变换权值的尺度:一种是在测试时变换,乘以p;另一种是在训练时变换尺度,除以p。一般用在训练时变换尺度,因为测试时变换尺度(乘以p)会消耗计算时间,测试时间比较重要。

dropout只针对全连接层,卷积层有相当的先天的对于过拟合的抵抗。原因是共享权值意味着卷积滤波器强制从整个图像中学习。这使他们不太可能去选择在训练数据汇总的局部特质。

相关文章
最新文章
热点推荐