神经网络优化
虽然自己已经做了一年的策略工作了,但是神经网络的东西接触的的确不多,工作中几乎为零,最近趁着十一假期恶补一波,也算是亡羊补牢吧。博文原文来自这里。
个人浅见,神经网络从20世界中期出现,到2000年以后的突然火爆,与硬件计算能力的提升密不可分。我们试图通过人工设计的算法,给机器更多的智能,神经网络担起了这一重要的任务。但是,神经网络虽然在图像语音和NLP等领域取得了一些成绩,离真正的智能却相去甚远。诺奖得主Thomas J. Sargent公开表示,现在所谓的人工智能,只不过就是统计学。可是究竟什么是智能,恐怕也没人说得清楚,我们只知道目前我们的人工智能发展还处在原始阶段,只能解决一些最初级的问题。
下面我们谈谈具体的问题,当一个神经网络不工作时,我们如何检查可能出现的问题。造成神经网络不工作的原因非常多,一个简单的神经网络往往也有上百个参数,我们只能得到每个参数的值,却不知道这些值的意义,这与一些传统的机器学习方法完全不同,例如朴素贝叶斯,决策树等。所以,神经网络相对于传统的机器学习算法,也更难进行优化或者排查错误。有一些基础的检查工作是必要的。
-
使用简单的模型,验证问题的可行性。我们如果想解决一个问题,必须首先确保问题是成立的。使用公认有效的模型在你的数据集上首先进行测试,保证数据没有问题。
- 不要使用相对复杂的数据处理方法,例如正则化和数据扩展。
- 在微调一个模型的时候,检查数据输入是否与原模型一直保持一致,方便对比。
- 数据输入是否正确。
- 逐渐增加之前省略的东西,例如正则化等。
数据问题
一、检查输入数据
检查你的输入数据是否正确。例如,我们有的时候会把一张图片的宽度和高度弄反;有时会错误的输入全0数据;有时会使用同一个batch的数据一直重复训练。所以,把训练数据打出来,人工验证它们是否是合法的。
二、尝试使用随机输入
使用随机生成的数据来训练模型,如果产生的损失与你训练数据上的损失相近,说明你在某个点上将数据转换成了垃圾数据,这时需要一层一层的检查来查看错误的位置。
三、检查你的数据载入
你的训练数据也许没有任何问题,但是在载入模型过程中可能会出现问题,检查模型数据的输入和第一层的输出,如果没有任何问题,在加入其余层。
四、检查输入数据和类别的一致性
检查的你的输入数据是否都有正确的类别标签,在进行数据shuffle的时候,也要保证输入数据和类别标签的一致性。
五、输入数据和标签的相关性检查
也许输入数据和标签类别相关性的部分远小于不相关的部分,听起来比较拗口,简单说就是输入数据包含太多无意义的特征,这时也会使神经网络感觉困惑。我在想,这种情况是不是决策树会好一些,因为其一次只考虑一个特征。
六、数据中是否有太多的噪声?
有的时候,数据中会混入部分错误数据,这个时候就需要通过抽样人工检查的方式,来确定错误数据的比例了。
七、shuffle训练数据
如果你的数据在训练的时候没有进行shuffle,而是按照类别(序号)的顺序,那么会对神经网络的训练产生不利的影响。所以,正式训练前对数据进行shuffle,同时保证训练数据和label一起shuffle。
八、检查的你的数据是否有偏
我对这个问题认识深刻,因为曾做深受其困扰。无论使用什么模型,都要保证训练数据的分布和测试数据是一致的,通常的理解,训练数据是越多越好的,但是如果各个类别之间不均衡的增长使得数据失衡,那么模型效果反而会变差。
九、训练数据是否充足
对于不同的模型,需要的训练数据量往往是不一样的。神经网络相比于其他的模型(决策树,LR,SVM)往往需要更多的训练数据。而且越复杂的神经网络,需要的训练数据就越多。
十、保证一个batch中不仅仅包含一个label
这种情况会发生在排序好的训练数据中,比如前10000个训练数据都包含相同的label。所以,训练前还是要记得shuffle训练数据。
十一、减小batch的规模
使用过大的batch进行训练,会弱化模型的泛化能力。具体可以查看这篇论文。
附加:使用标准数据集
当我们设计一个新的网络模型时,应考虑在标准数据集上测试模型的效果(mnist,cifar10),而不是直接在自己的数据上进行测试。在标准数据集上,已经有大量的工作来解决各类问题,使用起来也事半功倍。而且,在标准数据集上不会发生标签噪声,数据分布不均匀等各类问题。
数据标准化/增强
十二、标准化处理数据
对数据进行归一化处理,使其均值为0,方差为1一般是一个不错的选择。
十三、是否有太多的增强数据?
使用数据增强,会有正则化的效果,但是,太多的增强数据结合其他的正则化方法(weight L2, dropout,etc)会导致神经网络欠拟合。
十四、检查之前训练的模型
如果你使用了一个之前训练的模型,确保你使用和之前模型一样的归一化方法。例如,之前你将图片的像素数值范围处理成[0,1],[-1,1]或者[0,255]。
十五、数据的预处理是否正确
所有的数据预处理,必须基于训练数据,然后再应用到测试数据/验证数据,而不是将所有数据一起处理后,再进行训练和测试。例如为了使数据的平均值为0,要计算训练数据的平均值,然后在训练数据,测试数据上进行平移,而不是一起计算所有数据的平均值后进行统一进行平移。
实现问题
十六、先解决简单的问题
任何问题,我们都应该从最简单的问题开始着手。例如:假如我们的预测目标是一个类别和它的坐标,那么我们应该试图先忽略坐标,只预测目标的类别。
十七、逐渐调优
初始化模型时,使用较小的参数,不要加入Regularization,Dropout等。如果你有10个预测类别,那么开始的预测准确率应该为10%,softmax损失大概为-ln(0.1) = 2.302。这时候,再逐渐加入Regulation和Dropout等,观察提升。
十八、检查损失函数
如果你自己设计了你的损失函数,检查它是否正确并且进行单元测试。通常自己设计的损失函数会有一些小问题,这些问题会影响网络的训练。
十九、检查你的损失函数输入
不同的损失函数要求不同的输入形式。有的时候损失函数会要求你的输入时softmax后输出结果,有的时候则要求是softmax前的输出。不同的框架和同一框架下的不同函数都会有差异,所以在使用前要自己阅读文档。
二十、调整损失权重
调整损失权重,一般而言,最终优化的损失会由几个不同的损失相加构成。这个时候要注意调整不同损失在最终损失中所占的比例。一般有1:1开始,但这往往并不是最优的构成。尝试不同的损失构成比例,得到最优结果。
二十一、查看多种不同的指标
有的时候,损失函数并不是最优的指标。除了损失函数,同时关注其他指标,例如准确率等。
二十二、检查自定义层
如果你在网络中自定义了某些层,一定要double-check这些层,确保它们按照你设计的那样工作。
二十三、检查“冷冻”的层或者变量
你是否无意中“冻结”了一些层或者变量,这些层或者变量无法进行学习。如果更新这些层或者变量会有更好的效果。
二十四、增加网络的规模
也许你没有犯任何错误,仅仅是由于网络的复杂度不够而无法拟合数据。试着增加网络的复杂度,引入额外的隐层。
二十五、检查维度对应关系是否正确
如果你的输入数据格式类似(K,H,W)=(64,64,64),那么你很有可能搞错不同的维度,在不同的维度上使用不同的数字是有益的。检查每个维度的数据时如何传播的。
二十六、检查自己实现的优化算法
如果你的优化算法是自己实现的,检查你的梯度反向传播实现是正确的。
训练问题
二十七、小数据集上测试有效性
先在一个小数据集上过拟合,确保模型可以正常工作。例如,对于一个多分类问题,可以先选择两个类别,每个类别选择10个样本,让模型过拟合,如果模型能拟合的很好,再推广到大数据集。
二十八、检查网络参数的权重初始化
如果你对初始化的方式不是很确定,可以使用标准初始化方法。不好的初始化权重,会令网络训练陷入局部最优而无法跳出。尝试不同的初始化方法有时是有效的。
二十九、改变超参数
如果模型的训练效果一直不佳,可能是使用的不合适的超参数。尝试调整超参数,达到最优的训练效果,如果必要可以使用穷举(grid search)。
三十、减少正则化
过度的正则化会导致模型欠拟合。减少正则化处理,例如dropout, batch norm, weight/bias L2 regularization等。在进行训练时,应该首先达到过拟合,再对抗过拟合。
三十一、训练足够长的时间
也许你的模型仅仅只是需要更长的训练时间来达到预期效果。如果损失在保持稳定降低,你需要做的仅仅是让其训练更长的时间。
三十二、从训练模式切换的测试模式
一些神经网络包含batch normal、dropout等在训练和预测时表现不同的网络结构。切换到正确的模式,可以使预测的结果更加准确。
三十三、可视化训练过程
可视化训练过程非常非常的重要,这一点我也深有体会。有的时候只通过log观察损失的变化是远远不够的,要注意观察每一层的参数变化,通过可视化的方式展示数据可以更好的帮你发现问题。参数的更新值应该和你设置的步长基本保持一致。
三十四、尝试不同的优化方法
不同的优化方法,如果超参数设置没有问题,往往都能拟合模型。但是,选择最合适的优化方法可以更好更快的拟合模型。一般论文中都会提到适合的优化算法,如果没有,尽量使用adam或者基本的SGD算法。
三十五、处理梯度爆炸和梯度消失
检查网络层更新,特别大的更新值意味着梯度爆炸。引入梯度截断(Gradient Clipping)是一个不错的选择。检查每一层激活函数输出的标准差,范围在[0.5,2]是不错的值。在这个范围外的值,可能会导致梯度消失或者梯度爆炸。
三十六、增大/减小学习率
过小的学习率会使得模型拟合速度很慢,过大的学习率在开始时会拟合的很快,但是很难找到最优的拟合值。可以尝试动态调整你的学习率,在原有学习率基础上乘以0.1或者10,并且限定上下线。
三十七、克服NaNs
处理这种越界的值是RNN网络中一个重要的问题。有一些处理的方法:
- 降低学习率,尤其是在前100轮迭代就得到NaNs值的情况下。
- NaNs可能通过除0或者log负数得到,检查是否可能出现这种情况。
- 逐层的检查,找到NaNs从哪一层开始出现,发现问题所在。