神经网络算法筛选异常点_卷积神经网络CNN(Convolutional Neural Network)

A. 卷积神经网络CNN(Convolutional Neural Network)

上图计算过程为，首先我们可以将右边进行卷积的可以称为过滤器也可以叫做核，覆盖到左边第一个区域，然后分别按照对应位置相乘再相加，3*1+1*1+2*1+0*0+0*0+0*0+1*(-1)+8*(-1)+2*(-1)=-5;
按照上述的计算方法逐步按右移一个步长（步长可以设定为1,2，...等），然后按往下移，逐渐计算相应的值，得出最终的值。

如上图显示，对于第一个图像矩阵对应的图，一边是白色，一边是黑色，那么中间就会存在一个垂直的边缘，我们可以选择一个垂直边缘检测过滤器，如乘法右边的矩阵，那么两者做卷积后得出的图会显示如等号右边的结果矩阵对应的灰度图中间会有一个白色的中间带，也就是检测出来的边缘，那为什么感觉中间边缘带会比较宽呢？而不是很细的一个局域呢？原因是我们输入的图像只有6*6，过于小了，如果我们选择输出更大的尺寸的图，那么结果来说就是相对的一个细的边缘检测带，也就将我们的垂直边缘特征提取出来了。
上述都是人工选择过滤器的参数，随着神经网络的发展我们可以利用反向传播算法来学习过滤器的参数

我们可以将卷积的顾虑器的数值变成一个参数，通过反向传播算法去学习，这样学到的过滤器或者说卷积核就能够识别到很多的特征，而不是依靠手工选择过滤器。

- padding 操作，卷积经常会出现两个问题：
1.每经过一次卷积图像都会缩小，如果卷积层很多的话，后面的图像就缩的很小了；
2.边缘像素利用次数只有一次，很明显少于位于中间的像素，因此会损失边缘图像信息。
为了解决上述的问题，我们可以在图像边缘填充像素，也就是 padding 操作了。

如果我们设置在图像边缘填充的像素数为p，那么经过卷积后的图像是：(n+2p-f+1)x(n+2p-f+1).
如何去选择p呢
通常有两种选择：
-Valid:也就是说不填充操作(no padding),因此如果我们有nxn的图像，fxf的过滤器，那么我们进行卷积nxn fxf=(n-f+1)x(n-f+1)的输出图像；
-Same:也就是填充后是输出图像的大小的与输入相同，同样就有(n+2p)x(n+2p) fxf=nxn,那么可以算,n+2p-f+1=n,得到p=(f-1)/2。
通常对于过滤器的选择有一个默认的准则就是选择过滤器的尺寸是奇数的过滤器。
- 卷积步长设置(Strided COnvolution)
卷积步长也就是我们进行卷积操作时，过滤器每次移动的步长，上面我们介绍的卷积操作步长默认都是1，也就是说每次移动过滤器时我们是向右移动一格，或者向下移动一格。
但是我们可以对卷积进行步长的设置，也就是我们能够对卷积移动的格数进行设置。同样假如我们的图像是nxn,过滤器是fxf，padding设置是p，步长strided设置为s,那么我们进行卷积操作后输出的图像为((n+2p-f)/s+1)x((n+2p-f)/s+1),那么这样就会出现一个问题，如果计算结果不是整数怎么办？

一般是选择向下取整，也就是说明，只有当我们的过滤器完全在图像上能够覆盖时才对它进行计算，这是一个惯例。
实际上上述所述的操作在严格数学角度来说不是卷积的定义，卷积的定义上我们计算的时候在移动步长之前也就是对应元素相乘之前是需要对卷积核或者说我们的过滤器进行镜像操作的，经过镜像操作后再把对应元素进行相乘这才是严格意义上的卷积操作，在数学角度上来说这个操作不算严格的卷积操作应该是属于互相关操作，但是在深度学习领域中，大家按照惯例都省略了反转操作，也把这个操作叫做卷积操作

我们知道彩色图像有RGB三个通道，因此对于输入来说是一个三维的输入，那么对三维输入的图像如何进行卷积操作呢？

例子，如上图我们输入图像假设为6×6×3，3代表有RGB三个通道channel,或者可以叫depth深度，过滤器的选择为3×3×3，其中需要规定的是，顾虑器的channel必须与输入图像的channel相同，长宽没有限制，那么计算过程是，我们将过滤器的立体覆盖在输入，这样对应的27个数对应相乘后相加得到一个数，对应到我们的输出，因此这样的方式进行卷积后我们得出的输出层为4×4×1。如果我们有多个过滤器，比如我们分别用两个过滤器一个提取垂直特征，一个提取水平特征，那么输出图4×4×2 。也就是代表我们输出的深度或者说通道与过滤器的个数是相等的。

第l层的卷积标记如下：

加入我们的过滤器是3×3×3规格的，如果我们设定10个过滤器，那么需要学习的参数总数为每个过滤器为27个参数然后加上一个偏差bias那么每个过滤器的参数为28个，所以十个过滤器的参数为280个。从这里也就可以看出，不管我们输入的图片大小是多大，我们都只需要计算这些参数，因此参数共享也就很容易理解了。

为了缩减模型的大小，提高计算速度，同时提高所提取特征的鲁棒性，我们经常会使用池化层。池化层的计算方式与卷积类似，只是我们需要对每一个通道都进行池化操作。
池化的方式一般有两种：Max Pooling和Average Pooling。

上面为Max Pooling，那么计算方法与卷积类似，首先设定超参数比如过滤器的大小与步长，然后覆盖到对应格子上面，用最大值取代其值作为输出的结果，例如上图为过滤器选择2×2，步长选择为2，因此输出就是2×2的维度，每个输出格子都是过滤器对应维度上输入的最大值。如果为平均池化，那么就是选择其间的平均值作为输出的值。
因此从上面的过程我们看到，通过池化操作能够缩小模型，同时能让特征值更加明显，也就提高了提取特征的鲁棒性。

B. bp神经网络的缺点

1)局部极小化问题：从数学角度看，传统的BP神经网络为一种局部搜索的优化方法，它要解决的是一个复杂非线性化问题，网络的权值是通过沿局部改善的方向逐渐进行调整的，这样会使算法陷入局部极值，权值收敛到局部极小点，从而导致网络训练失败。加上BP神经网络对初始网络权重非常敏感，以不同的权重初始化网络，其往往会收敛于不同的局部极小，这也是很多学者每次训练得到不同结果的根本原因。
2)BP神经网络算法的收敛速度慢：由于BP神经网络算法本质上为梯度下降法，它所要优化的目标函数是非常复杂的，因此，必然会出现“锯齿形现象”，这使得BP算法低效；又由于优化的目标函数很复杂，它必然会在神经元输出接近0或1的情况下，出现一些平坦区，在这些区域内，权值误差改变很小，使训练过程几乎停顿。
3)BP神经网络结构选择不一：BP神经网络结构的选择至今尚无一种统一而完整的理论指导，一般只能由经验选定。网络结构选择过大，训练中效率不高，可能出现过拟合现象，造成网络性能低，容错性下降，若选择过小，则又会造成网络可能不收敛。而网络的结构直接影响银盯网络的逼近能力及推广性质。因此，应用中如何选择合适的网络结构是一个重要的问题。
4)应用实例与网络规模的矛盾问题：BP神经网络难以解决应用问题的实例规模和网络规模间的矛盾问题，其涉及兆搏帆到网络容量的可能性与可行性的关系问题，即学习复杂性问题。
5)BP神经网族雹络预测能力和训练能力的矛盾问题：预测能力也称泛化能力或者推广能力，而训练能力也称逼近能力或者学习能力。一般情况下，训练能力差时，预测能力也差。

神经网络算法筛选异常点

与神经网络算法筛选异常点相关的内容