全连接网络的隐层节点个数_全连接神经网络参数个数怎么计算

A. 深度卷积网络

LeNet网络的结构如下图所示，可以看出，LeNet网络并没有使用padding，每进行一次卷积，图像的高度和宽度都会缩小，而通道数会一直增加。在全连接层中有400个节点，每个极点都有120个神经元，有时还会从这400个节点抽取一部分节点构建一个全连接层，即有两个全连接层。在该网络中，最后一步就是利用84个特征得到最后的输出，该网络刚开始使用的是 sigmoid 函数 tanh 函数，而现在常常倾向于使用 softmax 函数。需要注意的是，LeNet-5网络进行图像分类时，输入的图像是单通道的灰度图像。

AlexNet是以论文第一作者的名字命名的，该网络的结构，如下图所示，该网络的输出层使用了 softmax 函数。AlexNet网络比LeNet网络规模更大，大约有6000万个参数，用于训练图像和数据集时，能够处理非常相似的基本构造模块，这些模块中包含着大量的隐藏单元，并且与LeNet网络不同的是，该网络使用了ReLu的激活函数。

VGG-16网络没有太多的超参数，这是一种专注于构建卷积层的简单网络。如下图所示，该网络首先利用64个过滤器进行了两次卷积，接着在池化层将输入图像压缩，接着又是128个过滤器进行两次卷积，接着载池化。继续用256个过滤器进行3次卷积，再池化，接着再利用512个过滤器卷积3次，再池化，将稍后得到的特征图进行全连接操作，再进 softmax 激活。

由于存在梯度消失和梯度爆炸的原因，深层次的神经网络是很难训练的，如果采用一种跳跃连接的方式，即从某一层网络层获取激活，然后迅速反馈给另外一层，甚至是神经网络的更深层。这种利用跳跃连接构建的深度神经网络ResNets，深度能够超过100层

一个简单的两层神经网络示例，如下图所示：

常规的输出和输出之间的关系可以用如下的公式表示：

如上公式所述，这是一条神经网络的主路径。如果将的输入直接到深层的激活函数之前，此时，神经网络有了一条副路径，其对应输出将有公式（5）变成如下所示的公式（6）

此时的输入除了原先的输入外，多了一个项，即由于产生了一个残差块。

构建一个ResNet网络就是将很多这样的残差块堆积在一起，形成一个深度神经网络，如下所示：

使用传统的标准优化算法训练一个网络，随着网络深度的增加，训练误差会先减小再增加，随着网络层数的增加，优化算法会越难以训练，训练误差也会越来越多。但是，使用ResNet网络，能够有效地避免这种情况。

如上所述，加入残差网络之后，其输出计算公式如公式（6）所示，展开这个公式，则有：

如果使用L2正则化或者权重衰减，则会压缩权重参数的值，如果参数和参数等于0，其输出将由公式（7）变成，假定使用ReLU激活函数，则有：

由于残差网络存在的这种跳跃连接，很容易得出以上等式，这意味着，即使给神经网络增加两层，但是其效率并不逊色与更简单的神经网络。并且由于存在以上恒等式，使得网络学习隐藏层的单元的信息更加容易。而普通网络，随着网络层数的增加，学习参数会变得很困难。

此外，关于残差网络，如公式（6）所示，假设与具有相同的维度，由于ResNets使用了许多same卷积，的维度等于输出层的维度。如果输入和输出具有不同的维度，可以再增加一个矩阵，使得和具有相同的维度。而的维度可以通过0值填充调节。

在卷积网络的架构设计中，一种有趣的想法是会使用到1×1的过滤矩阵，实际上，对于单通道的图像而言，1×1的过滤矩阵，意义不大，但是，对于多通道的图像而言，1×1的过滤矩阵能够有效减少图像卷积之后的通道数量。

根据卷积和池化的基本知识，随着神经网络层数的增加，图像的通道数量会逐渐增加，采用1×1的过滤矩阵卷积之后，可以有效减少图像的通道数量，一个简单的示例，如下所示：

假设有一个6×6×32的图片，使用1×1×32的过滤矩阵进行卷积运算，整个运算过程将会遍历36个单元格，并计算过滤矩阵所覆盖区域的元素积之和，将其应用到ReLu非线性函数，会得到一个输出值。此计算过程中，可能会用到多个1×1×32的过滤器，那么，通过以上计算会得到一个 6×6×过滤器数量的矩阵。

构建卷积神经网络时，有时会很难决定过滤器的大小，而Inception网络的引入，却能很好的解决这个问题。

Inception网络的作用就是代替人工确定选择卷积层的过滤器类型。如下图所示，对于一个多通道图像，可以使用不同的过滤矩阵或者池化层，得到不同的输出，将这些输出堆积起来。

有了如上图所示的Inception块，最终输出为32+32+64+128=256，而Inception模块的输入为28×28×192，其整个计算成本，以5×5的过滤矩阵为例，其乘法的计算次数为：28×28×32×5×5×192，整个计算次数超过了1.2亿次。而如果使用如下所示的优化计算方法，则可以有效减少计算量。

如果利用1×1的过滤器，将输入矩阵的通道减少至16，则可以有效减少计算量，如下所示：

如上图所示的价格中，整个网络的运算次数为：28×28×192×16+28×28×32×5×5×16=1240万，整个计算成本降低至原来的十分之一。而，通过1×1×192过滤器卷积得到的这个网络层被称之为瓶颈层。

如上，所示，可以给每一个非1×1的卷积层之前，加入一个1×1的瓶颈层，就可以构建一个基本的inception模块了，如下图所示：

而一个inception网络就是多个Inception模块连接起来，如下图所示：

事实上，以上网络中，还存在一些分支，如编号1所示，这些分支就是全连接层，而全连接层之后就是一个softmax层用于预测。又如分支2所示，包含一些隐藏层（编号3），通过全连接层和softmax进行预测。这些分支结构能够确保，即使是隐藏层和中间层也参与了特征计算，并且也能够预测图片的分类。这种做法能够有效避免网络过拟合。

对于计算机视觉领域而言，神经网络的训练可能需要大量的数据，但是当数据量有限时，可以通过数据增强来实现数据量的扩充，以提高系统的鲁棒性，具体的数据增强方法如下所示：

除了以上三种数据增强的方法外，更多的数据增强方法和实现可以参考图像数据增强

数据增强可以利用计算机多线程实现，一个线程用来实现加载数据，实现数据增强，其他线程可以训练这些数据以加快整体的运算速度。

B. 神经网络的来源

神经网络技术起源于上世纪五、六十年代，当时叫感知机（perceptron），包含有输入层、输出层和一个隐藏层。输入的特征向量通过隐藏层变换到达输出层，由输出层得到分类结果。但早期的单层感知机存在一个严重的问题——它对稍微复杂一些的函数都无能为力（如异或操作）。直到上世纪八十年代才被Hition、Rumelhart等人发明的多层感知机克服，就是具有多层隐藏层的感知机。

      多层感知机可以摆脱早期离散传输函数的束缚，使用sigmoid或tanh等连续函数模拟神经元对激励的响应，在训练算法上则使用Werbos发明的反向传播BP算法。这就是现在所说的神经网络NN。

      神经网络的层数直接决定了它对现实的刻画能力 ——利用每层更少的神经元拟合更加复杂的函源脊戚数。但问题出现了——随着神经网络层数的加深，优化函数越来越容易陷入局部最优解，并且这个“陷阱”越来越偏离真正的全局最优。利用有限数据训练的深层网络，性能还不如较浅层网络。同时，另一个不可忽略的问题是随着网络层数增加， “梯度消失”现象更加严重。（具体来说，我们常常使用sigmoid作为神经元的输入输出函数。对于幅度为1的信号，在BP反向传播梯度时，每传递一层，梯度衰减为原来的0.25。层数一多，梯度指数衰减后低层基本上接受不到有效的训练野拦信号。）

      2006年，Hition提出了深度学习的概念，引发了深度学习的热潮。具体是利用预训练的方式缓解了局部最优解的问题，将隐藏层增加到了7层，实现了真正意义上的“深度”。

DNN形成

        为了克服梯度消失，ReLU、maxout等传输函数代替了sigmoid，形成了如今DNN的基本形式。结构跟多层感知机一样，如下图所示：

       我们看到全连接DNN的结构里下层神经元和所有上层神经元都能够形成连接，从而导致参数数量膨胀。假设输入的是一幅像素为1K*1K的图像，隐含层有1M个节点，光这一层就有10^12个权重需要训练，这不仅容易过拟合，而且极容易陷入局部最优。

CNN形成

由于图像中存在固有的局部模式（如人脸中的眼睛、鼻子、嘴巴等），所以将图像处理和神将网络结合引出卷积神经网络CNN。CNN是通过卷积核将上下层进行链接，同一个卷积核在所有图像中是共享的，图像通过卷积操作后仍然保留原先的位置关系。

通过一个例子简单说明卷积神经网络的结构。假设我们需雹陵要识别一幅彩色图像，这幅图像具有四个通道ARGB（透明度和红绿蓝，对应了四幅相同大小的图像），假设卷积核大小为100*100，共使用100个卷积核w1到w100(从直觉来看，每个卷积核应该学习到不同的结构特征)。

       用w1在ARGB图像上进行卷积操作，可以得到隐含层的第一幅图像;这幅隐含层图像左上角第一个像素是四幅输入图像左上角100*100区域内像素的加权求和，以此类推。

同理，算上其他卷积核，隐含层对应100幅“图像”。每幅图像对是对原始图像中不同特征的响应。按照这样的结构继续传递下去。CNN中还有max-pooling等操作进一步提高鲁棒性。

      注意到最后一层实际上是一个全连接层，在这个例子里，我们注意到输入层到隐藏层的参数瞬间降低到了100*100*100=10^6个！这使得我们能够用已有的训练数据得到良好的模型。题主所说的适用于图像识别，正是由于CNN模型限制参数了个数并挖掘了局部结构的这个特点。顺着同样的思路，利用语音语谱结构中的局部信息，CNN照样能应用在语音识别中。

RNN形成

      DNN无法对时间序列上的变化进行建模。然而，样本出现的时间顺序对于自然语言处理、语音识别、手写体识别等应用非常重要。为了适应这种需求，就出现了大家所说的另一种神经网络结构——循环神经网络RNN。

      在普通的全连接网络或CNN中，每层神经元的信号只能向上一层传播，样本的处理在各个时刻独立，因此又被成为前向神经网络(Feed-forward Neural Networks)。而在RNN中，神经元的输出可以在下一个时间段直接作用到自身，即第i层神经元在m时刻的输入，除了(i-1)层神经元在该时刻的输出外，还包括其自身在(m-1)时刻的输出！表示成图就是这样的：

为方便分析，按照时间段展开如下图所示：

（t+1）时刻网络的最终结果O（t+1）是该时刻输入和所有历史共同作用的结果！这就达到了对时间序列建模的目的。RNN可以看成一个在时间上传递的神经网络，它的深度是时间的长度!正如我们上面所说，“梯度消失”现象又要出现了，只不过这次发生在时间轴上。

       所以RNN存在无法解决长时依赖的问题。为解决上述问题，提出了LSTM（长短时记忆单元），通过cell门开关实现时间上的记忆功能，并防止梯度消失，LSTM单元结构如下图所示：

除了DNN、CNN、RNN、ResNet（深度残差）、LSTM之外，还有很多其他结构的神经网络。如因为在序列信号分析中，如果我能预知未来，对识别一定也是有所帮助的。因此就有了双向RNN、双向LSTM，同时利用历史和未来的信息。

事实上，不论是哪种网络，他们在实际应用中常常都混合着使用，比如CNN和RNN在上层输出之前往往会接上全连接层，很难说某个网络到底属于哪个类别。不难想象随着深度学习热度的延续，更灵活的组合方式、更多的网络结构将被发展出来。

参考链接：https://www.leiphone.com/news/201702/ZwcjmiJ45aW27ULB.html

C. 全连接神经网络参数个数怎么计算

对n-1层和n层而言
n-1层的任意一个节点，都和第n层所有节点有连接。即第n层的每个节点在进行计算的时候，激活函数的输入是n-1层所有节点的加权。

全连接是一种不错的模式，但是网络很大的时候，训练速度回很慢。部分连接就是认为的切断某两个节点直接的连接，这样训练时计算量大大减小

D. 神经网络参数如何确定

神经网络各个网络参数设定原则：

①、网络节点网络输入层神经元节点数就是系统的特征因子(自变量)个数，输出层神经元节点数就是系统目标个数。隐层节点选按经验选取，一般设为输入层节点数的75%。如果输入层有7个节点，输出层1个节点，那么隐含层可暂设为5个节点，即构成一个7-5-1 BP神经网络模型。在系统训练时，实际还要对不同的隐层节点数4、5、6个分别进行比较，最后确定出最合理的网络结构。

②、初始权值的确定初始权值是不应完全相等的一组值。已经证明，即便确定存在一组互不相等的使系统误差更小的权值，如果所设Wji的的初始值彼此相等，它们将在学习过程中始终保持相等。故而，在程序中，我们设计了一个随机发生器程序，产生一组一0.5~+0.5的随机数，作为网络的初始权值。

③、最小训练速率在经典的BP算法中，训练速率是由经验确定，训练速率越大，权重变化越大，收敛越快；但训练速率过大，会引起系统的振荡，因此，训练速率在不导致振荡前提下，越大越好。因此，在DPS中，训练速率会自动调整，并尽可能取大一些的值，但用户可规定一个最小训练速率。该值一般取0.9。

④、动态参数动态系数的选择也是经验性的，一般取0.6 ~0.8。

⑤、允许误差一般取0.001~0.00001，当2次迭代结果的误差小于该值时，系统结束迭代计算，给出结果。

⑥、迭代次数一般取1000次。由于神经网络计算并不能保证在各种参数配置下迭代结果收敛，当迭代结果不收敛时，允许最大的迭代次数。

⑦、Sigmoid参数该参数调整神经元激励函数形式，一般取0.9~1.0之间。

⑧、数据转换。在DPS系统中，允许对输入层各个节点的数据进行转换，提供转换的方法有取对数、平方根转换和数据标准化转换。

(4)全连接网络的隐层节点个数扩展阅读：

神经网络的研究内容相当广泛，反映了多学科交叉技术领域的特点。主要的研究工作集中在以下几个方面：

1.生物原型

从生理学、心理学、解剖学、脑科学、病理学等方面研究神经细胞、神经网络、神经系统的生物原型结构及其功能机理。

2.建立模型

根据生物原型的研究，建立神经元、神经网络的理论模型。其中包括概念模型、知识模型、物理化学模型、数学模型等。

3.算法

在理论模型研究的基础上构作具体的神经网络模型，以实现计算机模拟或准备制作硬件，包括网络学习算法的研究。这方面的工作也称为技术模型研究。

神经网络用到的算法就是向量乘法，并且广泛采用符号函数及其各种逼近。并行、容错、可以硬件实现以及自我学习特性，是神经网络的几个基本优点，也是神经网络计算方法与传统方法的区别所在。

E. 神经网络一个隐含层通常有几个节点数阿

一个最简单的分类，是在平面上画一条直线，左边为类0，右边为类1，直线表示为

这是一个分类器，输入(x,y)，那么，要求的参数有三个:a,b,c。另外注意c的作用，如果没有c，这条直线一定会过原点。

因此，我们可以设计一个简单的神经网络，包含两层，输入层有三个节点，代表x,y,1，三条线分别代表a,b,cg(z)对传入的值x进行判别，并输出结果。

但是，由于z的值可能为[],为了方便处理，需要将其压缩到一个合理的范围，还需sigmoid函数:

这样的激励函数，能够将刚才的区间，压缩到

全连接网络的隐层节点个数

与全连接网络的隐层节点个数相关的内容