输入600维的全连接神经网络_CNN网络简介

❶ CNN网络简介

卷积神经网络简介（Convolutional Neural Networks，简称CNN）

卷积神经网络是近年发展起来，并引起广泛重视的一种高效识别方法。20世纪60年代，Hubel和Wiesel在研究猫脑皮层中用于局部敏感和方向选择的神经元时发现其独特的网络结构可以有效地降低反馈神经网络的复杂性，继而提出了卷积神经网络（Convolutional

Neural

Networks-简称CNN）。现在，CNN已经成为众多科学领域的研究热点之一，特别是在模式分类领域，由于该网络避免了对图像的复杂前期预处理，可以直接输入原始图像，因而得到了更为广泛的应用。

K.Fukushima在1980年提出的新识别机是卷积神经网络的第一个实现网络。随后，更多的科研工作者对该网络进行了改进。其中，具有代表性的研究成果是Alexander和Taylor提出的“改进认知机”，该方法综合了各种改进方法的优点并避免了耗时的误差反向传播。

一般地，CNN的基本结构包括两层，其一为特征提取层，每个神经元的输入与前一层的局部接受域相连，并提取该局部的特征。一旦该局部特征被提取后，它与其它特征间的位置关系也随之确定下来；其二是特征映射层，网络的每个计算层由多个特征映射组成，每个特征映射是一个平面，平面上所有神经元的权值相等。特征映射结构采用影响函数核小的sigmoid函数作为卷积网络的激活函数，使得特征映射具有位移不变性。此外，由于一个映射面上的神经元共享权值，因而减少了网络自由参数的个数。卷积神经网络中的每一个卷积层都紧跟着一个用来求局部平均与二次提取的计算层，这种特有的两次特征提取结构减小了特征分辨率。

CNN主要用来识别位移、缩放及其他形式扭曲不变性的二维图形。由于CNN的特征检测层通过训练数据进行学习，所以在使用CNN时，避免了显示的特征抽取，而隐式地从训练数据中进行学习；再者由于同一特征映射面上的神经元权值相同，所以网络可以并行学习，这也是卷积网络相对于神经元彼此相连网络的一大优势。卷积神经网络以其局部权值共享的特殊结构在语音识别和图像处理方面有着独特的优越性，其布局更接近于实际的生物神经网络，权值共享降低了网络的复杂性，特别是多维输入向量的图像可以直接输入网络这一特点避免了特征提取和分类过程中数据重建的复杂度。

1. 神经网络

首先介绍神经网络，这一步的详细可以参考资源1。简要介绍下。神经网络的每个单元如下：

其对应的公式如下：

其中，该单元也可以被称作是Logistic回归模型。当将多个单元组合起来并具有分层结构时，就形成了神经网络模型。下图展示了一个具有一个隐含层的神经网络。

其对应的公式如下：

比较类似的，可以拓展到有2,3,4,5，…个隐含层。

神经网络的训练方法也同Logistic类似，不过由于其多层性，还需要利用链式求导法则对隐含层的节点进行求导，即梯度下降+链式求导法则，专业名称为反向传播。关于训练算法，本文暂不涉及。

2 卷积神经网络

在图像处理中，往往把图像表示为像素的向量，比如一个1000×1000的图像，可以表示为一个1000000的向量。在上一节中提到的神经网络中，如果隐含层数目与输入层一样，即也是1000000时，那么输入层到隐含层的参数数据为1000000×1000000=10^12，这样就太多了，基本没法训练。所以图像处理要想练成神经网络大法，必先减少参数加快速度。就跟辟邪剑谱似的，普通人练得很挫，一旦自宫后内力变强剑法变快，就变的很牛了。

2.1 局部感知

卷积神经网络有两种神器可以降低参数数目，第一种神器叫做局部感知野。一般认为人对外界的认知是从局部到全局的，而图像的空间联系也是局部的像素联系较为紧密，而距离较远的像素相关性则较弱。因而，每个神经元其实没有必要对全局图像进行感知，只需要对局部进行感知，然后在更高层将局部的信息综合起来就得到了全局的信息。网络部分连通的思想，也是受启发于生物学里面的视觉系统结构。视觉皮层的神经元就是局部接受信息的（即这些神经元只响应某些特定区域的刺激）。如下图所示：左图为全连接，右图为局部连接。

在上右图中，假如每个神经元只和10×10个像素值相连，那么权值数据为1000000×100个参数，减少为原来的千分之一。而那10×10个像素值对应的10×10个参数，其实就相当于卷积操作。

2.2 参数共享

但其实这样的话参数仍然过多，那么就启动第二级神器，即权值共享。在上面的局部连接中，每个神经元都对应100个参数，一共1000000个神经元，如果这1000000个神经元的100个参数都是相等的，那么参数数目就变为100了。

怎么理解权值共享呢？我们可以这100个参数（也就是卷积操作）看成是提取特征的方式，该方式与位置无关。这其中隐含的原理则是：图像的一部分的统计特性与其他部分是一样的。这也意味着我们在这一部分学习的特征也能用在另一部分上，所以对于这个图像上的所有位置，我们都能使用同样的学习特征。

更直观一些，当从一个大尺寸图像中随机选取一小块，比如说 8×8 作为样本，并且从这个小块样本中学习到了一些特征，这时我们可以把从这个

8×8 样本中学习到的特征作为探测器，应用到这个图像的任意地方中去。特别是，我们可以用从 8×8

样本中所学习到的特征跟原本的大尺寸图像作卷积，从而对这个大尺寸图像上的任一位置获得一个不同特征的激活值。

如下图所示，展示了一个33的卷积核在55的图像上做卷积的过程。每个卷积都是一种特征提取方式，就像一个筛子，将图像中符合条件（激活值越大越符合条件）的部分筛选出来。

2.3 多卷积核

上面所述只有100个参数时，表明只有1个100*100的卷积核，显然，特征提取是不充分的，我们可以添加多个卷积核，比如32个卷积核，可以学习32种特征。在有多个卷积核时，如下图所示：

上图右，不同颜色表明不同的卷积核。每个卷积核都会将图像生成为另一幅图像。比如两个卷积核就可以将生成两幅图像，这两幅图像可以看做是一张图像的不同的通道。如下图所示，下图有个小错误，即将w1改为w0，w2改为w1即可。下文中仍以w1和w2称呼它们。

下图展示了在四个通道上的卷积操作，有两个卷积核，生成两个通道。其中需要注意的是，四个通道上每个通道对应一个卷积核，先将w2忽略，只看w1，那么在w1的某位置（i,j）处的值，是由四个通道上（i,j）处的卷积结果相加然后再取激活函数值得到的。

所以，在上图由4个通道卷积得到2个通道的过程中，参数的数目为4×2×2×2个，其中4表示4个通道，第一个2表示生成2个通道，最后的2×2表示卷积核大小。

2.4 Down-pooling

在通过卷积获得了特征 (features)

之后，下一步我们希望利用这些特征去做分类。理论上讲，人们可以用所有提取得到的特征去训练分类器，例如 softmax

分类器，但这样做面临计算量的挑战。例如：对于一个 96X96

像素的图像，假设我们已经学习得到了400个定义在8X8输入上的特征，每一个特征和图像卷积都会得到一个 (96 − 8 + 1) × (96 − 8+ 1) = 7921 维的卷积特征，由于有 400 个特征，所以每个样例 (example) 都会得到一个 892 × 400 =3,168,400 维的卷积特征向量。学习一个拥有超过 3 百万特征输入的分类器十分不便，并且容易出现过拟合 (over-fitting)。

为了解决这个问题，首先回忆一下，我们之所以决定使用卷积后的特征是因为图像具有一种“静态性”的属性，这也就意味着在一个图像区域有用的特征极有可能在另一个区域同样适用。因此，为了描述大的图像，一个很自然的想法就是对不同位置的特征进行聚合统计，例如，人们可以计算图像一个区域上的某个特定特征的平均值(或最大值)。这些概要统计特征不仅具有低得多的维度 (相比使用所有提取得到的特征)，同时还会改善结果(不容易过拟合)。这种聚合的操作就叫做池(pooling)，有时也称为平均池化或者最大池化 (取决于计算池化的方法)。

至此，卷积神经网络的基本结构和原理已经阐述完毕。

2.5 多层卷积

在实际应用中，往往使用多层卷积，然后再使用全连接层进行训练，多层卷积的目的是一层卷积学到的特征往往是局部的，层数越高，学到的特征就越全局化。

3 ImageNet-2010网络结构

ImageNetLSVRC是一个图片分类的比赛，其训练集包括127W+张图片，验证集有5W张图片，测试集有15W张图片。本文截取2010年AlexKrizhevsky的CNN结构进行说明，该结构在2010年取得冠军，top-5错误率为15.3%。值得一提的是，在今年的ImageNetLSVRC比赛中，取得冠军的GoogNet已经达到了top-5错误率6.67%。可见，深度学习的提升空间还很巨大。

下图即为Alex的CNN结构图。需要注意的是，该模型采用了2-GPU并行结构，即第1、2、4、5卷积层都是将模型参数分为2部分进行训练的。在这里，更进一步，并行结构分为数据并行与模型并行。数据并行是指在不同的GPU上，模型结构相同，但将训练数据进行切分，分别训练得到不同的模型，然后再将模型进行融合。而模型并行则是，将若干层的模型参数进行切分，不同的GPU上使用相同的数据进行训练，得到的结果直接连接作为下一层的输入。

上图模型的基本参数为：

输入：224×224大小的图片，3通道

第一层卷积：5×5大小的卷积核96个，每个GPU上48个。

第一层max-pooling：2×2的核。

第二层卷积：3×3卷积核256个，每个GPU上128个。

第二层max-pooling：2×2的核。

第三层卷积：与上一层是全连接，3*3的卷积核384个。分到两个GPU上个192个。

第四层卷积：3×3的卷积核384个，两个GPU各192个。该层与上一层连接没有经过pooling层。

第五层卷积：3×3的卷积核256个，两个GPU上个128个。

第五层max-pooling：2×2的核。

第一层全连接：4096维，将第五层max-pooling的输出连接成为一个一维向量，作为该层的输入。

第二层全连接：4096维

Softmax层：输出为1000，输出的每一维都是图片属于该类别的概率。

4 DeepID网络结构

DeepID网络结构是香港中文大学的Sun

Yi开发出来用来学习人脸特征的卷积神经网络。每张输入的人脸被表示为160维的向量，学习到的向量经过其他模型进行分类，在人脸验证试验上得到了97.45%的正确率，更进一步的，原作者改进了CNN，又得到了99.15%的正确率。

如下图所示，该结构与ImageNet的具体参数类似，所以只解释一下不同的部分吧。

上图中的结构，在最后只有一层全连接层，然后就是softmax层了。论文中就是以该全连接层作为图像的表示。在全连接层，以第四层卷积和第三层max-pooling的输出作为全连接层的输入，这样可以学习到局部的和全局的特征。

❷ 深度神经网络全连接层

全连接层通常位于网络的后部，用于实现分类输出。该层包含m个输入和n个输出，每个输出与所有输入相连接，其连接权重w各不相同，同时每个输出还包含一个偏差项。

以输入为4，输出为4的例子，每个输出点都对应一个输入点的参数，共需16个w参数，每个输出点都有一个b参数，共需4个b参数。

前向全连接的定量分析如下：

算力：[公式] Flops

BPE byte per element

input feature M*bpe

output feature N*bpe

w参数[公式] *bpe

b参数 N*bpe

反向全连接包括两部分：一是梯度传递，已知[公式]，求解[公式]，为前一层参数的梯度求解做准备；二是参数梯度求解，已知[公式]，求解[公式]和[公式]，以获得参数的更新值。

以输入为4，输出为4的例子，每个输出点都对应一个输入点的参数，共需16个w参数，每个输出点都有一个b参数，共需4个b参数。

反向全连接梯度传递的过程如下：（根据前向公式和求导法则容易得出）

可以看到weight矩阵进行了转置，记为[公式] = [公式][公式]

算力为 2MN Flops

参数w梯度求解，已知[公式]，求解[公式]

为[公式]，其中input feature进行了转置

算力为 MN mul

参数b梯度求解，已知[公式]，求解[公式]

为[公式]，两者相等

❸ 为什么说Transformer的注意力机制是相对廉价的注意力机制相对更对于RNN系列及CNN系列算法有何优势

QA形式对自然语言处理中注意力机制（Attention）进行总结，并对Transformer进行深入解析。

二、Transformer（Attention Is All You Need）详解
1、Transformer的整体架构是怎样的？由哪些部分组成？
2、Transformer Encoder 与 Transformer Decoder 有哪些不同？
3、Encoder-Decoder attention 与self-attention mechanism有哪些不同？
4、multi-head self-attention mechanism具体的计算过程是怎样的？
5、Transformer在GPT和Bert等词向量预训练模型中具体是怎么应用的？有什么变化？

一、Attention机制剖析

1、为什么要引入Attention机制？

根据通用近似定理，前馈网络和循环网络都有很强的能力。但为什么还要引入注意力机制呢？

计算能力的限制：当要记住很多“信息“，模型就要变得更复杂，然而目前计算能力依然是限制神经网络发展的瓶颈。
优化算法的限制：虽然局部连接、权重共享以及pooling等优化操作可以让神经网络变得简单一些，有效缓解模型复杂度和表达能力之间的矛盾；但是，如循环神经网络中的长距离以来问题，信息“记忆”能力并不高。

可以借助人脑处理信息过载的方式，例如Attention机制可以提高神经网络处理信息的能力。

2、Attention机制有哪些？（怎么分类？）

当用神经网络来处理大量的输入信息时，也可以借鉴人脑的注意力机制，只选择一些关键的信息输入进行处理，来提高神经网络的效率。按照认知神经学中的注意力，可以总体上分为两类：

聚焦式（focus）注意力：自上而下的有意识的注意力，主动注意——是指有预定目的、依赖任务的、主动有意识地聚焦于某一对象的注意力；
显着性（saliency-based）注意力：自下而上的有意识的注意力，被动注意——基于显着性的注意力是由外界刺激驱动的注意，不需要主动干预，也和任务无关；可以将max-pooling和门控（gating）机制来近似地看作是自下而上的基于显着性的注意力机制。

在人工神经网络中，注意力机制一般就特指聚焦式注意力。

3、Attention机制的计算流程是怎样的？

Attention机制的实质：寻址（addressing）

Attention机制的实质其实就是一个寻址（addressing）的过程，如上图所示：给定一个和任务相关的查询Query向量q，通过计算与Key的注意力分布并附加在Value上，从而计算Attention Value，这个过程实际上是Attention机制缓解神经网络模型复杂度的体现：不需要将所有的N个输入信息都输入到神经网络进行计算，只需要从X中选择一些和任务相关的信息输入给神经网络。

注意力机制可以分为三步：一是信息输入；二是计算注意力分布α；三是根据注意力分布α 来计算输入信息的加权平均。

step1-信息输入：用X= [x1, · · · , xN ]表示N 个输入信息；

step2-注意力分布计算：令Key=Value=X，则可以给出注意力分布

我们将称之为注意力分布（概率分布），为注意力打分机制，有几种打分机制：

step3-信息加权平均：注意力分布可以解释为在上下文查询q时，第i个信息受关注的程度，采用一种“软性”的信息选择机制对输入信息X进行编码为：

这种编码方式为软性注意力机制（soft Attention），软性注意力机制有两种：普通模式（Key=Value=X）和键值对模式（Key！=Value）。

软性注意力机制（soft Attention）

4、Attention机制的变种有哪些？

与普通的Attention机制（上图左）相比，Attention机制有哪些变种呢？

变种1-硬性注意力：之前提到的注意力是软性注意力，其选择的信息是所有输入信息在注意力分布下的期望。还有一种注意力是只关注到某一个位置上的信息，叫做硬性注意力（hard attention）。硬性注意力有两种实现方式：（1）一种是选取最高概率的输入信息；（2）另一种硬性注意力可以通过在注意力分布式上随机采样的方式实现。硬性注意力模型的缺点：
硬性注意力的一个缺点是基于最大采样或随机采样的方式来选择信息。因此最终的损失函数与注意力分布之间的函数关系不可导，因此无法使用在反向传播算法进行训练。为了使用反向传播算法，一般使用软性注意力来代替硬性注意力。硬性注意力需要通过强化学习来进行训练。——《神经网络与深度学习》
变种2-键值对注意力：即上图右边的键值对模式，此时Key！=Value，注意力函数变为：

变种3-多头注意力：多头注意力（multi-head attention）是利用多个查询Q = [q1, · · · , qM]，来平行地计算从输入信息中选取多个信息。每个注意力关注输入信息的不同部分，然后再进行拼接：

5、一种强大的Attention机制：为什么自注意力模型（self-Attention model）在长距离序列中如此强大？

（1）卷积或循环神经网络难道不能处理长距离序列吗？

当使用神经网络来处理一个变长的向量序列时，我们通常可以使用卷积网络或循环网络进行编码来得到一个相同长度的输出向量序列，如图所示：

基于卷积网络和循环网络的变长序列编码

从上图可以看出，无论卷积还是循环神经网络其实都是对变长序列的一种“局部编码”：卷积神经网络显然是基于N-gram的局部编码；而对于循环神经网络，由于梯度消失等问题也只能建立短距离依赖。

（2）要解决这种短距离依赖的“局部编码”问题，从而对输入序列建立长距离依赖关系，有哪些办法呢？

如果要建立输入序列之间的长距离依赖关系，可以使用以下两种方法：一种方法是增加网络的层数，通过一个深层网络来获取远距离的信息交互，另一种方法是使用全连接网络。 ——《神经网络与深度学习》
全连接模型和自注意力模型：实线表示为可学习的权重，虚线表示动态生成的权重。

由上图可以看出，全连接网络虽然是一种非常直接的建模远距离依赖的模型，但是无法处理变长的输入序列。不同的输入长度，其连接权重的大小也是不同的。

这时我们就可以利用注意力机制来“动态”地生成不同连接的权重，这就是自注意力模型（self-attention model）。由于自注意力模型的权重是动态生成的，因此可以处理变长的信息序列。

总体来说，为什么自注意力模型（self-Attention model）如此强大：利用注意力机制来“动态”地生成不同连接的权重，从而处理变长的信息序列。

（3）自注意力模型（self-Attention model）具体的计算流程是怎样的呢?

同样，给出信息输入：用X = [x1, · · · , xN ]表示N 个输入信息；通过线性变换得到为查询向量序列，键向量序列和值向量序列：

上面的公式可以看出，self-Attention中的Q是对自身（self）输入的变换，而在传统的Attention中，Q来自于外部。

self-Attention计算过程剖解（来自《细讲 | Attention Is All You Need 》）

注意力计算公式为：

自注意力模型（self-Attention model）中，通常使用缩放点积来作为注意力打分函数，输出向量序列可以写为：

二、Transformer（Attention Is All You Need）详解

从Transformer这篇论文的题目可以看出，Transformer的核心就是Attention，这也就是为什么本文会在剖析玩Attention机制之后会引出Transformer，如果对上面的Attention机制特别是自注意力模型（self-Attention model）理解后，Transformer就很容易理解了。

1、Transformer的整体架构是怎样的？由哪些部分组成？

Transformer模型架构

Transformer其实这就是一个Seq2Seq模型，左边一个encoder把输入读进去，右边一个decoder得到输出：

Seq2Seq模型

Transformer=Transformer Encoder+Transformer Decoder

（1）Transformer Encoder（N=6层，每层包括2个sub-layers）：

Transformer Encoder
sub-layer-1：multi-head self-attention mechanism，用来进行self-attention。
sub-layer-2：Position-wise Feed-forward Networks，简单的全连接网络，对每个position的向量分别进行相同的操作，包括两个线性变换和一个ReLU激活输出（输入输出层的维度都为512，中间层为2048）：

每个sub-layer都使用了残差网络：

（2）Transformer Decoder（N=6层，每层包括3个sub-layers）：

Transformer Decoder
sub-layer-1：Masked multi-head self-attention mechanism，用来进行self-attention，与Encoder不同：由于是序列生成过程，所以在时刻 i 的时候，大于 i 的时刻都没有结果，只有小于 i 的时刻有结果，因此需要做Mask。
sub-layer-2：Position-wise Feed-forward Networks，同Encoder。
sub-layer-3：Encoder-Decoder attention计算。

2、Transformer Encoder 与 Transformer Decoder 有哪些不同？

（1）multi-head self-attention mechanism不同，Encoder中不需要使用Masked，而Decoder中需要使用Masked；

（2）Decoder中多了一层Encoder-Decoder attention，这与 self-attention mechanism不同。

3、Encoder-Decoder attention 与self-attention mechanism有哪些不同？

它们都是用了 multi-head计算，不过Encoder-Decoder attention采用传统的attention机制，其中的Query是self-attention mechanism已经计算出的上一时间i处的编码值，Key和Value都是Encoder的输出，这与self-attention mechanism不同。代码中具体体现：

## Multihead Attention ( self-attention)

self.dec = multihead_attention(queries=self.dec,

keys=self.dec,

num_units=hp.hidden_units,

num_heads=hp.num_heads,

dropout_rate=hp.dropout_rate,

is_training=is_training,

causality=True,

scope="self_attention")

## Multihead Attention ( Encoder-Decoder attention)

self.dec = multihead_attention(queries=self.dec,

keys=self.enc,

num_units=hp.hidden_units,

num_heads=hp.num_heads,

dropout_rate=hp.dropout_rate,

is_training=is_training,

causality=False,

scope="vanilla_attention")

4、multi-head self-attention mechanism具体的计算过程是怎样的？

multi-head self-attention mechanism计算过程

Transformer中的Attention机制由Scaled Dot-Proct Attention和Multi-Head Attention组成，上图给出了整体流程。下面具体介绍各个环节：

Expand：实际上是经过线性变换，生成Q、K、V三个向量；
Split heads: 进行分头操作，在原文中将原来每个位置512维度分成8个head，每个head维度变为64；
Self Attention：对每个head进行Self Attention，具体过程和第一部分介绍的一致；
Concat heads：对进行完Self Attention每个head进行拼接；

上述过程公式为：

5、Transformer在GPT和Bert等词向量预训练模型中具体是怎么应用的？有什么变化？

GPT中训练的是单向语言模型，其实就是直接应用Transformer Decoder；
Bert中训练的是双向语言模型，应用了Transformer Encoder部分，不过在Encoder基础上还做了Masked操作；

BERT Transformer 使用双向self-attention，而GPT Transformer 使用受限制的self-attention，其中每个token只能处理其左侧的上下文。双向 Transformer 通常被称为“Transformer encoder”，而左侧上下文被称为“Transformer decoder”，decoder是不能获要预测的信息的。

输入600维的全连接神经网络

与输入600维的全连接神经网络相关的内容