全連接神經網路模型圖標_什麼是全連接神經網路怎麼理解「全連接」

『壹』【神經網路原理】神經網路結構 & 符號約定

神經元模型的符號約定：輸入：，權重(weight)：，偏置(bias)：，未激此凱鍵活值：，激活輸出值：
神經元可用於解決部分二分類問題 ——當有一個類別未知的輸入感知機，若 輸出值a = 1時，感知機被激活 ，代表 x 屬於第一類；若 輸出值a = 0時，感知機未激活 ，則代表 x 屬於第二類。而對於sigmoid神經元，若輸出值a ≥ 0.5時，代表 x 屬於第一類，否森巧則為第二類。

不難看出，感知機可以輕松實現「與非」邏輯，而與非邏輯可以組合成其他任意的邏輯，但對於一些過於復雜的問題，我們難以寫出其背後地邏輯結構。 這時候神經網路就能大顯身手 ：它可以自適應的學習規律，調節網路地權重和偏置等參數，我們只需要用大量的數據對其正確地訓練，即可得到我們想要的效果！
那有一個很有意思的問題：相比於階躍函數，為什麼我們在神經網路中更願意採用sigmoid函數作為激活函數呢？

首先，由於感知機的激活函數為階躍函數（在0處突變），權重的一個小的變化就可能導致輸出值的突變，而如果將激活函數替換為sigmoid函數，輸出值的變化就能發生相應的小孫鍵的變化，有利於網路學習；另外，由於採用二次代價函數作為損失函數時，利用BP演算法求梯度值需要對沖激函數求導，sigmoid函數正好時連續可導的，而且導數很好求。

為了便於理解，先畫一個三層的全連接神經網路示意圖，激活函數都選用sigmoid函數。 全連接神經網路 指除輸出層外，每一個神經元都與下一層中的各神經元相連接。網路的第一層為 輸入層 ，最後一層為 輸出層 ，中間的所有層統稱為 隱藏層 。其中，輸入層的神經元比較特殊，不含偏置，也沒有激活函數。

神經網路結構的符號約定 ：代表第層的第個神經元與第層的第個神經元連線上的權重；代表第層與第層之間的所有權重構成的權重矩陣。分別代表第層的第個神經元對應的偏置、未激活值、激活值；則分別代表第層的所有偏置組成的列向量、所有未激活值組成的列向量以及所有激活值組成的列向量。

下面展示了一個手寫體識別的三層全連接神經網路結構：

隱藏層的功能可以看作是各種特徵檢測器的組合：檢測到相應特徵時，相應的隱藏層神經元就會被激活，從而使輸出層相應的神經元也被激活。

『貳』一文看懂四種基本的神經網路架構

原文鏈接：
http://blackblog.tech/2018/02/23/Eight-Neural-Network/

更多干貨就在我的個人博客 http://blackblog.tech 歡迎關注

剛剛入門神經網路，往往會對眾多的神經網路架構感到困惑，神經網路看起來復雜多樣，但是這么多架構無非也就是三類，前饋神經網路，循環網路，對稱連接網路，本文將介紹四種常見的神經網路，分別是CNN，RNN，DBN，GAN。通過這四種基本的神經網路架構，我們來對神經網路進行一定的了解。

神經網路是機器學習中的一種模型，是一種模仿動物神經網路行為特徵，進行分布式並行信息處理的演算法數學模型。這種網路依靠系統的復雜程度，通過調整內部大量節點之間相互連接的關系，從而達到處理信息的目的。
一般來說，神經網路的架構可以分為三類：

前饋神經網路：
這是實際應用中最常見的神經網路類型。第一層是輸入，最後一層是輸出。如果有多個隱藏層，我們稱之為「深度」神經網路。他們計算出一系列改變樣本相似性的變換。各層神經元的活動是前一層活動的非線性函數。

循環網路：
循環網路在他們的連接圖中定向了循環，這意味著你可以按照箭頭回到你開始的地方。他們可以有復雜的動態，使其很難訓練。他們更具有生物真實性。
循環網路的目的使用來處理序列數據。在傳統的神經網路模型中，是從輸入層到隱含層再到輸出層，層與層之間是全連接的，每層之間的節點是無連接的。但是這種普通的神經網路對於很多問題卻無能無力。例如，你要預測句子的下一個單詞是什麼，一般需要用到前面的單詞，因為一個句子中前後單詞並不是獨立的。
循環神經網路，即一個序列當前的輸出與前面的輸出也有關。具體的表現形式為網路會對前面的信息進行記憶並應用於當前輸出的計算中，即隱藏層之間的節點不再無連接而是有連接的，並且隱藏層的輸入不僅包括輸入層的輸出還包括上一時刻隱藏層的輸出。

對稱連接網路：
對稱連接網路有點像循環網路，但是單元之間的連接是對稱的（它們在兩個方向上權重相同）。比起循環網路，對稱連接網路更容易分析。這個網路中有更多的限制，因為它們遵守能量函數定律。沒有隱藏單元的對稱連接網路被稱為「Hopfield 網路」。有隱藏單元的對稱連接的網路被稱為玻爾茲曼機。

其實之前的帖子講過一些關於感知機的內容，這里再復述一下。
首先還是這張圖
這是一個M-P神經元

一個神經元有n個輸入，每一個輸入對應一個權值w，神經元內會對輸入與權重做乘法後求和，求和的結果與偏置做差，最終將結果放入激活函數中，由激活函數給出最後的輸出，輸出往往是二進制的，0 狀態代表抑制，1 狀態代表激活。

可以把感知機看作是 n 維實例空間中的超平面決策面，對於超平面一側的樣本，感知器輸出 1，對於另一側的實例輸出 0，這個決策超平面方程是 w⋅x=0。那些可以被某一個超平面分割的正反樣例集合稱為線性可分(linearly separable)樣例集合，它們就可以使用圖中的感知機表示。
與、或、非問題都是線性可分的問題，使用一個有兩輸入的感知機能容易地表示，而異或並不是一個線性可分的問題，所以使用單層感知機是不行的，這時候就要使用多層感知機來解決疑惑問題了。

如果我們要訓練一個感知機，應該怎麼辦呢？
我們會從隨機的權值開始，反復地應用這個感知機到每個訓練樣例，只要它誤分類樣例就修改感知機的權值。重復這個過程，直到感知機正確分類所有的樣例。每一步根據感知機訓練法則來修改權值，也就是修改與輸入 xi 對應的權 wi，法則如下：

這里 t 是當前訓練樣例的目標輸出，o 是感知機的輸出，η 是一個正的常數稱為學習速率。學習速率的作用是緩和每一步調整權的程度，它通常被設為一個小的數值（例如 0.1），而且有時會使其隨著權調整次數的增加而衰減。

多層感知機，或者說是多層神經網路無非就是在輸入層與輸出層之間加了多個隱藏層而已，後續的CNN，DBN等神經網路只不過是將重新設計了每一層的類型。感知機可以說是神經網路的基礎，後續更為復雜的神經網路都離不開最簡單的感知機的模型，

談到機器學習，我們往往還會跟上一個詞語，叫做模式識別，但是真實環境中的模式識別往往會出現各種問題。比如：
圖像分割：真實場景中總是摻雜著其它物體。很難判斷哪些部分屬於同一個對象。對象的某些部分可以隱藏在其他對象的後面。
物體光照：像素的強度被光照強烈影響。
圖像變形：物體可以以各種非仿射方式變形。例如，手寫也可以有一個大的圓圈或只是一個尖頭。
情景支持：物體所屬類別通常由它們的使用方式來定義。例如，椅子是為了讓人們坐在上面而設計的，因此它們具有各種各樣的物理形狀。
卷積神經網路與普通神經網路的區別在於，卷積神經網路包含了一個由卷積層和子采樣層構成的特徵抽取器。在卷積神經網路的卷積層中，一個神經元只與部分鄰層神經元連接。在CNN的一個卷積層中，通常包含若干個特徵平面(featureMap)，每個特徵平面由一些矩形排列的的神經元組成，同一特徵平面的神經元共享權值，這里共享的權值就是卷積核。卷積核一般以隨機小數矩陣的形式初始化，在網路的訓練過程中卷積核將學習得到合理的權值。共享權值（卷積核）帶來的直接好處是減少網路各層之間的連接，同時又降低了過擬合的風險。子采樣也叫做池化（pooling），通常有均值子采樣（mean pooling）和最大值子采樣（max pooling）兩種形式。子采樣可以看作一種特殊的卷積過程。卷積和子采樣大大簡化了模型復雜度，減少了模型的參數。
卷積神經網路由三部分構成。第一部分是輸入層。第二部分由n個卷積層和池化層的組合組成。第三部分由一個全連結的多層感知機分類器構成。
這里舉AlexNet為例：

·輸入：224×224大小的圖片，3通道
·第一層卷積：11×11大小的卷積核96個，每個GPU上48個。
·第一層max-pooling：2×2的核。
·第二層卷積：5×5卷積核256個，每個GPU上128個。
·第二層max-pooling：2×2的核。
·第三層卷積：與上一層是全連接，3*3的卷積核384個。分到兩個GPU上個192個。
·第四層卷積：3×3的卷積核384個，兩個GPU各192個。該層與上一層連接沒有經過pooling層。
·第五層卷積：3×3的卷積核256個，兩個GPU上個128個。
·第五層max-pooling：2×2的核。
·第一層全連接：4096維，將第五層max-pooling的輸出連接成為一個一維向量，作為該層的輸入。
·第二層全連接：4096維
·Softmax層：輸出為1000，輸出的每一維都是圖片屬於該類別的概率。

卷積神經網路在模式識別領域有著重要應用，當然這里只是對卷積神經網路做了最簡單的講解，卷積神經網路中仍然有很多知識，比如局部感受野，權值共享，多卷積核等內容，後續有機會再進行講解。

傳統的神經網路對於很多問題難以處理，比如你要預測句子的下一個單詞是什麼，一般需要用到前面的單詞，因為一個句子中前後單詞並不是獨立的。RNN之所以稱為循環神經網路，即一個序列當前的輸出與前面的輸出也有關。具體的表現形式為網路會對前面的信息進行記憶並應用於當前輸出的計算中，即隱藏層之間的節點不再無連接而是有連接的，並且隱藏層的輸入不僅包括輸入層的輸出還包括上一時刻隱藏層的輸出。理論上，RNN能夠對任何長度的序列數據進行處理。
這是一個簡單的RNN的結構，可以看到隱藏層自己是可以跟自己進行連接的。

那麼RNN為什麼隱藏層能夠看到上一刻的隱藏層的輸出呢，其實我們把這個網路展開來開就很清晰了。

從上面的公式我們可以看出，循環層和全連接層的區別就是循環層多了一個權重矩陣 W。
如果反復把式2帶入到式1，我們將得到：

在講DBN之前，我們需要對DBN的基本組成單位有一定的了解，那就是RBM，受限玻爾茲曼機。
首先什麼是玻爾茲曼機？
[圖片上傳失敗...(image-d36b31-1519636788074)]
如圖所示為一個玻爾茲曼機，其藍色節點為隱層，白色節點為輸入層。
玻爾茲曼機和遞歸神經網路相比，區別體現在以下幾點：
1、遞歸神經網路本質是學習一個函數，因此有輸入和輸出層的概念，而玻爾茲曼機的用處在於學習一組數據的「內在表示」，因此其沒有輸出層的概念。
2、遞歸神經網路各節點鏈接為有向環，而玻爾茲曼機各節點連接成無向完全圖。

而受限玻爾茲曼機是什麼呢？
最簡單的來說就是加入了限制，這個限制就是將完全圖變成了二分圖。即由一個顯層和一個隱層構成，顯層與隱層的神經元之間為雙向全連接。

h表示隱藏層，v表示顯層
在RBM中，任意兩個相連的神經元之間有一個權值w表示其連接強度，每個神經元自身有一個偏置系數b（對顯層神經元）和c（對隱層神經元）來表示其自身權重。
具體的公式推導在這里就不展示了

DBN是一個概率生成模型，與傳統的判別模型的神經網路相對，生成模型是建立一個觀察數據和標簽之間的聯合分布，對P(Observation|Label)和 P(Label|Observation)都做了評估，而判別模型僅僅而已評估了後者，也就是P(Label|Observation)。
DBN由多個限制玻爾茲曼機（Restricted Boltzmann Machines）層組成，一個典型的神經網路類型如圖所示。這些網路被「限制」為一個可視層和一個隱層，層間存在連接，但層內的單元間不存在連接。隱層單元被訓練去捕捉在可視層表現出來的高階數據的相關性。

生成對抗網路其實在之前的帖子中做過講解，這里在說明一下。
生成對抗網路的目標在於生成，我們傳統的網路結構往往都是判別模型，即判斷一個樣本的真實性。而生成模型能夠根據所提供的樣本生成類似的新樣本，注意這些樣本是由計算機學習而來的。
GAN一般由兩個網路組成，生成模型網路，判別模型網路。
生成模型 G 捕捉樣本數據的分布，用服從某一分布（均勻分布，高斯分布等）的雜訊 z 生成一個類似真實訓練數據的樣本，追求效果是越像真實樣本越好；判別模型 D 是一個二分類器，估計一個樣本來自於訓練數據（而非生成數據）的概率，如果樣本來自於真實的訓練數據，D 輸出大概率，否則，D 輸出小概率。
舉個例子：生成網路 G 好比假幣製造團伙，專門製造假幣，判別網路 D 好比警察，專門檢測使用的貨幣是真幣還是假幣，G 的目標是想方設法生成和真幣一樣的貨幣，使得 D 判別不出來，D 的目標是想方設法檢測出來 G 生成的假幣。
傳統的判別網路：

生成對抗網路：

下面展示一個cDCGAN的例子（前面帖子中寫過的）
生成網路

判別網路

最終結果，使用MNIST作為初始樣本，通過學習後生成的數字，可以看到學習的效果還是不錯的。

本文非常簡單的介紹了四種神經網路的架構，CNN，RNN，DBN，GAN。當然也僅僅是簡單的介紹，並沒有深層次講解其內涵。這四種神經網路的架構十分常見，應用也十分廣泛。當然關於神經網路的知識，不可能幾篇帖子就講解完，這里知識講解一些基礎知識，幫助大家快速入（zhuang）門（bi）。後面的帖子將對深度自動編碼器，Hopfield 網路長短期記憶網路（LSTM）進行講解。

『叄』【模型解讀】歷數GAN的5大基本結構

首發於微信公眾號《有三AI》

【模型解讀】歷數GAN的5大基本結構

生成對抗網路是近幾年來無監督學習領域里最大的進展，被譽為下一代深度學習，不管是研究熱度還是論文數量，已經逼近甚至超越傳統判別式的CNN架構。

這一次我們簡單介紹一下生成對抗網路的主流模型結構，從一個生成器一個判別器到多個生成器多個判別器。

作者 | 言有三

編輯 | 言有三

我們這一期文章不打算從頭開始講述GAN，所以如果大家沒有相關基礎的，就先看一下我們上一期GAN的介紹。

【技術綜述】有三說GANs（上）

一個基本的用於生成圖像的GAN的結構就是這樣的。

Generator就是生成器，它輸入雜訊，輸出產生的圖像。通常雜訊就是一個一維的向量，經過reshape為二維圖像，然後利用若干個反卷積層來學習上采樣。

如全卷積的DCGAN模型[1]，輸入就是1*100的向量，然後經過一個全連接層學習，reshape到4*4*1024的張量，再經過4個上采樣的反卷積網路，生成64*64的圖。

Discrimator就是普通的CNN分類器，輸入真實樣本或者生成的假樣本進行分類，在DCGAN中也是4個卷積層。

採用多個判別器[2]的好處帶來了類似於boosting的優勢，訓練一個過於好的判別器，會損壞生成器的性能，這是GAN面臨的一個大難題。如果能夠訓練多個沒有那麼強的判別器，然後進行boosting，可以取得不錯的效果，甚至連dropout技術都可以應用進來。

多個判別器還可以相互進行分工，比如在圖像分類中，一個進行粗粒度的分類，一個進行細粒度的分類。在語音任務中，各自用於不同聲道的處理。

一般來說，生成器相比判別器要完成的任務更難，因為它要完成數據概率密度的擬合，而判別器只需要進行判別，導致影響GAN性能的一個問題就是模式坍塌，即生成高度相似的樣本。

採用多個生成器單個判別器的方法，可以有效地緩解這個問題。

從上圖結構可以看出，多個生成器採用同樣的結構，在網路的淺層還共享權重。

在利用GAN進行半監督的圖像分類任務時，判別器需要同時擔任兩個角色，即判別生成的假樣本，以及預測類別，這對判別器提出了較高的要求。通過增加一個分類器可以分擔判別器的工作量，即將捕捉樣本和標簽的條件分布這一任務交給生成器和分類器，而判別器只專注於區分真實樣本和生成的樣本。

這一類結構以Triple Generative Adversarial Nets為代表，下圖是它的網路結構。

多個生成器和多個判別器就又有幾種。

5.1 級聯結構[5]

早期以DCGAN為代表的網路生成的圖片解析度太低，質量不夠好，都不超過100×100，在32×32或者64×64左右。這是因為難以一次性學習到生成高解析度的樣本，收斂過程容易不穩定。

類似的問題在圖像分割，目標檢測中都存在。在目標檢測中，級聯網路被廣泛使用，即採用從粗到精的方法依次改進檢測器的性能。在圖像分割中進行上采樣時也採用學習小倍率的放大而不是大倍率的方法，如利用兩個2倍上采樣替換一個4倍的上采樣，不僅可以增強網路的表達能力，還降低了學習難度。

基於此，金字塔GAN結構被提出並廣泛使用，它參考圖像領域裡面的金字塔結構由粗到精一步一步生成圖像，並添加殘差進行學習。

上圖就是它的結構，從低解析度z3開始，逐級提升，最終生成I0，這是一個金字塔形狀的結構，以下符號較多用圖片代替。

5.2 並行與循環結構[6]

GAN有一大應用就是風格化，實現兩個域之間的風格互換，以CycleGAN[6]為典型代表。它包含了多個生成器和多個判別器。Cycle的典型結構如下：

X和Y分別表示兩個域的圖像，可知這里存在兩個生成器G和F，分別用於從X到Y的生成和Y到X到生成，包含兩個判別器，分別是Dx和Dy。而損失本身也增加了一個循環損失，感興趣讀者可以去細讀文章。

另外在cross domain學習中也常用到多判別器多生成器多結構，分別學習不同的域。而且各個域的判別器和生成器通常會共享一些權重，如下圖是CoGAN[7]的網路結構。

另外還有一些零零散散的結構，比如3D GAN，RNN GAN，由於都是上面這幾類的變種，不再統一介紹。

[1] Radford A, Metz L, Chintala S, et al. Unsupervised Representation Learning with Deep Convolutional Generative Adversarial Networks[J]. international conference on learning representations, 2016.

[2] Durugkar I P, Gemp I, Mahadevan S, et al. Generative Multi-Adversarial Networks[J]. international conference on learning representations, 2017.

[3] Ghosh A, Kulharia V, Namboodiri V P, et al. Multi-Agent Diverse Generative Adversarial Networks[J]. computer vision and pattern recognition, 2018: 8513-8521.

[4] Chongxuan L I, Xu T, Zhu J, et al. Triple Generative Adversarial Nets[J]. neural information processing systems, 2017: 4088-4098.

[5] Denton E L, Chintala S, Szlam A, et al. Deep generative image models using a Laplacian pyramid of adversarial networks[J]. neural information processing systems, 2015: 1486-1494.

[6] Zhu J, Park T, Isola P, et al. Unpaired Image-to-Image Translation Using Cycle-Consistent Adversarial Networks[J]. international conference on computer vision, 2017: 2242-2251.

[7] Liu M, Tuzel O. Coupled Generative Adversarial Networks[J]. neural information processing systems, 2016: 469-477.

本系列的完整目錄：

【模型解讀】從LeNet到VGG，看卷積+池化串聯的網路結構

【模型解讀】network in network中的1*1卷積，你懂了嗎

【模型解讀】GoogLeNet中的inception結構，你看懂了嗎

【模型解讀】說說移動端基準模型MobileNets

【模型解讀】pooling去哪兒了？

【模型解讀】resnet中的殘差連接，你確定真的看懂了？

【模型解讀】「不正經」的卷積神經網路

【模型解讀】「全連接」的卷積網路，有什麼好？

【模型解讀】從「局部連接」回到「全連接」的神經網路

【模型解讀】深度學習網路只能有一個輸入嗎

【模型解讀】從2D卷積到3D卷積，都有什麼不一樣

【模型解讀】淺析RNN到LSTM

『肆』卷積神經網路（CNN）基礎

在七月初七情人節，牛郎織女相見的一天，我終於學習了CNN（來自CS231n），感覺感觸良多，所以趕快記下來，別忘了，最後祝大家情人節快樂5555555.正題開始!

CNN一共有卷積層（CONV）、ReLU層（ReLU）、池化層（Pooling）、全連接層（FC（Full Connection））下面是各個層的詳細解釋。

卷積，尤其是圖像的卷積，需要一個濾波器，用濾波器對整個圖像進行遍歷，我們假設有一個32*32*3的原始圖像A，濾波器的尺寸為5*5*3，用w表示，濾波器中的數據就是CNN的參數的一部分，那麼在使用濾波器w對A進行濾波的話，可以用下面的式子表示：

其中x為原始圖像的5*5*3的一部分，b是偏置項置為1。在對A進行濾波之後，產生的是一個28*28*1的數據。那麼假設我們存在6個濾波器，這六個濾波器之間彼此是獨立的，也就是他們內部的數據是不同的且沒有相關性的。可以理解為一個濾波器查找整幅圖像的垂直邊緣，一個查找水平邊緣，一個查找紅色，一個查找黑色這樣。那麼我就可以產生6個28*28*1的數據，將它們組合到一起就可以產生28*28*6的數據，這就是卷積層主要做的工作。

CNN可以看作一系列的卷積層和ReLU層對原始數據結構進行處理的神經網路，處理的過程可以用下面這幅圖表示

特別要注意的是濾波器的深度一定要與上一層傳來的數據的深度相同，就像上圖的第二個卷積層在處理傳來的28*28*6的數據時要使用5*5*6的濾波器.

濾波器在圖像上不斷移動對圖像濾波，自然存在步長的問題，在上面我們舉的例子都是步長為1的情況，如果步長為3的話，32*32*3的圖像經過5*5*3的濾波器卷積得到的大小是（32-5）/3+1=10， 註：步長不能為2因為（32-5）/2+1=14.5是小數。

所以當圖像大小是N，濾波器尺寸為F時，步長S，那麼卷積後大小為（N-F）/S+1

我們從上面的圖中可以看到圖像的長和寬在逐漸的減小，在經過超過5層之後極可能只剩下1*1的空間尺度，這樣是十分不好的，而且也不利於我們接下來的計算，所以我們想讓卷積層處理完之後圖像在空間尺度上大小不變，所以我們引入了pad the border的操作。pad其實就是在圖像周圍補0，擴大圖像的尺寸，使得卷積後圖像大小不變。在CNN中，主要存在4個超參數，濾波器個數K，濾波器大小F，pad大小P和步長S，其中P是整數，當P=1時，對原始數據的操作如圖所示：

那麼在pad操作後卷積後的圖像大小為：（N-F+2*P）/S+1
而要想讓卷積層處理後圖像空間尺度不變，P的值可以設為P=（F-1）/2

卷積層輸入W₁ *H₁ *D₁ 大小的數據，輸出W₂ *H₂ *D₂ 的數據，此時的卷積層共有4個超參數：
K：濾波器個數
P：pad屬性值
S：濾波器每次移動的步長
F：濾波器尺寸
此時輸出的大小可以用輸入和超參計算得到：
W₂ =（W₁ -F+2P）/S+1
H₂ =（H₁ -F+2P）/S+1
D₂ =D₁

1*1的濾波器也是有意義的，它在深度方向做卷積，例如1*1*64的濾波器對56*56*64的數據卷積得到56*56的數據

F通常是奇數，這樣可以綜合考慮上下左右四個方向的數據。

卷積層從神經元的角度看待可以有兩個性質： 參數共享和局域連接 。對待一個濾波器，例如5*5*3的一個濾波器，對32*32*3的數據卷積得到28*28的數據，可以看作存在28*28個神經元，每個對原圖像5*5*3的區域進行計算，這28*28個神經元由於使用同一個濾波器，所以參數相同，我們稱這一特性為 參數共享 。

針對不同的濾波器，我們可以看到他們會看到同一區域的圖像，相當於在深度方向存在多個神經元，他們看著相同區域叫做 局域連接

參數共享減少了參數的數量，防止了過擬合
局域連接為查找不同特徵更豐富的表現圖像提供了可能。
卷積就像是對原圖像的另一種表達。

激活函數，對於每一個維度經過ReLU函數輸出即可。不改變數據的空間尺度。

通過pad操作，輸出圖像在控制項上並沒有變化，但是深度發生了變化，越來越龐大的數據給計算帶來了困難，也出現了冗餘的特徵，所以需要進行池化操作，池化不改變深度，只改變長寬，主要有最大值和均值兩種方法，一般的池化濾波器大小F為2步長為2，對於最大值池化可以用下面的圖像清晰的表示：

卷積層輸入W₁ *H₁ *D₁ 大小的數據，輸出W₂ *H₂ *D₂ 的數據，此時的卷積層共有2個超參數：
S：濾波器每次移動的步長
F：濾波器尺寸
此時輸出的大小可以用輸入和超參計算得到：
W₂ =（W₁ -F）/S+1
H₂ =（H₁ -F）/S+1
D₂ =D₁

將最後一層（CONV、ReLU或Pool）處理後的數據輸入全連接層，對於W₂ *H₂ *D₂ 數據，我們將其展成1*1*W₂ *H₂ *D₂ 大小的數據，輸入層共有W₂ *H₂ *D₂ 個神經元，最後根據問題確定輸出層的規模，輸出層可以用softmax表示。也就是說，全連接層就是一個常見的BP神經網路。而這個網路也是參數最多的部分，是接下來想要去掉的部分。完整的神經網路可以用下面的圖表示：

[(CONV-ReLU)*N-POOL?]*M-(FC-RELU)*K,SoftMax

1.更小的濾波器與更深的網路
2.只有CONV層而去掉池化與全鏈接

最早的CNN，用於識別郵編，結構為：
CONV-POOL-CONV-POOL-CONV-FC
濾波器大小5*5，步長為1，池化層2*2，步長為2

2012年由於GPU技術所限，原始AlexNet為兩個GPU分開計算，這里介紹合起來的結構。

輸入圖像為227*227*3

1.首次使用ReLU
2.使用Norm layers，現在已經拋棄，因為效果不大
3.數據經過預處理（例如大小變化，顏色變化等）
4.失活比率0.5
5.batch size 128
6.SGD Momentum 參數0.9（SGD和Momentum見我的其他文章）
7.學習速率 0.01，准確率不在提升時減少10倍，1-2次後達到收斂
8.L2權重減少0.0005
9.錯誤率15.4%

改進自AlexNet，主要改變：
1.CONV1的濾波器從11*11步長S=4改為7*7步長為2.
2.CONV3,4,5濾波器數量有384，384，256改為512，1024，512（濾波器數量為2的n次冪有利於計算機計算可以提高效率）
錯誤率：14.8%後繼續改進至11.2%

當前最好的最易用的CNN網路，所有卷積層濾波器的大小均為3*3，步長為1，pad=1，池化層為2*2的最大值池化，S=2。

主要參數來自全連接層，這也是想要去掉FC的原因。

具有高度的統一性和線性的組合，易於理解，十分方便有VGG-16，VGG-19等多種結構。
錯誤率7.3%

完全移除FC層，參數只有500萬，使用Inception模塊（不太理解，有時間繼續看）
准確率6.67%

准確率3.6%
擁有極深的網路結構，且越深准確率越高。是傳統CNN不具備的特點，傳統CNN並非越深越准確。需要訓練時間較長但是快於VGG

1.每個卷積層使用Batch Normalization
2.Xavier/2初始化
3.SGD+Momentum（0.9）
4.Learning rate:0.1,准確率不變減小10倍（因為Batch Normalization所以比AlexNet大）
5.mini-batch size 256
6.Weight decay of 0.00001
7.不適用失活（因為Batch Normalization）

具體的梯度過程學完ResNet再說吧。

『伍』什麼是全連接神經網路怎麼理解「全連接」

1、全連接神經網路解析：對n-1層和n層而言，n-1層的任意一個節點，都和第n層所有節點有連接。即第n層的每個節點在進行計算的時候，激活函數的輸入是n-1層所有節點的加權。

2、全連接的神經網路示意圖：

3、「全連接」是一種不錯的模式，但是網路很大的時候，訓練速度回很慢。部分連接就是認為的切斷某兩個節點直接的連接，這樣訓練時計算量大大減小。

『陸』神經網路模型-27種神經網路模型們的簡介

【1】Perceptron(P) 感知機

【1】感知機

感知機是我們知道的最簡單和最古老的神經元模型，它接收一些輸入，然後把它們加總，通過激活函數並傳遞到輸出層。

【2】Feed Forward(FF)前饋神經網路

【2】前饋神經網路

前饋神經網路（FF），這也是一個很古老的方法——這種方法起源於50年代。它的工作原理通常遵循以下規則：

1.所有節點都完全連接

2.激活從輸入層流向輸出，無回環

3.輸入和輸出之間有一層（隱含層）

在大多數情況下，這種類型的網路使用反向傳播方法進行訓練。

【3】Radial Basis Network(RBF) RBF神經網路

【3】RBF神經網路

RBF 神經網路實際上是激活函數是徑向基函數而非邏輯函數的FF前饋神經網路（FF）。兩者之間有什麼區別呢？

邏輯函數--- 將某個任意值映射到[0 ,... 1]范圍內來，回答「是或否」問題。適用於分類決策系統，但不適用於連續變數。

相反，徑向基函數--- 能顯示「我們距離目標有多遠」。這完美適用於函數逼近和機器控制（例如作為PID控制器的替代）。

簡而言之，RBF神經網路其實就是，具有不同激活函數和應用方向的前饋網路。

【4】Deep Feed Forword(DFF)深度前饋神經網路

【4】DFF深度前饋神經網路

DFF深度前饋神經網路在90年代初期開啟了深度學習的潘多拉盒子。這些依然是前饋神經網路，但有不止一個隱含層。那麼，它到底有什麼特殊性？

在訓練傳統的前饋神經網路時，我們只向上一層傳遞了少量的誤差信息。由於堆疊更多的層次導致訓練時間的指數增長，使得深度前饋神經網路非常不實用。直到00年代初，我們開發了一系列有效的訓練深度前饋神經網路的方法; 現在它們構成了現代機器學習系統的核心，能實現前饋神經網路的功能，但效果遠高於此。

【5】Recurrent Neural Network(RNN) 遞歸神經網路

【5】RNN遞歸神經網路

RNN遞歸神經網路引入不同類型的神經元——遞歸神經元。這種類型的第一個網路被稱為約旦網路（Jordan Network），在網路中每個隱含神經元會收到它自己的在固定延遲（一次或多次迭代）後的輸出。除此之外，它與普通的模糊神經網路非常相似。

當然，它有許多變化 — 如傳遞狀態到輸入節點，可變延遲等，但主要思想保持不變。這種類型的神經網路主要被使用在上下文很重要的時候——即過去的迭代結果和樣本產生的決策會對當前產生影響。最常見的上下文的例子是文本——一個單詞只能在前面的單詞或句子的上下文中進行分析。

【6】Long/Short Term Memory (LSTM) 長短時記憶網路

【6】LSTM長短時記憶網路

LSTM長短時記憶網路引入了一個存儲單元，一個特殊的單元，當數據有時間間隔（或滯後）時可以處理數據。遞歸神經網路可以通過「記住」前十個詞來處理文本，LSTM長短時記憶網路可以通過「記住」許多幀之前發生的事情處理視頻幀。 LSTM網路也廣泛用於寫作和語音識別。

存儲單元實際上由一些元素組成，稱為門，它們是遞歸性的，並控制信息如何被記住和遺忘。

【7】Gated Recurrent Unit (GRU)

【7】GRU是具有不同門的LSTM

GRU是具有不同門的LSTM。

聽起來很簡單，但缺少輸出門可以更容易基於具體輸入重復多次相同的輸出，目前此模型在聲音（音樂）和語音合成中使用得最多。

實際上的組合雖然有點不同：但是所有的LSTM門都被組合成所謂的更新門(Update Gate)，並且復位門(Reset Gate)與輸入密切相關。

它們比LSTM消耗資源少，但幾乎有相同的效果。

【8】Auto Encoder (AE) 自動編碼器

【8】AE自動編碼器

Autoencoders自動編碼器用於分類，聚類和特徵壓縮。

當您訓練前饋(FF)神經網路進行分類時，您主要必須在Y類別中提供X個示例，並且期望Y個輸出單元格中的一個被激活。這被稱為「監督學習」。

另一方面，自動編碼器可以在沒有監督的情況下進行訓練。它們的結構 - 當隱藏單元數量小於輸入單元數量（並且輸出單元數量等於輸入單元數）時，並且當自動編碼器被訓練時輸出盡可能接近輸入的方式，強制自動編碼器泛化數據並搜索常見模式。

【9】Variational AE (VAE) 變分自編碼器

【9】VAE變分自編碼器

變分自編碼器，與一般自編碼器相比，它壓縮的是概率，而不是特徵。

盡管如此簡單的改變，但是一般自編碼器只能回答當「我們如何歸納數據？」的問題時，變分自編碼器回答了「兩件事情之間的聯系有多強大？我們應該在兩件事情之間分配誤差還是它們完全獨立的？」的問題。

【10】Denoising AE (DAE) 降噪自動編碼器

【10】DAE降噪自動編碼器

雖然自動編碼器很酷，但它們有時找不到最魯棒的特徵，而只是適應輸入數據（實際上是過擬合的一個例子）。

降噪自動編碼器（DAE）在輸入單元上增加了一些雜訊 - 通過隨機位來改變數據，隨機切換輸入中的位，等等。通過這樣做，一個強制降噪自動編碼器從一個有點嘈雜的輸入重構輸出，使其更加通用，強制選擇更常見的特徵。

【11】Sparse AE (SAE) 稀疏自編碼器

【11】SAE稀疏自編碼器

稀疏自編碼器（SAE）是另外一個有時候可以抽離出數據中一些隱藏分組樣試的自動編碼的形式。結構和AE是一樣的，但隱藏單元的數量大於輸入或輸出單元的數量。

【12】Markov Chain (MC) 馬爾科夫鏈

【12】Markov Chain (MC) 馬爾科夫鏈

馬爾可夫鏈（Markov Chain, MC）是一個比較老的圖表概念了，它的每一個端點都存在一種可能性。過去，我們用它來搭建像「在單詞hello之後有0.0053％的概率會出現dear，有0.03551%的概率出現you」這樣的文本結構。

這些馬爾科夫鏈並不是典型的神經網路，它可以被用作基於概率的分類（像貝葉斯過濾），用於聚類（對某些類別而言），也被用作有限狀態機。

【13】Hopfield Network (HN) 霍普菲爾網路

【13】HN霍普菲爾網路

霍普菲爾網路（HN）對一套有限的樣本進行訓練，所以它們用相同的樣本對已知樣本作出反應。

在訓練前，每一個樣本都作為輸入樣本，在訓練之中作為隱藏樣本，使用過之後被用作輸出樣本。

在HN試著重構受訓樣本的時候，他們可以用於給輸入值降噪和修復輸入。如果給出一半圖片或數列用來學習，它們可以反饋全部樣本。

【14】Boltzmann Machine (BM) 波爾滋曼機

【14】 BM 波爾滋曼機

波爾滋曼機（BM）和HN非常相像，有些單元被標記為輸入同時也是隱藏單元。在隱藏單元更新其狀態時，輸入單元就變成了輸出單元。（在訓練時，BM和HN一個一個的更新單元，而非並行）。

這是第一個成功保留模擬退火方法的網路拓撲。

多層疊的波爾滋曼機可以用於所謂的深度信念網路，深度信念網路可以用作特徵檢測和抽取。

【15】Restricted BM (RBM) 限制型波爾滋曼機

【15】 RBM 限制型波爾滋曼機

在結構上，限制型波爾滋曼機（RBM）和BM很相似，但由於受限RBM被允許像FF一樣用反向傳播來訓練（唯一的不同的是在反向傳播經過數據之前RBM會經過一次輸入層）。

【16】Deep Belief Network (DBN) 深度信念網路

【16】DBN 深度信念網路

像之前提到的那樣，深度信念網路（DBN）實際上是許多波爾滋曼機（被VAE包圍）。他們能被連在一起（在一個神經網路訓練另一個的時候），並且可以用已經學習過的樣式來生成數據。

【17】Deep Convolutional Network (DCN) 深度卷積網路

【17】 DCN 深度卷積網路

當今，深度卷積網路（DCN）是人工神經網路之星。它具有卷積單元（或者池化層）和內核，每一種都用以不同目的。

卷積核事實上用來處理輸入的數據，池化層是用來簡化它們（大多數情況是用非線性方程，比如max），來減少不必要的特徵。

他們通常被用來做圖像識別，它們在圖片的一小部分上運行（大約20x20像素）。輸入窗口一個像素一個像素的沿著圖像滑動。然後數據流向卷積層，卷積層形成一個漏斗（壓縮被識別的特徵）。從圖像識別來講，第一層識別梯度，第二層識別線，第三層識別形狀，以此類推，直到特定的物體那一級。DFF通常被接在卷積層的末端方便未來的數據處理。

【18】Deconvolutional Network (DN) 去卷積網路

【18】 DN 去卷積網路

去卷積網路（DN）是將DCN顛倒過來。DN能在獲取貓的圖片之後生成像（狗：0，蜥蜴：0，馬：0，貓：1）一樣的向量。DNC能在得到這個向量之後，能畫出一隻貓。

【19】Deep Convolutional Inverse Graphics Network (DCIGN) 深度卷積反轉圖像網路

【19】 DCIGN 深度卷積反轉圖像網路

深度卷積反轉圖像網路（DCIGN），長得像DCN和DN粘在一起，但也不完全是這樣。

事實上，它是一個自動編碼器，DCN和DN並不是作為兩個分開的網路，而是承載網路輸入和輸出的間隔區。大多數這種神經網路可以被用作圖像處理，並且可以處理他們以前沒有被訓練過的圖像。由於其抽象化的水平很高，這些網路可以用於將某個事物從一張圖片中移除，重畫，或者像大名鼎鼎的CycleGAN一樣將一匹馬換成一個斑馬。

【20】Generative Adversarial Network (GAN) 生成對抗網路

【20】 GAN 生成對抗網路

生成對抗網路（GAN）代表了有生成器和分辨器組成的雙網路大家族。它們一直在相互傷害——生成器試著生成一些數據，而分辨器接收樣本數據後試著分辨出哪些是樣本，哪些是生成的。只要你能夠保持兩種神經網路訓練之間的平衡，在不斷的進化中，這種神經網路可以生成實際圖像。

【21】Liquid State Machine (LSM) 液體狀態機

【21】 LSM 液體狀態機

液體狀態機（LSM）是一種稀疏的，激活函數被閾值代替了的（並不是全部相連的）神經網路。只有達到閾值的時候，單元格從連續的樣本和釋放出來的輸出中積累價值信息，並再次將內部的副本設為零。

這種想法來自於人腦，這些神經網路被廣泛的應用於計算機視覺，語音識別系統，但目前還沒有重大突破。

【22】Extreme Learning Machine (ELM) 極端學習機

【22】ELM 極端學習機

極端學習機（ELM）是通過產生稀疏的隨機連接的隱藏層來減少FF網路背後的復雜性。它們需要用到更少計算機的能量，實際的效率很大程度上取決於任務和數據。

【23】Echo State Network (ESN) 回聲狀態網路

【23】 ESN 回聲狀態網路

回聲狀態網路（ESN）是重復網路的細分種類。數據會經過輸入端，如果被監測到進行了多次迭代（請允許重復網路的特徵亂入一下），只有在隱藏層之間的權重會在此之後更新。

據我所知，除了多個理論基準之外，我不知道這種類型的有什麼實際應用。。。。。。。

【24】Deep Resial Network (DRN) 深度殘差網路

【24】 DRN 深度殘差網路

深度殘差網路（DRN）是有些輸入值的部分會傳遞到下一層。這一特點可以讓它可以做到很深的層級（達到300層），但事實上它們是一種沒有明確延時的RNN。

【25】Kohonen Network (KN) Kohonen神經網路

【25】 Kohonen神經網路

Kohonen神經網路（KN）引入了「單元格距離」的特徵。大多數情況下用於分類，這種網路試著調整它們的單元格使其對某種特定的輸入作出最可能的反應。當一些單元格更新了，離他們最近的單元格也會更新。

像SVM一樣，這些網路總被認為不是「真正」的神經網路。

【26】Support Vector Machine (SVM)

【26】 SVM 支持向量機

支持向量機（SVM）用於二元分類工作，無論這個網路處理多少維度或輸入，結果都會是「是」或「否」。

SVM不是所有情況下都被叫做神經網路。

【27】Neural Turing Machine (NTM) 神經圖靈機

【27】NTM 神經圖靈機

神經網路像是黑箱——我們可以訓練它們，得到結果，增強它們，但實際的決定路徑大多數我們都是不可見的。

神經圖靈機（NTM）就是在嘗試解決這個問題——它是一個提取出記憶單元之後的FF。一些作者也說它是一個抽象版的LSTM。

記憶是被內容編址的，這個網路可以基於現狀讀取記憶，編寫記憶，也代表了圖靈完備神經網路。

『柒』神經網路BP模型

一、BP模型概述

誤差逆傳播(Error Back-Propagation)神經網路模型簡稱為BP(Back-Propagation)網路模型。

Pall Werbas博士於1974年在他的博士論文中提出了誤差逆傳播學習演算法。完整提出並被廣泛接受誤差逆傳播學習演算法的是以Rumelhart和McCelland為首的科學家小組。他們在1986年出版「Parallel Distributed Processing，Explorations in the Microstructure of Cognition」(《並行分布信息處理》)一書中，對誤差逆傳播學習演算法進行了詳盡的分析與介紹，並對這一演算法的潛在能力進行了深入探討。

BP網路是一種具有3層或3層以上的階層型神經網路。上、下層之間各神經元實現全連接，即下層的每一個神經元與上層的每一個神經元都實現權連接，而每一層各神經元之間無連接。網路按有教師示教的方式進行學習，當一對學習模式提供給網路後，神經元的激活值從輸入層經各隱含層向輸出層傳播，在輸出層的各神經元獲得網路的輸入響應。在這之後，按減小期望輸出與實際輸出的誤差的方向，從輸入層經各隱含層逐層修正各連接權，最後回到輸入層，故得名「誤差逆傳播學習演算法」。隨著這種誤差逆傳播修正的不斷進行，網路對輸入模式響應的正確率也不斷提高。

BP網路主要應用於以下幾個方面：

1)函數逼近：用輸入模式與相應的期望輸出模式學習一個網路逼近一個函數；

2)模式識別：用一個特定的期望輸出模式將它與輸入模式聯系起來；

3)分類：把輸入模式以所定義的合適方式進行分類；

4)數據壓縮：減少輸出矢量的維數以便於傳輸或存儲。

在人工神經網路的實際應用中，80%～90%的人工神經網路模型採用BP網路或它的變化形式，它也是前向網路的核心部分，體現了人工神經網路最精華的部分。

二、BP模型原理

下面以三層BP網路為例，說明學習和應用的原理。

1.數據定義

P對學習模式(x_p，d_p)，p=1，2，…，P；

輸入模式矩陣X[N][P]=(x₁，x₂，…，x_P)；

目標模式矩陣d[M][P]=(d₁，d₂，…，d_P)。

三層BP網路結構

輸入層神經元節點數S0=N，i=1，2，…，S0；

隱含層神經元節點數S1，j=1，2，…，S1；

神經元激活函數f1[S1]；

權值矩陣W1[S1][S0]；

偏差向量b1[S1]。

輸出層神經元節點數S2=M，k=1，2，…，S2；

神經元激活函數f2[S2]；

權值矩陣W2[S2][S1]；

偏差向量b2[S2]。

學習參數

目標誤差ϵ；

初始權更新值Δ₀；

最大權更新值Δ_max；

權更新值增大倍數η⁺；

權更新值減小倍數η^-。

2.誤差函數定義

對第p個輸入模式的誤差的計算公式為

中國礦產資源評價新技術與評價新模型

y2_kp為BP網的計算輸出。

3.BP網路學習公式推導

BP網路學習公式推導的指導思想是，對網路的權值W、偏差b修正，使誤差函數沿負梯度方向下降，直到網路輸出誤差精度達到目標精度要求，學習結束。

各層輸出計算公式

輸入層

y0_i=x_i，i=1，2，…，S0；

隱含層

中國礦產資源評價新技術與評價新模型

y1_j=f1(z1_j)，

j=1，2，…，S1；

輸出層

中國礦產資源評價新技術與評價新模型

y2_k=f2(z2_k)，

k=1，2，…，S2。

輸出節點的誤差公式

中國礦產資源評價新技術與評價新模型

對輸出層節點的梯度公式推導

中國礦產資源評價新技術與評價新模型

E是多個y2_m的函數，但只有一個y2_k與w_kj有關，各y2_m間相互獨立。

其中

中國礦產資源評價新技術與評價新模型

則

中國礦產資源評價新技術與評價新模型

設輸出層節點誤差為

δ2_k=(d_k-y2_k)·f2′(z2_k)，

則

中國礦產資源評價新技術與評價新模型

同理可得

中國礦產資源評價新技術與評價新模型

對隱含層節點的梯度公式推導

中國礦產資源評價新技術與評價新模型

E是多個y2_k的函數，針對某一個w1_ji，對應一個y1_j，它與所有的y2_k有關。因此，上式只存在對k的求和，其中

中國礦產資源評價新技術與評價新模型

則

中國礦產資源評價新技術與評價新模型

設隱含層節點誤差為

中國礦產資源評價新技術與評價新模型

則

中國礦產資源評價新技術與評價新模型

同理可得

中國礦產資源評價新技術與評價新模型

4.採用彈性BP演算法(RPROP)計算權值W、偏差b的修正值ΔW，Δb

1993年德國 Martin Riedmiller和Heinrich Braun 在他們的論文「A Direct Adaptive Method for Faster Backpropagation Learning：The RPROP Algorithm」中，提出Resilient Backpropagation演算法——彈性BP演算法(RPROP)。這種方法試圖消除梯度的大小對權步的有害影響，因此，只有梯度的符號被認為表示權更新的方向。

權改變的大小僅僅由權專門的「更新值」

確定

中國礦產資源評價新技術與評價新模型

其中

表示在模式集的所有模式(批學習)上求和的梯度信息，(t)表示t時刻或第t次學習。

權更新遵循規則：如果導數是正(增加誤差)，這個權由它的更新值減少。如果導數是負，更新值增加。

中國礦產資源評價新技術與評價新模型

RPROP演算法是根據局部梯度信息實現權步的直接修改。對於每個權，我們引入它的

各自的更新值

，它獨自確定權更新值的大小。這是基於符號相關的自適應過程，它基

於在誤差函數E上的局部梯度信息，按照以下的學習規則更新

中國礦產資源評價新技術與評價新模型

其中0＜η^-＜1＜η⁺。

在每個時刻，如果目標函數的梯度改變它的符號，它表示最後的更新太大，更新值

應由權更新值減小倍數因子η^-得到減少；如果目標函數的梯度保持它的符號，更新值應由權更新值增大倍數因子η⁺得到增大。

為了減少自由地可調參數的數目，增大倍數因子η⁺和減小倍數因子η^–被設置到固定值

η⁺=1.2，

η^-=0.5，

這兩個值在大量的實踐中得到了很好的效果。

RPROP演算法採用了兩個參數：初始權更新值Δ₀和最大權更新值Δ_max

當學習開始時，所有的更新值被設置為初始值Δ₀，因為它直接確定了前面權步的大小，它應該按照權自身的初值進行選擇，例如，Δ₀=0.1(默認設置)。

為了使權不至於變得太大，設置最大權更新值限制Δ_max，默認上界設置為

Δ_max=50.0。

在很多實驗中，發現通過設置最大權更新值Δ_max到相當小的值，例如

Δ_max=1.0。

我們可能達到誤差減小的平滑性能。

5.計算修正權值W、偏差b

第t次學習，權值W、偏差b的的修正公式

W^(t)=W^(t-1)+ΔW^(t)，

b^(t)=b^(t-1)+Δb^(t)，

其中，t為學習次數。

6.BP網路學習成功結束條件每次學習累積誤差平方和

中國礦產資源評價新技術與評價新模型

每次學習平均誤差

中國礦產資源評價新技術與評價新模型

當平均誤差MSE＜ε，BP網路學習成功結束。

7.BP網路應用預測

在應用BP網路時，提供網路輸入給輸入層，應用給定的BP網路及BP網路學習得到的權值W、偏差b，網路輸入經過從輸入層經各隱含層向輸出層的「順傳播」過程，計算出BP網的預測輸出。

8.神經元激活函數f

線性函數

f(x)=x，

f′(x)=1，

f(x)的輸入范圍(-∞，+∞)，輸出范圍(-∞，+∞)。

一般用於輸出層，可使網路輸出任何值。

S型函數S(x)

中國礦產資源評價新技術與評價新模型

f(x)的輸入范圍(-∞，+∞)，輸出范圍(0，1)。

f′(x)=f(x)[1-f(x)]，

f′(x)的輸入范圍(-∞，+∞)，輸出范圍(0，

]。

一般用於隱含層，可使范圍(-∞，+∞)的輸入，變成(0，1)的網路輸出，對較大的輸入，放大系數較小；而對較小的輸入，放大系數較大，所以可用來處理和逼近非線性的輸入/輸出關系。

在用於模式識別時，可用於輸出層，產生逼近於0或1的二值輸出。

雙曲正切S型函數

中國礦產資源評價新技術與評價新模型

f(x)的輸入范圍(-∞，+∞)，輸出范圍(-1，1)。

f′(x)=1-f(x)·f(x)，

f′(x)的輸入范圍(-∞，+∞)，輸出范圍(0，1]。

一般用於隱含層，可使范圍(-∞，+∞)的輸入，變成(-1，1)的網路輸出，對較大的輸入，放大系數較小；而對較小的輸入，放大系數較大，所以可用來處理和逼近非線性的輸入/輸出關系。

階梯函數

類型1

中國礦產資源評價新技術與評價新模型

f(x)的輸入范圍(-∞，+∞)，輸出范圍{0，1}。

f′(x)=0。

類型2

中國礦產資源評價新技術與評價新模型

f(x)的輸入范圍(-∞，+∞)，輸出范圍{-1，1}。

f′(x)=0。

斜坡函數

類型1

中國礦產資源評價新技術與評價新模型

f(x)的輸入范圍(-∞，+∞)，輸出范圍[0，1]。

中國礦產資源評價新技術與評價新模型

f′(x)的輸入范圍(-∞，+∞)，輸出范圍{0，1}。

類型2

中國礦產資源評價新技術與評價新模型

f(x)的輸入范圍(-∞，+∞)，輸出范圍[-1，1]。

中國礦產資源評價新技術與評價新模型

f′(x)的輸入范圍(-∞，+∞)，輸出范圍{0，1}。

三、總體演算法

1.三層BP網路(含輸入層，隱含層，輸出層)權值W、偏差b初始化總體演算法

(1)輸入參數X[N][P]，S₀，S₁，f₁[S₁]，S₂，f₂[S₂]；

(2)計算輸入模式X[N][P]各個變數的最大值，最小值矩陣 X_max[N]，X_min[N]；

(3)隱含層的權值W₁，偏差b₁初始化。

情形1：隱含層激活函數f( )都是雙曲正切S型函數

1)計算輸入模式X[N][P]的每個變數的范圍向量X_rng[N]；

2)計算輸入模式X的每個變數的范圍均值向量X_mid[N]；

3)計算W，b的幅度因子W_mag；

4)產生[-1，1]之間均勻分布的S₀×1維隨機數矩陣R_and[S₁]；

5)產生均值為0，方差為1的正態分布的S₁×S₀維隨機數矩陣Randnr[S₁][S₀]，隨機數范圍大致在[-1，1]；

6)計算W[S₁][S₀]，b[S₁]；

7)計算隱含層的初始化權值W₁[S₁][S₀]；

8)計算隱含層的初始化偏差b₁[S₁]；

9))輸出W₁[S₁][S₀]，b₁[S₁]。

情形2：隱含層激活函數f( )都是S型函數

1)計算輸入模式X[N][P]的每個變數的范圍向量X_rng[N]；

2)計算輸入模式X的每個變數的范圍均值向量X_mid[N]；

3)計算W，b的幅度因子W_mag；

4)產生[-1，1]之間均勻分布的S₀×1維隨機數矩陣R_and[S₁]；

5)產生均值為0，方差為1的正態分布的S₁×S₀維隨機數矩陣R_andnr[S₁][S₀]，隨機數范圍大致在[-1，1]；

6)計算W[S₁][S₀]，b[S₁]；

7)計算隱含層的初始化權值W₁[S₁][S₀]；

8)計算隱含層的初始化偏差b₁[S₁]；

9)輸出W₁[S₁][S₀]，b₁[S₁]。

情形3：隱含層激活函數f( )為其他函數的情形

1)計算輸入模式X[N][P]的每個變數的范圍向量X_rng[N]；

2)計算輸入模式X的每個變數的范圍均值向量X_mid[N]；

3)計算W，b的幅度因子W_mag；

4)產生[-1，1]之間均勻分布的S₀×1維隨機數矩陣R_and[S₁]；

5)產生均值為0，方差為1的正態分布的S₁×S₀維隨機數矩陣R_andnr[S₁][S₀]，隨機數范圍大致在[-1，1]；

6)計算W[S₁][S₀]，b[S₁]；

7)計算隱含層的初始化權值W₁[S₁][S₀]；

8)計算隱含層的初始化偏差b₁[S₁]；

9)輸出W₁[S₁][S₀]，b₁[S₁]。

(4)輸出層的權值W₂，偏差b₂初始化

1)產生[-1，1]之間均勻分布的S₂×S₁維隨機數矩陣W₂[S₂][S₁]；

2)產生[-1，1]之間均勻分布的S₂×1維隨機數矩陣b₂[S₂]；

3)輸出W₂[S₂][S₁]，b₂[S₂]。

2.應用彈性BP演算法(RPROP)學習三層BP網路(含輸入層，隱含層，輸出層)權值W、偏差b總體演算法

函數：Train3BP_RPROP(S₀，X，P，S₁，W₁，b₁，f₁，S₂，W₂，b₂，f₂，d，TP)

(1)輸入參數

P對模式(x_p，d_p)，p=1，2，…，P；

三層BP網路結構；

學習參數。

(2)學習初始化

；

2)各層W，b的梯度值

，

初始化為零矩陣。

(3)由輸入模式X求第一次學習各層輸出y₀，y₁，y₂及第一次學習平均誤差MSE

(4)進入學習循環

epoch=1

(5)判斷每次學習誤差是否達到目標誤差要求

如果MSE＜ϵ，

則，跳出epoch循環，

轉到(12)。

(6)保存第epoch-1次學習產生的各層W，b的梯度值

，

(7)求第epoch次學習各層W，b的梯度值

，

1)求各層誤差反向傳播值δ；

2)求第p次各層W，b的梯度值

，

；

3)求p=1，2，…，P次模式產生的W，b的梯度值

，

的累加。

(8)如果epoch=1，則將第epoch-1次學習的各層W，b的梯度值

，

設為第epoch次學習產生的各層W，b的梯度值

，

。

(9)求各層W，b的更新

1)求權更新值Δ_ij更新；

2)求W，b的權更新值

，

；

3)求第epoch次學習修正後的各層W，b。

(10)用修正後各層W、b，由X求第epoch次學習各層輸出y₀，y₁，y₂及第epoch次學習誤差MSE

(11)epoch=epoch+1，

如果epoch≤MAX_EPOCH，轉到(5)；

否則，轉到(12)。

(12)輸出處理

1)如果MSE＜ε，

則學習達到目標誤差要求，輸出W₁，b₁，W₂，b₂。

2)如果MSE≥ε，

則學習沒有達到目標誤差要求，再次學習。

(13)結束

3.三層BP網路(含輸入層，隱含層，輸出層)預測總體演算法

首先應用Train3lBP_RPROP( )學習三層BP網路(含輸入層，隱含層，輸出層)權值W、偏差b，然後應用三層BP網路(含輸入層，隱含層，輸出層)預測。

函數：Simu3lBP( )。

1)輸入參數：

P個需預測的輸入數據向量x_p，p=1，2，…，P；

三層BP網路結構；

學習得到的各層權值W、偏差b。

2)計算P個需預測的輸入數據向量x_p(p=1，2，…，P)的網路輸出 y₂[S₂][P]，輸出預測結果y₂[S₂][P]。

四、總體演算法流程圖

BP網路總體演算法流程圖見附圖2。

五、數據流圖

BP網數據流圖見附圖1。

六、實例

實例一全國銅礦化探異常數據BP 模型分類

1.全國銅礦化探異常數據准備

在全國銅礦化探數據上用穩健統計學方法選取銅異常下限值33.1，生成全國銅礦化探異常數據。

2.模型數據准備

根據全國銅礦化探異常數據，選取7類33個礦點的化探數據作為模型數據。這7類分別是岩漿岩型銅礦、斑岩型銅礦、矽卡岩型、海相火山型銅礦、陸相火山型銅礦、受變質型銅礦、海相沉積型銅礦，另添加了一類沒有銅異常的模型(表8-1)。

3.測試數據准備

全國化探數據作為測試數據集。

4.BP網路結構

隱層數2，輸入層到輸出層向量維數分別為14，9、5、1。學習率設置為0.9，系統誤差1e-5。沒有動量項。

表8-1 模型數據表

續表

5.計算結果圖

如圖8-2、圖8-3。

圖8-2

圖8-3 全國銅礦礦床類型BP模型分類示意圖

實例二全國金礦礦石量品位數據BP 模型分類

1.模型數據准備

根據全國金礦儲量品位數據，選取4類34個礦床數據作為模型數據，這4類分別是綠岩型金礦、與中酸性浸入岩有關的熱液型金礦、微細浸染型型金礦、火山熱液型金礦(表8-2)。

2.測試數據准備

模型樣本點和部分金礦點金屬量、礦石量、品位數據作為測試數據集。

3.BP網路結構

輸入層為三維，隱層1層，隱層為三維，輸出層為四維，學習率設置為0.8，系統誤差1e-4，迭代次數5000。

表8-2 模型數據

4.計算結果

結果見表8-3、8-4。

表8-3 訓練學習結果

表8-4 預測結果(部分)

續表

全連接神經網路模型圖標

與全連接神經網路模型圖標相關的內容