全連接網路層數與神經元個數設置_神經網路：卷積神經網路（CNN）

1. 神經網路：卷積神經網路（CNN）

神經網路最早是由心理學家和神經學家提出的，旨在尋求開發和測試神經的計算模擬。

粗略地說，神經網路是一組連接的輸入/輸出單元，其中每個連接都與一個權相關聯。在學習階段，通過調整權值，使得神經網路的預測准確性逐步提高。由於單元之間的連接，神經網路學習又稱連接者學習。

神經網路是以模擬人腦神經元的數學模型為基礎而建立的，它由一系列神經元組成，單元之間彼此連接。從信息處理角度看，神經元可以看作是一個多輸入單輸出的信息處理單元，根據神經元的特性和功能，可以把神經元抽象成一個簡單的數學模型。

神經網路有三個要素：拓撲結構、連接方式、學習規則

神經網路的拓撲結構：神經網路的單元通常按照層次排列，根據網路的層次數，可以將神經網路分為單層神經網路、兩層神經網路、三層神經網路等。結構簡單的神經網路，在學習時收斂的速度快，但准確度低。

神經網路的層數和每層的單元數由問題的復雜程度而定。問題越復雜，神經網路的層數就越多。例如，兩層神經網路常用來解決線性問題，而多層網路就可以解決多元非線性問題

神經網路的連接：包括層次之間的連接和每一層內部的連接，連接的強度用權來表示。

根據層次之間的連接方式，分為：

1）前饋式網路：連接是單向的，上層單元的輸出是下層單元的輸入，如反向傳播網路，Kohonen網路

2）反饋式網路：除了單項的連接外，還把最後一層單元的輸出作為第一層單元的輸入，如Hopfield網路

根據連接的范圍，分為：

1）全連接神經網路：每個單元和相鄰層上的所有單元相連

2）局部連接網路：每個單元只和相鄰層上的部分單元相連

神經網路的學習

根據學習方法分：

感知器：有監督的學習方法，訓練樣本的類別是已知的，並在學習的過程中指導模型的訓練

認知器：無監督的學習方法，訓練樣本類別未知，各單元通過競爭學習。

根據學習時間分：

離線網路：學習過程和使用過程是獨立的

在線網路：學習過程和使用過程是同時進行的

根據學習規則分：

相關學習網路：根據連接間的激活水平改變權系數

糾錯學習網路：根據輸出單元的外部反饋改變權系數

自組織學習網路：對輸入進行自適應地學習

摘自《數學之美》對人工神經網路的通俗理解：

神經網路種類很多，常用的有如下四種：

1）Hopfield網路，典型的反饋網路，結構單層，有相同的單元組成

2）反向傳播網路，前饋網路，結構多層，採用最小均方差的糾錯學習規則，常用於語言識別和分類等問題

3）Kohonen網路：典型的自組織網路，由輸入層和輸出層構成，全連接

4）ART網路：自組織網路

深度神經網路：

Convolutional Neural Networks(CNN)卷積神經網路

Recurrent neural Network(RNN)循環神經網路

Deep Belief Networks(DBN)深度信念網路

深度學習是指多層神經網路上運用各種機器學習演算法解決圖像，文本等各種問題的演算法集合。深度學習從大類上可以歸入神經網路，不過在具體實現上有許多變化。

深度學習的核心是特徵學習，旨在通過分層網路獲取分層次的特徵信息，從而解決以往需要人工設計特徵的重要難題。

Machine Learning vs. Deep Learning

神經網路（主要是感知器）經常用於分類

神經網路的分類知識體現在網路連接上，被隱式地存儲在連接的權值中。

神經網路的學習就是通過迭代演算法，對權值逐步修改的優化過程，學習的目標就是通過改變權值使訓練集的樣本都能被正確分類。

神經網路特別適用於下列情況的分類問題：

1) 數據量比較小，缺少足夠的樣本建立模型

2) 數據的結構難以用傳統的統計方法來描述

3) 分類模型難以表示為傳統的統計模型

缺點：

1) 需要很長的訓練時間，因而對於有足夠長訓練時間的應用更合適。

2) 需要大量的參數，這些通常主要靠經驗確定，如網路拓撲或「結構」。

3) 可解釋性差。該特點使得神經網路在數據挖掘的初期並不看好。

優點：

1) 分類的准確度高

2)並行分布處理能力強

3)分布存儲及學習能力高

4)對噪音數據有很強的魯棒性和容錯能力

最流行的基於神經網路的分類演算法是80年代提出的後向傳播演算法。後向傳播演算法在多路前饋神經網路上學習。

定義網路拓撲

在開始訓練之前，用戶必須說明輸入層的單元數、隱藏層數（如果多於一層）、每一隱藏層的單元數和輸出層的單元數，以確定網路拓撲。

對訓練樣本中每個屬性的值進行規格化將有助於加快學習過程。通常，對輸入值規格化，使得它們落入0.0和1.0之間。

離散值屬性可以重新編碼，使得每個域值一個輸入單元。例如，如果屬性A的定義域為(a0,a1,a2)，則可以分配三個輸入單元表示A。即，我們可以用I0 ,I1 ,I2作為輸入單元。每個單元初始化為0。如果A = a0，則I0置為1；如果A = a1，I1置1；如此下去。

一個輸出單元可以用來表示兩個類（值1代表一個類，而值0代表另一個）。如果多於兩個類，則每個類使用一個輸出單元。

隱藏層單元數設多少個「最好」，沒有明確的規則。

網路設計是一個實驗過程，並可能影響准確性。權的初值也可能影響准確性。如果某個經過訓練的網路的准確率太低，則通常需要採用不同的網路拓撲或使用不同的初始權值，重復進行訓練。

後向傳播演算法學習過程：

迭代地處理一組訓練樣本，將每個樣本的網路預測與實際的類標號比較。

每次迭代後，修改權值，使得網路預測和實際類之間的均方差最小。

這種修改「後向」進行。即，由輸出層，經由每個隱藏層，到第一個隱藏層（因此稱作後向傳播）。盡管不能保證，一般地，權將最終收斂，學習過程停止。

演算法終止條件：訓練集中被正確分類的樣本達到一定的比例，或者權系數趨近穩定。

後向傳播演算法分為如下幾步：

1) 初始化權

網路的權通常被初始化為很小的隨機數（例如，范圍從-1.0到1.0，或從-0.5到0.5）。

每個單元都設有一個偏置（bias），偏置也被初始化為小隨機數。

2) 向前傳播輸入

對於每一個樣本X，重復下面兩步：

向前傳播輸入，向後傳播誤差

計算各層每個單元的輸入和輸出。輸入層：輸出=輸入=樣本X的屬性；即，對於單元j，Oj = Ij = Xj。隱藏層和輸出層：輸入=前一層的輸出的線性組合,即，對於單元j， Ij =wij Oi + θj，輸出=

3) 向後傳播誤差

計算各層每個單元的誤差。

輸出層單元j，誤差：

Oj是單元j的實際輸出，而Tj是j的真正輸出。

隱藏層單元j，誤差：

wjk是由j到下一層中單元k的連接的權，Errk是單元k的誤差

更新權和偏差，以反映傳播的誤差。

權由下式更新：

其中，△wij是權wij的改變。l是學習率，通常取0和1之間的值。

偏置由下式更新：

其中，△θj是偏置θj的改變。

Example

人類視覺原理：

深度學習的許多研究成果，離不開對大腦認知原理的研究，尤其是視覺原理的研究。1981 年的諾貝爾醫學獎，頒發給了 David Hubel（出生於加拿大的美國神經生物學家）和Torsten Wiesel，以及Roger Sperry。前兩位的主要貢獻，是「發現了視覺系統的信息處理」，可視皮層是分級的。

人類的視覺原理如下：從原始信號攝入開始（瞳孔攝入像素Pixels），接著做初步處理（大腦皮層某些細胞發現邊緣和方向），然後抽象（大腦判定，眼前的物體的形狀，是圓形的），然後進一步抽象（大腦進一步判定該物體是只氣球）。

對於不同的物體，人類視覺也是通過這樣逐層分級，來進行認知的：

在最底層特徵基本上是類似的，就是各種邊緣，越往上，越能提取出此類物體的一些特徵（輪子、眼睛、軀乾等），到最上層，不同的高級特徵最終組合成相應的圖像，從而能夠讓人類准確的區分不同的物體。

可以很自然的想到：可以不可以模仿人類大腦的這個特點，構造多層的神經網路，較低層的識別初級的圖像特徵，若干底層特徵組成更上一層特徵，最終通過多個層級的組合，最終在頂層做出分類呢？答案是肯定的，這也是許多深度學習演算法（包括CNN）的靈感來源。

卷積神經網路是一種多層神經網路，擅長處理圖像特別是大圖像的相關機器學習問題。卷積網路通過一系列方法，成功將數據量龐大的圖像識別問題不斷降維，最終使其能夠被訓練。

CNN最早由Yann LeCun提出並應用在手寫字體識別上。LeCun提出的網路稱為LeNet，其網路結構如下：

這是一個最典型的卷積網路，由卷積層、池化層、全連接層組成。其中卷積層與池化層配合，組成多個卷積組，逐層提取特徵，最終通過若干個全連接層完成分類。

CNN通過卷積來模擬特徵區分，並且通過卷積的權值共享及池化，來降低網路參數的數量級，最後通過傳統神經網路完成分類等任務。

降低參數量級：如果使用傳統神經網路方式，對一張圖片進行分類，那麼，把圖片的每個像素都連接到隱藏層節點上，對於一張1000x1000像素的圖片，如果有1M隱藏層單元，一共有10^12個參數，這顯然是不能接受的。

但是在CNN里，可以大大減少參數個數，基於以下兩個假設：

1）最底層特徵都是局部性的，也就是說，用10x10這樣大小的過濾器就能表示邊緣等底層特徵

2）圖像上不同小片段，以及不同圖像上的小片段的特徵是類似的，也就是說，能用同樣的一組分類器來描述各種各樣不同的圖像

基於以上兩個假設，就能把第一層網路結構簡化

用100個10x10的小過濾器，就能夠描述整幅圖片上的底層特徵。

卷積運算的定義如下圖所示：

如上圖所示，一個5x5的圖像，用一個3x3的卷積核：

   101

   010

   101

來對圖像進行卷積操作（可以理解為有一個滑動窗口，把卷積核與對應的圖像像素做乘積然後求和），得到了3x3的卷積結果。

這個過程可以理解為使用一個過濾器（卷積核）來過濾圖像的各個小區域，從而得到這些小區域的特徵值。在實際訓練過程中，卷積核的值是在學習過程中學到的。

在具體應用中，往往有多個卷積核，可以認為，每個卷積核代表了一種圖像模式，如果某個圖像塊與此卷積核卷積出的值大，則認為此圖像塊十分接近於此卷積核。如果設計了6個卷積核，可以理解為這個圖像上有6種底層紋理模式，也就是用6種基礎模式就能描繪出一副圖像。以下就是24種不同的卷積核的示例：

池化的過程如下圖所示：

可以看到，原始圖片是20x20的，對其進行采樣，采樣窗口為10x10，最終將其采樣成為一個2x2大小的特徵圖。

之所以這么做，是因為即使做完了卷積，圖像仍然很大（因為卷積核比較小），所以為了降低數據維度，就進行采樣。

即使減少了許多數據，特徵的統計屬性仍能夠描述圖像，而且由於降低了數據維度，有效地避免了過擬合。

在實際應用中，分為最大值采樣（Max-Pooling）與平均值采樣（Mean-Pooling）。

LeNet網路結構：

注意，上圖中S2與C3的連接方式並不是全連接，而是部分連接。最後，通過全連接層C5、F6得到10個輸出，對應10個數字的概率。

卷積神經網路的訓練過程與傳統神經網路類似，也是參照了反向傳播演算法

第一階段，向前傳播階段：

a）從樣本集中取一個樣本(X,Yp)，將X輸入網路；

b）計算相應的實際輸出Op

第二階段，向後傳播階段

a）計算實際輸出Op與相應的理想輸出Yp的差；

b）按極小化誤差的方法反向傳播調整權矩陣。

全連接網路層數與神經元個數設置

與全連接網路層數與神經元個數設置相關的內容