全連接神經網路計算

發布時間: 2025-03-03 11:14:42

❶ 深度學習之反向傳播演算法(2)——全連接神經網路的BP演算法推導

深度學習之反向傳播演算法(2)——全連接神經網路的BP演算法詳解

在上篇文章中，我們探討了簡化神經網路中反向傳播的基本原理。在實際的多層全連接網路中，反向傳播涉及矩陣操作的擴展，如矩陣偏導、導數累加和維數變換。這些概念可能會因不同的記法和定義而顯得復雜，導致理解困難。為了更直觀地理解，本文將從全連接神經網路的結構開始，一步步推導前饋和反向傳播過程。

1. 符號與數學基礎

- 標量、向量和矩陣的表示遵循一定的規則，如[公式] 代表矩陣的轉置，而[公式] 是矩陣乘法的條件。

- 矩陣求導有分母布局和分子布局兩種形式，通常分母布局更常用。

2. 全連接神經網路

- 網路結構包括輸入層、隱藏層和輸出層，每層之間全連接，權重矩陣[formula] 和偏置向量[formula] 控制信號的傳播。

- 網路參數的數學表達，如[formula]，權重矩陣對應於層間連接。

3. 前饋與正向傳播

- 前向傳播通過權重和偏置矩陣將輸入數據逐層映射至輸出，數學表達為[公式]。

4. 反向傳播與梯度計算

- 對損失函數[formula] 的求導涉及鏈式法則，逐層逆向傳遞梯度。

- 通過遞推公式，計算隱藏層權重矩陣[formula] 和偏置向量[formula] 的梯度，以及輸出層[formula] 和[formula] 的梯度。

- 使用Softmax和Cross Entropy Loss Function時，反向傳播的微分有所不同，但運算量相差不大，但能優化訓練效果。

5. 實現細節

- 舉例說明了鏈式求導的維度變換，以及輸入數據維度對反向傳播的影響。

- 提出了小批量梯度下降（Mini-Batch GD）和隨機梯度下降（SGD）來優化大規模數據訓練。

本文詳細地展示了全連接神經網路中反向傳播演算法的推導過程，接下來會提供補充和代碼實現。

❷ 深度神經網路全連接層

全連接層通常位於網路的後部，用於實現分類輸出。該層包含m個輸入和n個輸出，每個輸出與所有輸入相連接，其連接權重w各不相同，同時每個輸出還包含一個偏差項。

以輸入為4，輸出為4的例子，每個輸出點都對應一個輸入點的參數，共需16個w參數，每個輸出點都有一個b參數，共需4個b參數。

前向全連接的定量分析如下：

算力：[公式] Flops

BPE byte per element

input feature M*bpe

output feature N*bpe

w參數[公式] *bpe

b參數 N*bpe

反向全連接包括兩部分：一是梯度傳遞，已知[公式]，求解[公式]，為前一層參數的梯度求解做准備；二是參數梯度求解，已知[公式]，求解[公式]和[公式]，以獲得參數的更新值。

以輸入為4，輸出為4的例子，每個輸出點都對應一個輸入點的參數，共需16個w參數，每個輸出點都有一個b參數，共需4個b參數。

反向全連接梯度傳遞的過程如下：（根據前向公式和求導法則容易得出）

可以看到weight矩陣進行了轉置，記為[公式] = [公式][公式]

算力為 2MN Flops

參數w梯度求解，已知[公式]，求解[公式]

為[公式]，其中input feature進行了轉置

算力為 MN mul

參數b梯度求解，已知[公式]，求解[公式]

為[公式]，兩者相等

❸ 什麼是全連接神經網路，怎麼理解「全連接」

1、全連接神經網路解析：對n-1層和n層而言，n-1層的任意一個節點，都和第n層所有節點有連接。即第n層的每個節點在進行計算的時候，激活函數的輸入是n-1層所有節點的加權。

2、全連接的神經網路示意圖：

3、「全連接」是一種不錯的模式，但是網路很大的時候，訓練速度回很慢。部分連接就是認為的切斷某兩個節點直接的連接，這樣訓練時計算量大大減小。

閱讀全文

全連接神經網路計算

與全連接神經網路計算相關的內容