Convolutional Neural Net 筆記

更改版本：

２０１６／１１／１６　初版

２０１６／１２／１６　感謝rxliu同學提供的資料，讓我更清楚ＣＮＮ的完整架構

本文公式推導來自於 [1] Notes on Convolutional Neural Networks，以及眾多參考資料 [6] [7] ，小編將他們統整起來，並給出一個範例code實作，將公式與程式對照起來，希望能給剛接觸CNN的人一點參考，code是摘自網路上的 [8] Matlab Deep Learning Toolbox，如果看不懂的話也已經有人對code做了精闢的解說 [9]，相信仔細閱讀的話能有不少收穫。

概念介紹:

CNN網路是近年才發展起來的，早在1980年，Fukushima就做出了第一代CNN網路[2] Neocognitron，但當時效果還不是很好，經過後人不斷的研究改進後才慢慢演變成為今日的CNN網路，CNN網路最初的構想是來自於Hubel, Wiesel在1962年發表的 [3] 論文，他們把探針放到貓腦中特定的神經元細胞上，發現該神經元細胞對特定角度的直線有反應，不管是粗的或是細的。例如某顆神經元對傾斜45度的直線會激發，不管他們選擇粗的線或是細的線又或是在螢幕上的不同位置，他們發現只要將直線傾斜45度就會激發，當然他們也發現到其他角度的神經元。

而在後來的研究中發現不只存在這種偵測特定角度神經元存在，連高階特徵神經元也存在，例如偵測人臉神經元，且他們位於大腦的不同區域，低階神經元位於大腦視覺處理的V1區，相關資料可參考 [4] [5]。

CNN正是模仿人腦的這種架構產生出來的，由底層一層一層的學習低階特徵，再慢慢地由低階特徵組合出高階特徵去學，如下圖。

CNN主要由兩種網路架構所組成，一種是convolution layer，另一種是subsampling layer，最後一層就是把subsampling layer攤開，稱為full connected layer。

關於我為什麼會對CNN有興趣是從一個TED影片開始的，我很喜歡看TED影片，裡面都會分享很多最新的科技，像這則就是講如何利用AI技術一步一步的訓練電腦經由圖片然後就可以產生出一個通順有理的句子，背後的功臣就是要感謝CNN，當時我還不知道上台演講的人是誰，後來慢慢接觸才知道原來她是大咖教授李飛飛，看完全身真的是起雞皮疙瘩，AI簡直太強了，更不用說後面Google拿 CNN去做 Alpha GO學下圍棋的事情，因此我下定決心要探究這塊領域。

關於CNN的更多基礎概念可以先參考 [6]，網路上也有許多其他的資源可供參考，本文著重於更實際的例子以及實現方式，要懂CNN的推導必須先懂傳統類神經的推導方式。

如果不懂類神經的可以看這篇由小編從頭到尾鉅細靡遺的講解推導類神經文章: 類神經推導

已知類神經數學推導:

上面為已知的類神經數學公式

第一行:表示 Error 是等於樣本t與輸出y的方均跟差

第二行:表示類神經的組合公式，後一層的輸出x(L)等於前一層的輸出乘以Weight+bias，然後再挑選一個適當的激活函數當f()

第三行:表示Error對 bias的微分直接等於 Error對u的微分，因為u對bias的微分為1

第四、五行:是類神經網路中最重要的精神，即這一層的敏感度(L)是後面那層的敏感度(L+1) 傳過來然後乘以W(L+1)最後再乘以輸出對輸入的微分

第六行:表示 Error 對 W的微分等於敏感度乘以前一層的輸出

Forward mapping:

第一層卷積層:

關於卷積過程大家可以看 Stanford 推出的 [10] UFIDL(Unsupervised Feature Learning and Deep Learning)，裡面有動畫介紹。

第一層sub層:

全連接層:

全連接層和以前的類神經一樣，差別就只在於把前面的捲積層神經元攤開，假如前面的size是 20*20 ，那麼到全連階層就是 400顆神經元排列在前方。

Backward mapping:

接下來的推導過程我都會放一個實際的例子，下面擺公式以及matlab實現的代碼，方便大家對照，matlab代碼是參考github上大牛寫的 [8] Deeplearning Toolbox，真心推薦想理解DL的人可以從詳讀這個代碼開始，小編也是從這份代碼開始學起的，如果看不懂的話也有人整理出 [9] 筆記出來可以參考看看。其實小編也還不完全了解CNN，裡面有的數學甚是繁雜，小編也是從網路上拼拼湊湊才整理出這份資料，如果有大師看到什麼錯誤的地方，還望您不吝惜指教。

從最後一層傳到sub層（S2）:

這邊解釋一下為什麼實現f微分的方式為o*(1-o)，假如你的激發函數選擇sigmoid函數也就是1/(1+e-x)，假設y=1/(1+e-x)，

所以我們如果要求F的微分的話，我們只要把輸出*(1-輸出)就代表F的微分，現在我們假設已知網路最後面的誤差，根據公式，要算出前一層的敏感度就是算出當層的敏感度，然後乘上weight係數再乘以函數對輸入的微分，最後一層的敏感度就直接是樣本誤差，而如果我們選的f()為 sigmoid函數的話，那麼 f’(u)可以表示為輸出 o*(1-o)，至此，前面一層的敏感度就出來了。