Dueling Network Architectures for Deep Reinforcement Learning 讀後筆記－我的小小AI 天地

Dueling Network Architectures for Deep Reinforcement Learning

上圖即為原始網路,下圖為dueling網路主要的不同點在於--conv攤平後的神經元分別分成兩邊

上面稱為value network 下面為advantage network ,其實講白化一點就是把state vale 和 action value 都考慮在內

本篇論文用此圖當例子說明為何要分成兩部份去訓練左圖代表value network 右圖代表advantage network 橘色的部份代表當前網路注意的範圍至於如何產生的論文參考[1]

由上圖比較可以發現 value network 在意的是遠方出現的車而advantage network 完全不在意 但是環境如果換成下面這個由圖可以很明顯發現advantage network 在意的是附近出現的車輛而value network 雖然也有觀察到附近的車但是由圖顏色仍然可以比較出來遠方的橘色範圍比較大而且顏色也比較深說明value network 還是比較重視遠方車的

這系統就好像我們的人腦一樣每一塊大腦的功能專注於某一件事最後大腦要把所有資訊整合做出最後決策因此我認為這篇paper 又向發現大腦的奧秘更前進一步了難怪會成為ICML的best paper

這是DeepMind做出與原本DQN的分數比較每一列代表不同的Atari 遊戲可以看出效果的確提升很多

下面分析改進方式:

論文前面就有提到這是個把前人的研究成果 [2] 套到DQN上所形成的一個新的網路架構這是Baird 再1993做的研究他證明出advantage updating 確時收斂的比 Q learning快根據定義我們可以得到adavantage function 如下

Moreover, it would be wrong to conclude that V (s; θ, β) is a good estimator of the state-value function, or likewise that A(s, a; θ, α) provides a reasonable estimate of the advantage function.

Equation (7) is unidentifiable in the sense that given Q we cannot recover V and A uniquely. To see this, add a constant to V (s; θ, β) and subtract the same constant from A(s, a; θ, α). This constant cancels out resulting in the same Q value. This lack of identifiability is mirrored by poor practical performance when this equation is used directly.

但是這會讓我們產生無法分辨的問題解決方法如下

To address this issue of identifiability, we can force the advantage function estimator to have zero advantage at the chosen action. That is, we let the last module of the network implement the forward mapping

但是後來實驗發現改成下面這個結果也都和上面這個公式差不多因此作者說此篇論文所做出來的實驗都是用下面這個公式

因此全部兜起來就和DQN一樣只是找max_q 的話不再只是用最後一層的神經元去找而是採用倒數第二層的神經元算出來的資訊的max去找

論文中先用小實驗做出 policy evaluation 測試

左圖是一個10個垂直方塊接50個平行方塊然後再接10個垂直方塊的 corridor

action 總共有4個分別是上下左右還有一個不動 SE代表square error

可以發現綠色的線的確比較快收斂 10個action 代表隨機塞6個 don’t move 進去action space 中 20個也是一樣的道理由圖可以發現愈多action space 效果愈顯著

這是我再https://github.com/devsisters/DQN-tensorflow找的程式

這是他的網路架構

最後執行這行程式

其實令我最驚豔的是這句話

The dueling network automatically produces separate estimates of the state value function and advantage function, without any extra supervision.

而且在後面又講了一次

The estimates V (s; θ, β) and A(s, a; θ, α) are computed automatically without any extra supervision or algorithmic modifi- cations.

竟然會自動產生 state value 和 action value 而且還不用supervise 它簡直太神奇！！

[1] Simonyan, K., Vedaldi, A., and Zisserman, A. Deep inside convolutional networks: Visualising image classification models and saliency maps. arXiv preprint arXiv:1312.6034, 2013.

[2] Baird, L.C. Advantage updating. Technical Report WLTR-93-1146, Wright-Patterson Air Force Base, 1993.

Dueling Network

Darwin的AI天地

我的小小AI 天地

Darwin的AI天地發表在痞客邦留言(1) 人氣()

E-mail轉寄

我的小小AI 天地

目前此網站已經不太更新囉，為了給讀者更好的閱讀環境小編決定自己架設網站供讀者閱讀，新網站網址 https://easylearnai.com/

Dueling Network Architectures for Deep Reinforcement Learning 讀後筆記

留言列表

活動快報

【船井...

我的好友

熱門文章

文章分類

最新文章

最新留言

動態訂閱

文章精選

文章搜尋

新聞交換(RSS)

誰來我家

參觀人氣

QR Code

POWERED BY

站方公告

我的小小AI 天地

目前此網站已經不太更新囉，為了給讀者更好的閱讀環境 小編決定自己架設網站供讀者閱讀，新網站網址 https://easylearnai.com/

Dueling Network Architectures for Deep Reinforcement Learning 讀後筆記

留言列表

活動快報

【船井...

我的好友

熱門文章

文章分類

最新文章

最新留言

動態訂閱

文章精選

文章搜尋

新聞交換(RSS)

誰來我家

參觀人氣

QR Code

POWERED BY

站方公告

目前此網站已經不太更新囉，為了給讀者更好的閱讀環境小編決定自己架設網站供讀者閱讀，新網站網址 https://easylearnai.com/