Dueling Network Architectures for Deep Reinforcement Learning
上圖即為原始網路,下圖為dueling網路 主要的不同點在於--conv攤平後的神經元 分別分成兩邊
上面稱為value network 下面為advantage network ,其實講白化一點就是把state vale 和 action value 都考慮在內
本篇論文用此圖當例子說明為何要分成兩部份去訓練 左圖代表value network 右圖代表advantage network 橘色的部份代表當前網路注意的範圍 至於如何產生的 論文參考[1]
由上圖比較可以發現 value network 在意的是遠方出現的車 而advantage network 完全不在意 但是環境如果換成下面這個 由圖可以很明顯發現advantage network 在意的是附近出現的車輛而value network 雖然也有觀察到附近的車但是由圖顏色仍然可以比較出來 遠方的橘色範圍比較大而且顏色也比較深 說明value network 還是比較重視遠方車的
這系統就好像我們的人腦一樣 每一塊大腦的功能專注於某一件事 最後大腦要把所有資訊整合做出最後決策 因此我認為這篇paper 又向發現大腦的奧秘更前進一步了 難怪會成為ICML的best paper
這是DeepMind做出與原本DQN的分數比較 每一列代表不同的Atari 遊戲 可以看出效果的確提升很多
下面分析改進方式:
論文前面就有提到 這是個把前人的研究成果 [2] 套到DQN上 所形成的一個新的網路架構 這是Baird 再1993做的研究 他證明出advantage updating 確時收斂的比 Q learning快 根據定義我們可以得到adavantage function 如下
Moreover, it would be wrong to conclude that V (s; θ, β) is a good estimator of the state-value function, or likewise that A(s, a; θ, α) provides a reasonable estimate of the advantage function.
Equation (7) is unidentifiable in the sense that given Q we cannot recover V and A uniquely. To see this, add a constant to V (s; θ, β) and subtract the same constant from A(s, a; θ, α). This constant cancels out resulting in the same Q value. This lack of identifiability is mirrored by poor practical performance when this equation is used directly.
但是這會讓我們產生無法分辨的問題 解決方法如下
To address this issue of identifiability, we can force the advantage function estimator to have zero advantage at the chosen action. That is, we let the last module of the network implement the forward mapping
但是後來實驗發現 改成下面這個結果也都和上面這個公式差不多 因此作者說此篇論文所做出來的實驗都是用下面這個公式
因此全部兜起來 就和DQN一樣 只是找max_q 的話不再只是用最後一層的神經元去找 而是採用倒數第二層的神經元算出來的資訊的max去找
論文中先用小實驗做出 policy evaluation 測試
左圖是一個10個垂直方塊 接50個平行方塊 然後再接10個垂直方塊的 corridor
action 總共有4個 分別是 上下左右 還有一個不動 SE代表square error
可以發現綠色的線的確比較快收斂 10個action 代表隨機塞6個 don’t move 進去action space 中 20個也是一樣的道理 由圖可以發現 愈多action space 效果愈顯著
這是我再https://github.com/devsisters/DQN-tensorflow找的程式
這是他的網路架構
最後執行這行程式
其實令我最驚豔的是這句話
The dueling network automatically produces separate estimates of the state value function and advantage function, without any extra supervision.
而且在後面又講了一次
The estimates V (s; θ, β) and A(s, a; θ, α) are computed automatically without any extra supervision or algorithmic modifi- cations.
竟然會自動產生 state value 和 action value 而且還不用supervise 它 簡直太神奇!!
[1] Simonyan, K., Vedaldi, A., and Zisserman, A. Deep inside convolutional networks: Visualising image classification models and saliency maps. arXiv preprint arXiv:1312.6034, 2013.
[2] Baird, L.C. Advantage updating. Technical Report WLTR-93-1146, Wright-Patterson Air Force Base, 1993.
留言列表