Chap6:Temporal Difference
Learning(TD)
TD 概念:每個值都找太麻煩了,為什麼不用走過的經驗去更新就好呢?走過哪裡就收集經驗,然後做更新,鼎鼎有名的Q learning就是TD的一種,走過的經驗我們稱做sample。
這公式前面講概念時就已經推導過了,現在我們只需要把他移項就可以推出TD所需要的公式,只是這裡我們將代號改成V了:
接下來將R代換成sample就可以了:
Sample of V(s):
Update to V(s):
Combine:
就可以得到
接下來舉一個實際例子讓大家了解,如圖總共有5個狀態分別是ABCDE,然後有4個動作分別是上下左右,紅點代表機器人的起始位置(B)。
起始狀態:
執行動作 B-->C 拿到 reward=-2,代入公式可以得到B從0更新到-1
再執行動作 C-->D 拿到 reward=-2,代入公式可以得到C從0更新到3
但這又會遇到一個問題,我們知道哪個V比較大了,但是要怎麼代入policy更新呢?
解決方法,直接更新 Q value就好了,不去更新 V 值,因此
將V代換為Q:
移向後就是維基百科上Q learning的公式了
Q learning 公式如下:
兩者都是Q-learning的公式,只是寫法不同而已
文章標籤
全站熱搜
留言列表