Chap6:Temporal Difference

Learning(TD)

 

TD 概念:每個值都找太麻煩了,為什麼不用走過的經驗去更新就好呢?走過哪裡就收集經驗,然後做更新,鼎鼎有名的Q learning就是TD的一種,走過的經驗我們稱做sample

 

 

這公式前面講概念時就已經推導過了,現在我們只需要把他移項就可以推出TD所需要的公式,只是這裡我們將代號改成V了:

 

接下來將R代換成sample就可以了:

Sample of V(s):

 

Update to V(s):

Combine:

 

就可以得到

接下來舉一個實際例子讓大家了解,如圖總共有5個狀態分別是ABCDE,然後有4個動作分別是上下左右,紅點代表機器人的起始位置(B)。

 

 

起始狀態:

 

執行動作 B-->C 拿到 reward=-2,代入公式可以得到B從0更新到-

 

 

再執行動作 C-->D 拿到 reward=-2,代入公式可以得到C從0更新到3

 

但這又會遇到一個問題,我們知道哪個V比較大了,但是要怎麼代入policy更新呢?

 

 

解決方法,直接更新 Q value就好了,不去更新 V 值,因此

 

V代換為Q

移向後就是維基百科上Q learning的公式了

Q learning 公式如下:

兩者都是Q-learning的公式,只是寫法不同而已

arrow
arrow
    創作者介紹
    創作者 Darwin的AI天地 的頭像
    Darwin的AI天地

    我的小小AI 天地

    Darwin的AI天地 發表在 痞客邦 留言(8) 人氣()