訓練機器跟訓練狗一樣 約翰霍普金斯大學提出正向訓練機器學習方式

2020.10.28 11:15AM
照片中提到了SCORE*,包含了玩具、空中力量、蘋果、2020年國際CES、AirPods

約翰霍普金斯大學提出的機器學習訓練方式為,當機器人做出正確動作或任務時,就會獲得積分作為「獎勵」,而機器人在設計中也加入以獲得高分為目標情況下,就會加快學習正確執行動作效率。

原本需要一個月的訓練時間,可縮短至兩天內完成

位於美國馬里蘭州巴爾的摩的約翰霍普金斯大學近期提出機器學習訓練方式,將用於訓練狗的正向激勵方式促進機器人正確學習效率。

相較傳統訓練狗的方式是透過處罰增加避免犯錯記憶點,目前主流訓練方式則是透過獎勵狗導正其行為,例如乖乖安份等候指令就給予零食獎勵,約翰霍普金斯大學提出的機器學習訓練方式也採用相同模式,亦即當機器人做出正確動作或任務時,就會獲得積分作為「獎勵」,而機器人在設計中也加入以獲得高分為目標情況下,就會加快學習正確執行動作效率。

依照提出此論文作者,同時也是約翰霍普金斯大學博士班學生Andrew Hundt說明,此項理論源自本身教導家裡狗不要追逐松鼠的作法,透過外部導正方式促使機器人更快學習正確動作,將比過往透過錯誤嘗試找到正確方式,能以夠快效率完成機器人訓練。

原本需要一個月時間的訓練時間,在此方式僅需在短短兩天內完成訓練。

不過,目前此訓練方式僅能對應較簡單動作,例如堆放積木,或是路線模擬導航,但預期未來將能對應更複雜的動作訓練。