人工智慧普適研究中心 PAIR Labs
深度強化式學習技術之應用研究
計畫主持人:吳毅成教授
概要
近年來,深度強化式學習(Deep Reinforcement Learning, DRL)已被應用於許多人工智慧應用問題中。其中一個重大的成果,就是AlphaGo Zero,在本計畫中稱為「Zero技術」,從「零知識」開始學圍棋,超越所有人類棋士以及圍棋AI程式,是突破性的成果。本計畫將聚焦在DRL和Zero技術的五大研究主題:(1)持續研發高段圍棋程式CGI。(2)運用Zero技術研發其他類遊戲AI。(3)結合Zero技術與確切解之研究。(4)研發電玩遊戲的AI bot。(5)研發機器手臂工件夾取技術。
關鍵字
深度強化式學習、強化式學習、深度學習、蒙地卡羅樹搜尋、AlphaGo Zero、電腦對局、圍棋、電玩遊戲、賽車遊戲、機器人、機器手臂工件夾取技術
創新
- 提出一種新的價值網路-多標籤價值網路,能為圍棋遊戲輸出不同貼目下的盤面價值,同時也能降低訓練均方誤差。
- 開發基於蒙地卡羅樹搜尋(MCTS)的棋力調整方法。並進行理論分析,透過使用閾值比率,能夠保證調整後MCTS所選擇的棋步具有一定品質。
- 驗證Zero技術能夠套用於非確定性遊戲,開發2×4中國暗棋Zero程式。
- 提出雙曲正切衰減學習率調整機制,可應用於隨機梯度下降(SGD)訓練。
- 提出狀態離散化方法,可以對環境變化的感知進行離散化,並生成狀態轉移圖。
- 發展新的權重交叉熵方法,在機器手臂夾取任務中可以達到近100%的成功率(DDPG僅70%)。
- 開發新的end-to-end混合動作空間DRL方法-參數化近端策略優化,應用於機械手臂夾取與推送任務,可大幅提升成功率至99%。
效益
- 透過結合多標籤價值網路與CGI圍棋程式,此計畫開發了世界上第一個在不同貼目下皆能對弈的圍棋程式,此結果已發表於IEEE Transactions on Games。
- 開發圍棋終身學習系統,是世界上第一個能夠提供不同等級(從初學者到超越職業棋士)的電腦圍棋系統。此結果參加2018未來科技展,並且發表於頂級會議AAAI-19(錄取率僅為1,150 / 7,095 = 16.2%)。
- 本研究開發的2×4中國暗棋Zero程式為世界上第一個隨機遊戲Zero程式,該篇論文也獲得TAAI 2018國際會議的最佳論文獎。
- 雙曲正切衰減(Hyperbolic-Tangent Decay)的論文已發表於IEEE WACV 2019會議。
- 研發分散式end-to-end DRL演算法並成功應用於產學合作計畫,發展賽車遊戲,並取得超過最頂尖測試玩家之表現。
- 發展狀態離散化方法,預計將可應用於許多DRL研究。
- 參數化近端策略優化發表於NeurIPS 2018會議的Infer2Control Workshop。