【PAIR專訪】從圍棋到電玩，AI將如何走入真實世界？專訪交大資工系吳毅成教授

作者: 人工智慧普適研究中心撰稿
(如欲刊登或引用文章，請事先與我們聯繫取得授權，謝謝!)

20世紀以來，電腦遊戲(Computer game)就一直被視為AI的果蠅，意思是如果想要深入研究AI技術，電腦遊戲會是人工智慧最佳的縮影。棋局多變、難度極高的電腦圍棋更被視為AI的挑戰，打敗職業棋士一直是圍棋程式開發者的終極目標。

2016年，AlphaGo擊敗韓國最強棋士李世石之後，AI頓時成了全世界的最熱門關鍵字，關於AI的產業應用以及哲學思辨如雨後春筍般冒出；然而AlphaGo的問世，宣告的不僅是程式打敗人類的結果，其研究方法與技術才是接下來加速全球產業革新的關鍵，圍棋只是AI顛覆世界的起點。

國內從事電腦遊戲研究的知名學者吳毅成教授，是台灣在AI領域最具指標性的學者之一。吳毅成教授目前正在參與科技部AI研究計畫「深度強化式學習技術之應用研究」，該研究聚焦在AI如何從虛擬環境走入真實世界的應用，透過本次專訪，大眾將有機會深入了解吳毅成對於AI未來趨勢的見解，以及他在深度強化式學習技術的三種應用研究。

圖一: 吳毅成教授於2019 AI創新研究中心國際研討會。(圖片來源:科技部)

首先，什麼是深度強化式學習(DRL)？

深度強化式學習(Deep Reinforcement Learning; DRL)是深度學習(DL)與強化式學習(RL)的結合，兩者同屬於機器學習(ML)領域的技術。如果說人工智慧是模擬人的大腦運作，深度學習就如同視覺感知，如學習辨識物件，而強化式學習則是學習決策布局，深度強化式學習整合兩者，學習感知以及其後之決策。

過去單純的強化式學習，需要仰賴人為編寫規則或繁複工具才能獲取訓練特徵，例如傳統西洋棋需要辨識優劣棋型，必須先經過研究分析等步驟，並利用演算法歸納出棋型特徵，再透過獎懲機制強化電腦的認知，以做出最佳的決策。

而深度學習則是具備自動抓取特徵的能力。例如辨別貓狗的問題，只要餵給電腦大量的圖片，深度學習技術就能自動分類出屬於貓或狗的特徵，相當於一顆擁有超強記憶力的「高級人腦」。由於這個學習過程需要相當強大的運算單元來支持，因此深度學習是到近十年硬體設備有了明顯升級，才開始爆炸性的成長。

2016年AlphaGo就是結合這兩種技術(DL+RL=DRL)，先利用深度學習技術分析與模仿人類棋譜，判別棋型與局勢優劣，而後再加入強化式學習的訓練，並結合一項重要的強化式學習方法——蒙地卡羅樹搜尋法來創新招數，因而獲致打敗世界最強職業棋士的重大成果。

聚焦於探索更泛化的人工智慧(Artificial General Intelligence)，2017年AlphaGo的開發團隊Deepmind進一步在《Nature》期刊發表AlphaGo Zero，採用更進階的DRL技術，訓練程式從「零知識」開始學圍棋，過程無需人類專家的棋譜資料，AlphaGo Zero靠著「自己打自己」學習得勝策略，實力直接超越所有人類棋士和圍棋AI，包括AlphaGo。

這套從圍棋程式中發展出的「自學技術」，已經不再侷限於圍棋，AlphaGo Zero的進階版AlphaZero甚至延伸到其他如西洋棋、將棋等棋類，同樣透過自學取得頂尖成績，這樣的結果不僅開啟學界對DRL技術的研究熱潮，同時也預告未來AI將更有機會應用於多方領域，走向產業化的發展。

DRL應用類型一：持續精進演算法，延伸圍棋教學應用

過去由吳毅成領軍的電腦遊戲與智慧實驗室(Computer Games and Intelligence Lab，簡稱CGI Lab )曾在2017年7月IEEE FUZZ國際會議舉辦的人機圍棋賽中，以圍棋程式「CGI」(全名CGI Go Intelligence)打敗紅面棋王周俊勳，成為第一個在正式的人機賽中打敗職業九段棋士的學界程式。一個月後，CGI在世界智能圍棋公開賽中擊敗中國騰訊公司的絕藝、日本DeepZenGo等知名AI，獲得預賽全勝冠軍、決賽亞軍的好成績，成為該場比賽的注目焦點。

圖二: 吳毅成與學生吳迪融參加2017年世界智能圍棋賽之照片。(圖片來源:翻攝自新浪體育)

與其他投入大量計算資源的企業相比，學界程式能獲得如此成績很不容易，而CGI靠得就是持續開發新方法來精進演算法，以減少計算資源的消耗。吳毅成提到，在這次「深度強化式學習技術之應用研究」中，他將研究主軸依應用環境分成三類，第一類就是以DRL技術持續精進CGI的演算法，同時延伸至圍棋的教學應用。

2017年在世界智能賽獲得亞軍之後，吳毅成與國內知名的海峰棋院以及職業棋士合作，藉由CGI程式輔助棋士的對弈訓練，並且進一步研發出「圍棋終身學習系統」，在2018年科技部主辦的「未來科技展」中獲得相當高的人氣。該技術論文更被AI領域極具權威的會議AAAI-19所接受，顯示國際學術社群也相當肯定這項研究。

吳毅成表示，這個想法是在與「海峰棋院精銳隊總教練」周俊勳棋王交流時誕生的。當時周俊勳提到一個狀況，如果棋士實際上棋力有進步，但與AI對弈的過程中卻還是輸了，那麼對棋士來說就會變成一個困擾：他們沒辦法知道自己棋力程度。即便有很強的圍棋程式，甚至出現更強的，其實對棋士而言沒有辦法分出強度的變化。

「所以如果能有一個棋力跟他們差不多的程式，說不定就可以讓棋士抓到那個感覺」吳毅成說。這項從使用者回饋而來的建議，讓團隊開始鑽研動態調整棋力的技術，因此開發出多達40種棋力、從初學到職業棋士等級都有的圍棋教學系統，使用者可以根據棋力選擇適合的等級來玩，同時程式也會在過程中自動檢測對手棋力強度，以提供棋士客製化的訓練。

這款圍棋教學系統最大的意義，在於AI從打敗人類棋士的里程碑，躍升至教學相長的層次。即使現在圍棋AI已經無人能敵，但人類仍未完全理解AI為什麼這樣下，甚至有些棋譜是人類未曾看過的；藉由AI來教人類，一方面將能協助棋士挑戰更強的對手，一方面也能幫助人類更加理解AI的決策邏輯。

圖三: 2018年未來科技展中，紅面棋王周俊勳和吳毅成團隊所研發的「圍棋終身學習系統」進行對弈之畫面。 (圖片來源:交通大學)

今年2月，吳毅成再度刊登論文於AAAI-20，發表團隊改良AlphaZero的新方法，是一種叫做「PBT」(Population Based Training)的方法。過去AlphaZero主要以自我對弈，如同金庸小說裡的周伯通「左手打右手」的方式完成訓練，過程相當耗費運算資源。對此吳毅成表示：「我們學校跟大公司比，相對來說沒有那麼多的資源，所以我們希望能夠提出一些新的想法，而不是單純按照AlphaZero的做法去訓練，因為這樣子我們永遠追不上別人」。

這次改良的新方法，就是想看能否不只有左手打右手，而是像一個「武林大賽」一樣，同時訓練十多組程式隨機互打，以此獲得更好的訓練成果。比起自己打自己，與不同人互打更容易發現程式的盲點，實驗證明此方法確實能讓CGI棋力大幅提升，對Facebook的FAIR研究中心所研發的OpenGo圍棋程式的勝率從原來的47%提升到74%，大幅超越OpenGo，而OpenGo圍棋程式是當時同規格的最強開源圍棋程式。

PBT方法的另一個好處，是超參數(hyperparameters)可以在「武林大賽」後自我調整，而自我對打的棋譜數量卻無需增多，因此運算可以維持穩定數量。比起自己打自己的傳統方法，大都必須分別用很多不同超參數組合來訓練，因此與其他發展團隊相比，PBT方法可省下將近10倍以上的計算資源。節省大筆經費支出之外，同時還能增強棋力，是相當創新且實用的做法，對未來其他應用問題也提供很重要的參考。

不斷加強演算法的背後，吳毅成心中仍有一個清楚的目標，他希望這些研究出的新方法，能夠實際幫助到生活中的應用問題。因此在圍棋之後，他的下一步決定投入當前AI熱門話題─電玩遊戲AI Bot的研發。

DRL應用類型二：強度夠強、行為像人的電玩遊戲AI Bot

早在AlphaGo問世之前，2013年DeepMind已在《Nature》期刊發表使用DRL技術教電腦玩Atari遊戲的論文，並推出名為Deep Q Network (DQN)的新演算法，可說是電玩AI機器人(AI Bot)的開山始祖。

DeepMind展示以DQN技術訓練AI玩Atari遊戲的突破。(影片來源:YouTube)

在電玩遊戲中，由於玩家訊息來自畫面且移動自由性高次數更多，因此相較於圍棋、西洋棋的維度高出許多，這使得設計的難度更高。近年隨著軟硬體各方面技術的提升，電玩AI研究屢創佳績，例如2019年4月，由馬斯克所創立的OpenAI研究團隊，在堪稱最複雜的戰略遊戲《Dota》2中，以OpenAI Five的AI機器人打敗職業電競團隊OG，登上世界第一的寶座；同年10月，DeepMind也發表AlphaStar在高難度策略遊戲《星海爭霸2》的成果論文，並表示AlphaStar的排名已超越該遊戲99.85%的人類玩家，再次驗證遊戲AI驚人的學習能力。

吳毅成表示，以遊戲公司的立場來看，AI Bot可以扮演陪玩的角色，當遇上組隊人數不足、新手需要陪練等狀況時，AI Bot能根據玩家需求及時支援，同時引導玩家在遊戲中挑戰其他玩法，因此電玩AI的強度必須夠強，才不會因為玩太差而讓玩家覺得無趣。

除了強度夠強，AI Bot的行為還要「合理」才行。所謂的合理即是AI的表現要像人類，包含移動方式、速度、平衡等方面，才不會讓玩家覺得AI行為怪異。另外從遊戲品質的角度來看，許多遊戲公司可能在上架後才發現系統設計有瑕疵，如果AI bot能在遊戲釋出前就先協助偵測弱點，對於公司整體的經營將會有很大的幫助。

目前吳毅成團隊正在與遊戲公司合作AI訓練技術，未來可滿足如擬人化、具備多種強度、多變行為等遊戲AI需求，以及協助開發者進行遊戲弱點偵測，將能有效降低遊戲公司開發AI的門檻與資金，提升台灣遊戲工業。

圖四: 吳毅成團隊以TORCS (The Open Racing Car Simulator)來訓練電玩AI Bot。TORCS為開源的3D 賽車遊戲模擬器，可作為普通賽車遊戲和AI研究平台。(圖片來源:吳毅成提供)

電玩遊戲可被視為真實世界的模擬，透過在遊戲環境進行大量練習，AI較有機會發展出應對各類問題的能力，例如在AI表現較弱的「長期規劃」、「協作」等方面進行加強訓練，以此進展到真實世界的應用。目前吳毅成也正致力將虛擬環境的技術，整合至真實世界的應用，而實體DRL應用領域就是他鎖定的下個目標。

DRL應用類型三：整合虛擬與真實技術研究

實體DRL應用相對前述兩類，在研究上更難控制且沒有規律，包含自駕車、機械手臂、無人機等都屬於這類。而且這類問題還有一個特徵，就是不能訓練很多次。

以無人機為例，如果訓練一次就摔下去，雖然可以得到負面的樣本，但是耗費的成本太高，無論是學校或是企業都不可能做這樣子大量的測試與訓練，因此會需要先在虛擬環境進行模擬訓練，然後再將模型整合到實體來運作。

吳毅成表示，過去這些實體應用如機器人的研究已經累積多年經驗，精確度也達到一定程度，但大多需要仰賴人為編寫規則或繁複工具才能獲取有用特徵，例如工件、機台的角度距離等，再利用演算法歸納以做出最佳的決策。DRL的研究並不是要挑戰過去的研究，而是希望從DRL的學習角度為機器人技術帶來設計的多樣性。

過去廠商可能花很多心力去設計一樣產品，等樣式出來之後，再花時間將規則設定在合適的機器手臂，按照這個方式進行檢測或是夾取等動作。然而現在商品生命週期縮短，越來越多人希望能「客製化」，商品設計經常需要變化，因此產品如果要重新設計，相對地付出的成本和心力就會很高。

而DRL研究可以切入的正是這樣的角度。DRL的適應性強，適合用來解決前述類型的問題，例如教它學習夾取方塊，或許它還能再學會夾取三角形、圓球等其他物件，而不會受限於同一形體。雖然現階段DRL技術要實現這樣的應用還有很長的一段路要走，但這個研究方向將會是未來製造業邁向AI時代的關鍵。

目前吳毅成正在以自駕模型賽車作為實驗對象。去年12月吳毅成實驗室學生朱詠嘉、陳源灝、黃勁博，代表台灣前往美國參加AWS DeepRacer實體賽車競賽總決賽，擊敗眾多強勁對手獲得第三名的殊榮，成為該比賽成績最優異的學界團隊。

圖五: CGI實驗室成員朱詠嘉在AWS DeepRacer大賽獲頒季軍。(圖片來源:翻攝自Amazon Web Services)

AWS DeepRacer使用的是18:1的模型賽車，誰能最快繞行一圈並且不出界，就是比賽的贏家。這款模型賽車前方有相機負責擷取影像，車上裝載Intel處理器作為神經網絡的訓練資料來源，再透過神經網絡將決策資訊傳到馬達，以此操作車子的方向與速度。

模型賽車的自駕訓練，同樣要先在虛擬環境進行大量測試，才能正式上路。但sim2real（從虛擬到真實）是這類型研究的難關，即使虛擬環境訓練再好，碰上真實世界的光影變化、震動等狀況，都有可能造成影像判斷與決策資訊的混亂，使得車子失控偏離賽道。因此如何協助模型適應多元環境，成了DRL在實體應用研究的挑戰之一。

經過這次AWS比賽，吳毅成團隊在整合虛擬與真實的技術上，有了相當寶貴的經驗。當初為了銜接模型與實際環境的差距，團隊特地在決賽前購入實體賽道，並自行開發多種分析工具，用來協助賽車在真實環境遇到的問題。中間曾遭遇嚴重反光、賽道印製錯誤等問題，過程相當驚險，所幸吳毅成與他的團隊擁有堅持不懈的韌性，逐一克服這些挑戰，才能在這場國際比賽脫穎而出。

2020年，吳毅成團隊將再次挑戰AWS DeepRacer，結合過去參賽經驗與最新DRL研究成果，相信今年將會有更精彩的表現。

<span data-mce-type="bookmark" style="display: inline-block; width: 0px; overflow: hidden; line-height: 0;" class="mce_SELRES_start"></span>
2019 AWS DeepRacer之決賽影片。(影片來源:Amazon Web Services)

DRL加速AI發展，年輕人該如何迎接AI時代？

「其實我覺得最近機器學習跟AI的成長，與當初電腦科學的成長有點像，有多樣性與未來性。」吳毅成表示，電腦科學能隨著時代演進帶來千變萬化的應用，像是過去的網際網路、雲端、大數據的崛起，這些與電腦的發展息息相關，進而產生出各式的應用問題。對於未來想投入AI研究的年輕學子，吳毅成相當鼓勵大家探索這個很有挑戰的領域，也建議學生要比以往更看重數學的重要性。

「這塊領域牽涉到很多數學、程式的技術，在數學方面有統計、機率、線性代數、微分方程等等，幾乎很多尖端的數學都會用到，對於許多對數學很感興趣的同學來說，是一個很大的發展機會，同時也是個很有挑戰性的領域」吳毅成說。

AI改變世界的速度太快，快到許多人開始擔心未來很多職業即將被AI取代，吳毅成也同意這是值得注意的，「說實在我無法預測未來世界的發展，當初我也看走眼，我一直以為圍棋至少還要十年才能達到現在的狀況，但是沒想到就這樣結束了」。

從棋類、電玩到機器人應用，以AI進展來說，吳毅成表示目前許多研究正在關注電玩遊戲，這方面的發展會非常快；然而現階段實體DRL的應用如機器人，還有許多複雜且高難度的問題要解決，要跨過這步仍然是很大的挑戰。

所以說，科幻電影裡機器人超越人類的狀況還會發生嗎？吳毅成笑笑地表示，雖然不至於立即發生，「但是我不敢保證它一定不會發生」。面對AI創造的新時代，其實最重要的是人類該用何種心態學習，如果你的工作是研究如何使機器變得更強，那麼相對來說比較不用擔心這樣的狀況。先思考什麼能力是AI無法取代的，你才有機會在未來世界與AI同行。

人工智慧普適研究中心PAIR Labs 介紹

為營造台灣創新人工智慧生態體系，2018年科技部於台灣大學、清華大學、交通大學、成功大學補助成立4所國際級AI創新研究中心。設立於交大的人工智慧普適研究中心（Pervasive Artificial Intelligence Research Labs，簡稱PAIR Labs），以「智慧技術」及「智慧服務」為主軸，積極推動AI相關研究以達成尖端技術研發、國際學者交流、AI人才育成、產學合作及孕育新創等目標。目前轄下共有18個AI計畫團隊，成員來自全台25所學校，參與AI計畫之團隊人數超過500人，研發能量龐大，是AI專業人才的聚集地。

官網: https://pairlabs.ai
Facebook粉絲專頁: https://www.facebook.com/pairlabs/

【PAIR專訪】從圍棋到電玩，AI將如何走入真實世界？專訪交大資工系吳毅成教授

人工智慧普適研究中心PAIR Labs 介紹

更多關於吳毅成團隊的介紹，請見以下連結:

網站搜尋

人工智慧普適研究中心PAIR Labs 介紹

更多關於吳毅成團隊的介紹，請見以下連結:

您可能會喜歡

網站搜尋