【PAIR專訪】從圍棋到電玩,AI將如何走入真實世界?專訪交大資工系吳毅成教授
作者: 人工智慧普適研究中心 撰稿
(如欲刊登或引用文章,請事先與我們聯繫取得授權,謝謝!)
20世紀以來,電腦遊戲(Computer game)就一直被視為AI的果蠅,意思是如果想要深入研究AI技術,電腦遊戲會是人工智慧最佳的縮影。棋局多變、難度極高的電腦圍棋更被視為AI的挑戰,打敗職業棋士一直是圍棋程式開發者的終極目標。
2016年,AlphaGo擊敗韓國最強棋士李世石之後,AI頓時成了全世界的最熱門關鍵字,關於AI的產業應用以及哲學思辨如雨後春筍般冒出;然而AlphaGo的問世,宣告的不僅是程式打敗人類的結果,其研究方法與技術才是接下來加速全球產業革新的關鍵,圍棋只是AI顛覆世界的起點。
國內從事電腦遊戲研究的知名學者吳毅成教授,是台灣在AI領域最具指標性的學者之一。吳毅成教授目前正在參與科技部AI研究計畫「深度強化式學習技術之應用研究」,該研究聚焦在AI如何從虛擬環境走入真實世界的應用,透過本次專訪,大眾將有機會深入了解吳毅成對於AI未來趨勢的見解,以及他在深度強化式學習技術的三種應用研究。
圖一: 吳毅成教授於2019 AI創新研究中心國際研討會。(圖片來源:科技部)
首先,什麼是深度強化式學習(DRL)?
深度強化式學習(Deep Reinforcement Learning; DRL)是深度學習(DL)與強化式學習(RL)的結合,兩者同屬於機器學習(ML)領域的技術。如果說人工智慧是模擬人的大腦運作,深度學習就如同視覺感知,如學習辨識物件,而強化式學習則是學習決策布局,深度強化式學習整合兩者,學習感知以及其後之決策。
過去單純的強化式學習,需要仰賴人為編寫規則或繁複工具才能獲取訓練特徵,例如傳統西洋棋需要辨識優劣棋型,必須先經過研究分析等步驟,並利用演算法歸納出棋型特徵,再透過獎懲機制強化電腦的認知,以做出最佳的決策。
而深度學習則是具備自動抓取特徵的能力。例如辨別貓狗的問題,只要餵給電腦大量的圖片,深度學習技術就能自動分類出屬於貓或狗的特徵,相當於一顆擁有超強記憶力的「高級人腦」。由於這個學習過程需要相當強大的運算單元來支持,因此深度學習是到近十年硬體設備有了明顯升級,才開始爆炸性的成長。
2016年AlphaGo就是結合這兩種技術(DL+RL=DRL),先利用深度學習技術分析與模仿人類棋譜,判別棋型與局勢優劣,而後再加入強化式學習的訓練,並結合一項重要的強化式學習方法——蒙地卡羅樹搜尋法來創新招數,因而獲致打敗世界最強職業棋士的重大成果。
聚焦於探索更泛化的人工智慧(Artificial General Intelligence),2017年AlphaGo的開發團隊Deepmind進一步在《Nature》期刊發表AlphaGo Zero,採用更進階的DRL技術,訓練程式從「零知識」開始學圍棋,過程無需人類專家的棋譜資料,AlphaGo Zero靠著「自己打自己」學習得勝策略,實力直接超越所有人類棋士和圍棋AI,包括AlphaGo。
這套從圍棋程式中發展出的「自學技術」,已經不再侷限於圍棋,AlphaGo Zero的進階版AlphaZero甚至延伸到其他如西洋棋、將棋等棋類,同樣透過自學取得頂尖成績,這樣的結果不僅開啟學界對DRL技術的研究熱潮,同時也預告未來AI將更有機會應用於多方領域,走向產業化的發展。
DRL應用類型一:持續精進演算法,延伸圍棋教學應用
過去由吳毅成領軍的電腦遊戲與智慧實驗室(Computer Games and Intelligence Lab,簡稱CGI Lab )曾在2017年7月IEEE FUZZ國際會議舉辦的人機圍棋賽中,以圍棋程式「CGI」(全名CGI Go Intelligence)打敗紅面棋王周俊勳,成為第一個在正式的人機賽中打敗職業九段棋士的學界程式。一個月後,CGI在世界智能圍棋公開賽中擊敗中國騰訊公司的絕藝、日本DeepZenGo等知名AI,獲得預賽全勝冠軍、決賽亞軍的好成績,成為該場比賽的注目焦點。
圖二: 吳毅成與學生吳迪融參加2017年世界智能圍棋賽之照片。(圖片來源:翻攝自新浪體育)
與其他投入大量計算資源的企業相比,學界程式能獲得如此成績很不容易,而CGI靠得就是持續開發新方法來精進演算法,以減少計算資源的消耗。吳毅成提到,在這次「深度強化式學習技術之應用研究」中,他將研究主軸依應用環境分成三類,第一類就是以DRL技術持續精進CGI的演算法,同時延伸至圍棋的教學應用。
2017年在世界智能賽獲得亞軍之後,吳毅成與國內知名的海峰棋院以及職業棋士合作,藉由CGI程式輔助棋士的對弈訓練,並且進一步研發出「圍棋終身學習系統」,在2018年科技部主辦的「未來科技展」中獲得相當高的人氣。該技術論文更被AI領域極具權威的會議AAAI-19所接受,顯示國際學術社群也相當肯定這項研究。
吳毅成表示,這個想法是在與「海峰棋院精銳隊總教練」周俊勳棋王交流時誕生的。當時周俊勳提到一個狀況,如果棋士實際上棋力有進步,但與AI對弈的過程中卻還是輸了,那麼對棋士來說就會變成一個困擾:他們沒辦法知道自己棋力程度。即便有很強的圍棋程式,甚至出現更強的,其實對棋士而言沒有辦法分出強度的變化。
「所以如果能有一個棋力跟他們差不多的程式,說不定就可以讓棋士抓到那個感覺」吳毅成說。這項從使用者回饋而來的建議,讓團隊開始鑽研動態調整棋力的技術,因此開發出多達40種棋力、從初學到職業棋士等級都有的圍棋教學系統,使用者可以根據棋力選擇適合的等級來玩,同時程式也會在過程中自動檢測對手棋力強度,以提供棋士客製化的訓練。
這款圍棋教學系統最大的意義,在於AI從打敗人類棋士的里程碑,躍升至教學相長的層次。即使現在圍棋AI已經無人能敵,但人類仍未完全理解AI為什麼這樣下,甚至有些棋譜是人類未曾看過的;藉由AI來教人類,一方面將能協助棋士挑戰更強的對手,一方面也能幫助人類更加理解AI的決策邏輯。
圖三: 2018年未來科技展中,紅面棋王周俊勳和吳毅成團隊所研發的「圍棋終身學習系統」進行對弈之畫面。 (圖片來源:交通大學)
今年2月,吳毅成再度刊登論文於AAAI-20,發表團隊改良AlphaZero的新方法,是一種叫做「PBT」(Population Based Training)的方法。過去AlphaZero主要以自我對弈,如同金庸小說裡的周伯通「左手打右手」的方式完成訓練,過程相當耗費運算資源。對此吳毅成表示:「我們學校跟大公司比,相對來說沒有那麼多的資源,所以我們希望能夠提出一些新的想法,而不是單純按照AlphaZero的做法去訓練,因為這樣子我們永遠追不上別人」。
這次改良的新方法,就是想看能否不只有左手打右手,而是像一個「武林大賽」一樣,同時訓練十多組程式隨機互打,以此獲得更好的訓練成果。比起自己打自己,與不同人互打更容易發現程式的盲點,實驗證明此方法確實能讓CGI棋力大幅提升,對Facebook的FAIR研究中心所研發的OpenGo圍棋程式的勝率從原來的47%提升到74%,大幅超越OpenGo,而OpenGo圍棋程式是當時同規格的最強開源圍棋程式。
PBT方法的另一個好處,是超參數(hyperparameters)可以在「武林大賽」後自我調整,而自我對打的棋譜數量卻無需增多,因此運算可以維持穩定數量。比起自己打自己的傳統方法,大都必須分別用很多不同超參數組合來訓練,因此與其他發展團隊相比,PBT方法可省下將近10倍以上的計算資源。節省大筆經費支出之外,同時還能增強棋力,是相當創新且實用的做法,對未來其他應用問題也提供很重要的參考。
不斷加強演算法的背後,吳毅成心中仍有一個清楚的目標,他希望這些研究出的新方法,能夠實際幫助到生活中的應用問題。因此在圍棋之後,他的下一步決定投入當前AI熱門話題─電玩遊戲AI Bot的研發。
DRL應用類型二:強度夠強、行為像人的電玩遊戲AI Bot
早在AlphaGo問世之前,2013年DeepMind已在《Nature》期刊發表使用DRL技術教電腦玩Atari遊戲的論文,並推出名為Deep Q Network (DQN)的新演算法,可說是電玩AI機器人(AI Bot)的開山始祖。
DeepMind展示以DQN技術訓練AI玩Atari遊戲的突破。(影片來源:YouTube)
在電玩遊戲中,由於玩家訊息來自畫面且移動自由性高次數更多,因此相較於圍棋、西洋棋的維度高出許多,這使得設計的難度更高。近年隨著軟硬體各方面技術的提升,電玩AI研究屢創佳績,例如2019年4月,由馬斯克所創立的OpenAI研究團隊,在堪稱最複雜的戰略遊戲《Dota》2中,以OpenAI Five的AI機器人打敗職業電競團隊OG,登上世界第一的寶座;同年10月,DeepMind也發表AlphaStar在高難度策略遊戲《星海爭霸2》的成果論文,並表示AlphaStar的排名已超越該遊戲99.85%的人類玩家,再次驗證遊戲AI驚人的學習能力。
吳毅成表示,以遊戲公司的立場來看,AI Bot可以扮演陪玩的角色,當遇上組隊人數不足、新手需要陪練等狀況時,AI Bot能根據玩家需求及時支援,同時引導玩家在遊戲中挑戰其他玩法,因此電玩AI的強度必須夠強,才不會因為玩太差而讓玩家覺得無趣。
除了強度夠強,AI Bot的行為還要「合理」才行。所謂的合理即是AI的表現要像人類,包含移動方式、速度、平衡等方面,才不會讓玩家覺得AI行為怪異。另外從遊戲品質的角度來看,許多遊戲公司可能在上架後才發現系統設計有瑕疵,如果AI bot能在遊戲釋出前就先協助偵測弱點,對於公司整體的經營將會有很大的幫助。
目前吳毅成團隊正在與遊戲公司合作AI訓練技術,未來可滿足如擬人化、具備多種強度、多變行為等遊戲AI需求,以及協助開發者進行遊戲弱點偵測,將能有效降低遊戲公司開發AI的門檻與資金,提升台灣遊戲工業。
圖四: 吳毅成團隊以TORCS (The Open Racing Car Simulator)來訓練電玩AI Bot。TORCS為開源的3D 賽車遊戲模擬器,可作為普通賽車遊戲和AI研究平台。(圖片來源:吳毅成提供)
電玩遊戲可被視為真實世界的模擬,透過在遊戲環境進行大量練習,AI較有機會發展出應對各類問題的能力,例如在AI表現較弱的「長期規劃」、「協作」等方面進行加強訓練,以此進展到真實世界的應用。目前吳毅成也正致力將虛擬環境的技術,整合至真實世界的應用,而實體DRL應用領域就是他鎖定的下個目標。
DRL應用類型三:整合虛擬與真實技術研究
實體DRL應用相對前述兩類,在研究上更難控制且沒有規律,包含自駕車、機械手臂、無人機等都屬於這類。而且這類問題還有一個特徵,就是不能訓練很多次。
以無人機為例,如果訓練一次就摔下去,雖然可以得到負面的樣本,但是耗費的成本太高,無論是學校或是企業都不可能做這樣子大量的測試與訓練,因此會需要先在虛擬環境進行模擬訓練,然後再將模型整合到實體來運作。
吳毅成表示,過去這些實體應用如機器人的研究已經累積多年經驗,精確度也達到一定程度,但大多需要仰賴人為編寫規則或繁複工具才能獲取有用特徵,例如工件、機台的角度距離等,再利用演算法歸納以做出最佳的決策。DRL的研究並不是要挑戰過去的研究,而是希望從DRL的學習角度為機器人技術帶來設計的多樣性。
過去廠商可能花很多心力去設計一樣產品,等樣式出來之後,再花時間將規則設定在合適的機器手臂,按照這個方式進行檢測或是夾取等動作。然而現在商品生命週期縮短,越來越多人希望能「客製化」,商品設計經常需要變化,因此產品如果要重新設計,相對地付出的成本和心力就會很高。
而DRL研究可以切入的正是這樣的角度。DRL的適應性強,適合用來解決前述類型的問題,例如教它學習夾取方塊,或許它還能再學會夾取三角形、圓球等其他物件,而不會受限於同一形體。雖然現階段DRL技術要實現這樣的應用還有很長的一段路要走,但這個研究方向將會是未來製造業邁向AI時代的關鍵。
目前吳毅成正在以自駕模型賽車作為實驗對象。去年12月吳毅成實驗室學生朱詠嘉、陳源灝、黃勁博,代表台灣前往美國參加AWS DeepRacer實體賽車競賽總決賽,擊敗眾多強勁對手獲得第三名的殊榮,成為該比賽成績最優異的學界團隊。
圖五: CGI實驗室成員朱詠嘉在AWS DeepRacer大賽獲頒季軍。(圖片來源:翻攝自Amazon Web Services)
AWS DeepRacer使用的是18:1的模型賽車,誰能最快繞行一圈並且不出界,就是比賽的贏家。這款模型賽車前方有相機負責擷取影像,車上裝載Intel處理器作為神經網絡的訓練資料來源,再透過神經網絡將決策資訊傳到馬達,以此操作車子的方向與速度。
模型賽車的自駕訓練,同樣要先在虛擬環境進行大量測試,才能正式上路。但sim2real(從虛擬到真實)是這類型研究的難關,即使虛擬環境訓練再好,碰上真實世界的光影變化、震動等狀況,都有可能造成影像判斷與決策資訊的混亂,使得車子失控偏離賽道。因此如何協助模型適應多元環境,成了DRL在實體應用研究的挑戰之一。
經過這次AWS比賽,吳毅成團隊在整合虛擬與真實的技術上,有了相當寶貴的經驗。當初為了銜接模型與實際環境的差距,團隊特地在決賽前購入實體賽道,並自行開發多種分析工具,用來協助賽車在真實環境遇到的問題。中間曾遭遇嚴重反光、賽道印製錯誤等問題,過程相當驚險,所幸吳毅成與他的團隊擁有堅持不懈的韌性,逐一克服這些挑戰,才能在這場國際比賽脫穎而出。
2020年,吳毅成團隊將再次挑戰AWS DeepRacer,結合過去參賽經驗與最新DRL研究成果,相信今年將會有更精彩的表現。
2019 AWS DeepRacer之決賽影片。(影片來源:Amazon Web Services)
DRL加速AI發展,年輕人該如何迎接AI時代?
「其實我覺得最近機器學習跟AI的成長,與當初電腦科學的成長有點像,有多樣性與未來性。」吳毅成表示,電腦科學能隨著時代演進帶來千變萬化的應用,像是過去的網際網路、雲端、大數據的崛起,這些與電腦的發展息息相關,進而產生出各式的應用問題。對於未來想投入AI研究的年輕學子,吳毅成相當鼓勵大家探索這個很有挑戰的領域,也建議學生要比以往更看重數學的重要性。
「這塊領域牽涉到很多數學、程式的技術,在數學方面有統計、機率、線性代數、微分方程等等,幾乎很多尖端的數學都會用到,對於許多對數學很感興趣的同學來說,是一個很大的發展機會,同時也是個很有挑戰性的領域」吳毅成說。
AI改變世界的速度太快,快到許多人開始擔心未來很多職業即將被AI取代,吳毅成也同意這是值得注意的,「說實在我無法預測未來世界的發展,當初我也看走眼,我一直以為圍棋至少還要十年才能達到現在的狀況,但是沒想到就這樣結束了」。
從棋類、電玩到機器人應用,以AI進展來說,吳毅成表示目前許多研究正在關注電玩遊戲,這方面的發展會非常快;然而現階段實體DRL的應用如機器人,還有許多複雜且高難度的問題要解決,要跨過這步仍然是很大的挑戰。
所以說,科幻電影裡機器人超越人類的狀況還會發生嗎?吳毅成笑笑地表示,雖然不至於立即發生,「但是我不敢保證它一定不會發生」。面對AI創造的新時代,其實最重要的是人類該用何種心態學習,如果你的工作是研究如何使機器變得更強,那麼相對來說比較不用擔心這樣的狀況。先思考什麼能力是AI無法取代的,你才有機會在未來世界與AI同行。
人工智慧普適研究中心PAIR Labs 介紹
為營造台灣創新人工智慧生態體系,2018年科技部於台灣大學、清華大學、交通大學、成功大學補助成立4所國際級AI創新研究中心。設立於交大的人工智慧普適研究中心(Pervasive Artificial Intelligence Research Labs,簡稱PAIR Labs),以「智慧技術」及「智慧服務」為主軸,積極推動AI相關研究以達成尖端技術研發、國際學者交流、AI人才育成、產學合作及孕育新創等目標。目前轄下共有18個AI計畫團隊,成員來自全台25所學校,參與AI計畫之團隊人數超過500人,研發能量龐大,是AI專業人才的聚集地。
- 官網: https://pairlabs.ai
- Facebook粉絲專頁: https://www.facebook.com/pairlabs/
更多關於吳毅成團隊的介紹,請見以下連結:
- 研究計畫介紹:深度強化式學習技術之應用研究
- 產學合作:若您對於吳毅成教授團隊的AI圍棋、電玩AI Bot訓練以及DRL應用於Robotics等技術感興趣,歡迎聯繫我們進一步洽談產學合作!