人工智慧普適研究中心 PAIR Labs
基於動作辨識之移動式示範學習機器人系統
計畫主持人:許陳鑑教授
概要
本計畫主要係建立一示範學習(Learning from Demonstration, LfD)之機器人系統,透過深度學習架構辨別人類之行為類別和臉部表情等,並藉由物件追蹤及視覺型同時定位與地圖(VSLAM)等算法,使機器人具備以人類示範之動作為依據的移動學習能力。本計畫第一年基於深度學習演算法建立了人類臉部表情及動作辨識系統,使其能整合至示範學習系統中;此外,本計畫更建立了以深度學習法為基礎之機器手臂的逆向運動學,加上物件辨識與動作分割等技術,實現一模仿型機器人系統。為了能具備移動之能力,本計畫第一年在FPGA硬體平台上設計特徵點偵測與匹配等硬體模組,並建立一硬體化物件追蹤系統,用以驗證電路模組整合之運作成效。
關鍵字
示範學習(LfD)、深度學習、臉部表情辨識、行為辨識、物件追蹤、FPGA
創新
- 以LeNet及Partial ResNet為基礎的混合雙流(Two-Stream)深度學習架構,建立一人類臉部表情識別系統。
- 利用連續的RGB彩色和光流影像作為雙流I3D深度學習架構的輸入,實現一動作辨識系統;該網路架構係使用ImageNet資料庫做預訓練,達到遷移式學習的目的。
- 設計並開發模仿型機器人系統,藉由感測人類多次演示之動作,進而歸納其動作目的,並搭配Yolo v3深度學習架構辨識物件,同時透過RGB-D攝影機建立物件及行為的三維軌跡,使模仿型機器人可順利地執行人類演示之動作。
- 針對逆向運動學之問題,提出了一基於DNN之技術,以當前馬達各轉角及目的點之位置為輸入,透過DNN網路輸出機器手臂遇到達該點時,各馬達需的轉角變化量。
- 利用FPGA硬體平台,開發一硬體化的物件追蹤系統;其中,本計畫設計並優化SIFT及特徵點匹配演算法,提高其運算效率,使得物件追蹤系統能夠達到即時運算的目的。
效益
- 基於RAF資料庫,實現了7種不同表情知識別,包括憤怒、厭惡、恐懼、快樂、悲傷、中立和驚訝等。透過擷取影像中的人臉,更可實現即時臉部表情識別之系統。
以UCF-101資料庫為訓練雙流I3D深度學習架構的基礎,可達到95.5%的成功率。此外,只要利用攝影機擷取大約3秒的影片,即可在現實環境中辨別人類行為,達到即時動作識別之目的。