人工智慧普適研究中心 PAIR Labs
基於深度學習之手勢人機介面與定位加值服務
計畫主持人:范國清教授
摘要
本計畫提出結合固定式及移動式介面之非接觸式人機互動系統,為實踐簡易且愉悅的互動應用情境,針對不同的應用場域發展其相對應的互動模組,包括使用者可利用手勢或空中手寫操作系統;藉由分析使用者在街道上拍攝感興趣的標誌/招牌,可獲取影像位置相關的訊息,亦可取得特定地點經資料清理後之影像;記錄使用者與系統互動的所有過程並用於建立回饋模型,進而產生更準確的使用者推薦方案,本計畫使用深度學習技術統整上述所有模組並完成一整合型人機互動架構。
關鍵詞
互動式系統,非接觸式人機互動,地點語義,凌空輸入,推薦模型。
技術創新
- 提出一個非接觸式人機互動系統,包括固定式介面、移動式介面和使用歷程模型,如圖1所示。
- 本計畫訓練了多個深度學習神經網路以進行手勢辨識並結合情境感知,以提高辨識率並提供使用者友善地互動體驗。相關範例如圖2所示。
- 透過虛擬鍵盤提供多語言輸入方式,讓使用者可以在空中進行操作。
- 在複雜的街景圖像中,藉由辨識拍攝的路標或是商店招牌的文字,即可在行動裝置上自動顯示與商店相關的訊息。相關範例請參見圖3。
- 收集特定網站上所有未標記的原始圖像,並依照預先定義的類別進行分類,讓使用者可以在系統濾除不相關的圖片後,輕鬆地瀏覽分類完成的照片。
- 在使用者推薦方面,本研究提出以RNN為基礎,並加入具有可變、特徵增強的LSTM和序列規劃網路架構的推薦模型。
效益
- 在同時考慮空間和時間的特徵下,結合3D CNN與LSTM,設計出手勢辨識模組,以獲得更滿意的辨識結果。
- 即使面臨商店或交通標誌中的文字具有非一致性方向的複雜特徵,本計畫提出的街景文字辨識技術仍可成功辨識。
- 發展未標記圖像之分類工具並藉由網頁界面呈現結果,利用輸入Google地圖中特定地點之URL,即可顯示該地點於分類完成後的圖像集。
- 開發以RNN為訓練基礎之電影和旅遊推薦模組,在動態推薦中,例如:旅遊建議,同時考慮距離和時間因素,初步結果證明了本模組的有效性及準確性。