人工智慧普適研究中心 PAIR Labs
基於深度智能之口語處理技術
計畫主持人:王家慶教授
概要
口語表達是人類交流最主要也是最自然的方式,而且是人機互動裡最有效的手段。要讓電腦口語處理系統能類似人類一樣無障礙且高度智能地運作,是學者們幾十年來一直試圖解決的問題,隨著深度學習的成功,上述目標不再遙不可及。本計畫將以深度學習之技術來研發深度智能的口語處理系統,有效整合訊號處理、聲學處理、語言處理以及深度學習。我們將研究開發智慧多聲道語音處理和語音分離,優化語音識別、口語翻譯、語音情感識別和開放場對話等關鍵技術。在口語的選擇上,我們將著重在地之國語、閩南語以及客語。
關鍵字
口語處理、語音處理、語音分離、語音辨認、口語翻譯、語音情感識別、對話系統、深度學習
創新
- 在前端處理中,我們提出了一種基於深度學習的多聲道語音增強演算法,而此演算法整合波束形成技術和深度神經網絡。
- 在語音分離方面,我們提出了基於GP回歸的SCSS模型。通過GP回歸模型的預測均值,來測量估計的來源,並且通過使用非線性共軛梯度算法來執行超參數學習過程。
- 我們提出用於視聽語音增強的分層極端學習機(Hierarchical Extreme Learning Machine,HELM)作為語音增強任務的替代模型。
- 為了增強語音識別,提出了一種新的基於圖形正規化的方法的使用,通過保留幅度調變光譜的內含多樣性結構並排除不相關的方法來增強語音特徵。
- 對於母語語音識別,開發了台灣閩南語音識別器。
- 在機器翻譯中,提供英文和中文之間的雙向翻譯。
- 語音情感識別系統採用基於深度學習的多特徵提取網絡,以及自行開發的遞歸神經網絡。
- 為了理解對話的語義,開發了對話系統的語言理解技巧。
效益
- 本研究以華碩Zenbo的英語學習機器人進行開發。 透過智慧語音識別技術,英語學習機器人讓使用者能夠在非英語環境中練習發音和發音。
- 強固性技術減輕了環境失真造成的不良影響,使自動語音識別系統保持可接受的性能水平。
此處開發的口語處理技術將用於智能交互式平台,可在真實生活中應用。