人工智慧普適研究中心 PAIR Labs
基於生成模型的視訊壓縮
計畫主持人:彭文孝教授
概要
最近蓬勃發展的深度學習技術為設計高效壓縮影像/視訊編碼系統提供了新的方向。本研究重點聚焦於視訊壓縮系統的基本要素,包括影像壓縮、影像畫面預測器、壓縮殘餘偽影降低、注目點估計、和壓縮導向的多任務深度學習系統等。這些研究課題或者是影像/視訊壓縮系統的核心技術,或者提高壓縮效率的方法。
關鍵字
影像壓縮、視頻壓縮、深度學習、視訊預測、顯著區域估計、自動編碼器、生成對抗網路
創新
- 圖像壓縮系統設計中的一個關鍵點,是在自動編碼器中的潛在變量必需具有低熵率,並且可以使用少量位元去代表。我們使用自動編碼器(AE)和遞歸類神經網絡(RNN)模型來設計端到端的影像壓縮編碼系統。AE能夠從輸入影像產出影像特徵圖譜,並達到降為效果降維。RNN在訓練固定模型後,還可支援多重位元速率的影像重建。
- GOP(影像群)的位元分配是國際標準265編碼器的重要課題。根據影像幀內和幀間紋理複雜度以及位元預算額度,我們訓練類神經網路,用以推估GOP中每幀的目標位元數。
- 一個多任務網路可以萃取多功能的影像內容特徵。此研究中,同一影像內容特徵可用於兩種目的: 壓縮影像,及分析影像內容。
- 我們開發具有短連接的FCN類神經網路模型,用以萃取多層次的影像特徵值,目的在推測照片中的注目點。我們修改訓練過程中的目標函數後,取得更精準模型,不需要後處理模組。
效益
- 在AE結構中,我們將多重位元量化器與重要性圖譜及上下文模型結合在一起,以提高壓縮效率和多速率壓縮功能。一些初步結果如圖1所示。
- 我們針對HEVC / H.265 GOP位元分配提出強化學習演算法,並在x265-2.7平台上實現該演算法。與原來x265-2.7方法相較,我們的模型能夠更精準控制GOP位元率,初步結果如表1。
- 我們設計了一個混合編碼系統,使用CNN彌補HEVC編碼影像的殘差值。CNN訓練出多個代表性的殘差圖樣,我們只需傳送其索引值。初步結果顯示其優於原始HEVC幀內編碼。
- 多任務網路可以提供以下優點(圖2):
- 多層卷積層、池化層和ResNet組成的網絡,可學習出共用於壓縮和分割的語義特徵。
- 透過訓練交互拼接模塊中的加權參數,我們探索出壓縮重建任務和分割任務之間的共用資訊。具體來說,我們設計更好的CNN系統來產生兩個串流之間的共用語義特徵。
- 我們提出了一個基於短連接的FCN網絡的影像注目點估測系統(圖3)。在此深度學習網路中,設計新的目標函數,能夠使檢測結果達到更精準的空間一致性。