如何使用深度學習重建高分辨率音頻？

voidking 發布于2019-04-25 18:14 / 1975人閱讀

摘要：音頻超分辨率旨在重建一個以較低分辨率波形作為輸入的高分辨率音頻波形。由于受到深度學習成功應用于圖像超分辨率的啟發，我最近致力于使用深層神經網絡來完成原始音頻波形的上采樣。上采樣塊使用子像素卷積，其沿著一個維度重新排列信息以擴展其他維度。

音頻超分辨率旨在重建一個以較低分辨率波形作為輸入的高分辨率音頻波形。在諸如流式音頻和音頻恢復之類的領域中，這種類型的上采樣存在著若干種潛在應用。一個傳統的解決方案是使用音頻剪輯的數據庫，憑借相似性指標來填充下采樣波形中的缺失頻率（見本文和本文）。由于受到深度學習成功應用于圖像超分辨率的啟發，我最近致力于使用深層神經網絡來完成原始音頻波形的上采樣。在制定了幾種方法之后，我把注意力主要集中于實施和自定義最近將發表于2017年國際學習代表會議（ICLR）上的研究論文。

雖然音頻上采樣在大量的領域中都可能是有用的，但我只專注于潛在的IP語音應用程序。我為這個項目選擇的數據集是一個TED演講的集合，大小大約為35 GB。每個講話都位于一個多帶帶的文件中，比特率為16千比特每秒（kbps），這被認為是高質量的語音音頻。這個數據集主要包含一些非常精彩的英語演講，而這是從大量演講者在面對不同觀眾的演講中挑選出來的。這些TED演講的質量與人們在IP語音對話期間所期望的值近似。

預處理步驟如上圖所示。每個文件的第一個和最后30秒被修剪以便刪除TED演講的開始和結束部分。然后將文件拆分為2秒的剪輯，并以4 kbps的速率創建一個獨立的，4x下采樣的剪輯集合以及一組原始速率為16 kbps的集合。60％的數據集用于訓練，20％用于驗證，20％用于測試。

上圖中列出的訓練工作流程使用數據預處理步驟中的下采樣片段，并將其批量饋入模型（深層神經網絡）以更新其權重。具有較低驗證分數的模型（表示為“較佳模型”）被保存以供接下來使用。

在上圖中給出了使用“較佳模型”對音頻文件進行上采樣的過程。該工作流采用整個音頻文件，與預處理步驟類似地將其拼接到剪輯中，將它們依次饋送到經過訓練后的模型中，將高分辨率剪輯縫合在一起，并將高分辨率文件保存到磁盤中。

模型架構

我所實現的模型架構是U-Net，它使用的是子像素卷積的一維模擬而不是反卷積層。我使用Tensorflow的Python API構建和訓練模型，同時使用Tensorflow的C ++ API實現子像素卷積層。該模型的工作原理如下：

下采樣波形通過八個下采樣塊發送，每個采樣塊都由步幅為2的卷積層組成。在每個層上，濾波器組的數量加倍，使得沿著波形的維度減小了一半，濾波器組的尺寸增加了兩個。

該瓶頸層被構造成與下采樣塊相同，這個下采樣塊與8個上采樣塊相連，而這些塊與下行采樣塊是有殘留連接的。這些殘留連接允許共享從低分辨率波形學習到的特征。

上采樣塊使用子像素卷積，其沿著一個維度重新排列信息以擴展其他維度。

在原始輸入中添加了具有重新排列和重新排序操作的最終卷積層，以便產生上采樣波形。

所使用的損耗函數是輸出波形與原始高分辨率波形之間的均方差。

性能

上圖顯示了在10個訓練時期之后，測試樣本的兩項性能指標。左列是頻率與時間的頻譜圖，右邊是波形振幅對時間的曲線。

第一行包含原始高分辨率音頻樣本的頻譜圖和波形圖。

中間行包含原始音頻樣本的4x下采樣版本的相似圖。請注意，下采樣頻率圖中缺少3/4的較高頻率。

最后一行包含訓練模型輸出的語譜圖和波形圖。

插入值是兩個量化的性能度量指標：信噪比（SNR）和對數光譜距離（LSD）。較高的SNR值表示更清晰的聲音，而較低的LSD值表示匹配的頻率內容。LSD值顯示神經網絡正在嘗試在適當的地方恢復較高的頻率。然而，稍低的SNR值意味著音頻可能不是清晰的。

一篇受到這個架構啟發的論文聲稱對數據進行了400次的訓練，而由于時間限制，我只能訓練10次。較長的訓練周期可能導致重建波形的清晰度提高。你可以在下面聆聽測試集中的示例音頻剪輯。前5秒剪輯是原始音頻16 kbps，第二個是4kbps的下采樣音頻，最后一個是16kbps的重建音頻。

1.從測試集中以16 kbps的隨機剪輯。

2.下采樣版本的上述剪輯。請注意，所有高頻內容都丟失。

3.重建剪輯。大部分高頻內容已經以犧牲清晰度的代價來恢復。

開源貢獻

下采樣音頻的重建可以有各種應用，更令人興奮的是將這些技術應用于其他非音頻信號的可能性。我鼓勵你采用和修改我的github repo提供的代碼，從而對這些代碼進行實驗。

除了提供這些實驗的代碼之外，我還希望為日益增長的應用AI社區提供更多的開源資源。由于子像素卷積層是一種可能對深入學習研究人員和工程師都有用的通用操作，因此我一直在對TensorFlow作出貢獻，并與他們的團隊緊密合作，以便將其整合到代碼庫中。

作者：Jeffrey Hetherly

來源：insightdatascience

歡迎加入本站公開興趣群

商業智能與數據分析群

興趣范圍包括各種讓數據產生價值的辦法，實際應用案例分享與討論，分析工具，ETL工具，數據倉庫，數據挖掘工具，報表系統等全方位知識

QQ群：81035754

云服務器 GPU云服務器使用深度學習深度學習使用快速使用深度學習深度學習的使用

文章版權歸作者所有，未經允許請勿轉載,若此文章存在違規行為，您可以聯系管理員刪除。

轉載請注明本文地址：http://m.specialneedsforspecialkids.com/yun/4560.html

深度學習在圖像超分辨率重建中的應用

摘要：基于深度學習的，主要是基于單張低分辨率的重建方法，即。而基于深度學習的通過神經網絡直接學習分辨率圖像到高分辨率圖像的端到端的映射函數。超分辨率技術（Super-Resolution）是指從觀測到的低分辨率圖像重建出相應的高分辨率圖像，在監控設備、衛星圖像和醫學影像等領域都有重要的應用價值。SR可分為兩類:從多張低分辨率圖像重建出高分辨率圖像和從單張低分辨率圖像重建出高分辨率圖像。基于深度學...

xinhaip 2019-04-25 18:10 評論0 收藏0
深度對抗學習在圖像分割和超分辨率中的應用

摘要：深度學習已經在圖像分類檢測分割高分辨率圖像生成等諸多領域取得了突破性的成績。另一個問題是深度學習的模型比如卷積神經網絡有時候并不能很好地學到訓練數據中的一些特征。本文通過最近的幾篇文章來介紹它在圖像分割和高分辨率圖像生成中的應用。深度學習已經在圖像分類、檢測、分割、高分辨率圖像生成等諸多領域取得了突破性的成績。但是它也存在一些問題。首先，它與傳統的機器學習方法一樣，通常假設訓練數據與測試數...

FingerLiu 2019-04-25 18:09 評論0 收藏0
科學領域中的深度學習一覽

摘要：深度學習方法是否已經強大到可以使科學分析任務產生最前沿的表現在這篇文章中我們介紹了從不同科學領域中選擇的一系列案例，來展示深度學習方法有能力促進科學發現。深度學習在很多商業應用中取得了前所未有的成功。大約十年以前，很少有從業者可以預測到深度學習驅動的系統可以在計算機視覺和語音識別領域超過人類水平。在勞倫斯伯克利國家實驗室（LBNL）里，我們面臨著科學領域中最具挑戰性的數據分析問題。雖然商業...

zhou_you 2019-04-25 18:14 評論0 收藏0