国产xxxx99真实实拍_久久不雅视频_高清韩国a级特黄毛片_嗯老师别我我受不了了小说

資訊專欄INFORMATION COLUMN

語音識別框架最新進展——深度全序列卷積神經網絡登場

explorer_ddf / 2958人閱讀

摘要:目前較好的語音識別系統采用雙向長短時記憶網絡,,這種網絡能夠對語音的長時相關性進行建模,從而提高識別正確率。因而科大訊飛使用深度全序列卷積神經網絡來克服雙向的缺陷。

人工智能的應用中,語音識別在今年來取得顯著進步,不管是英文、中文或者其他語種,機器的語音識別準確率在不斷上升。其中,語音聽寫技術的發展更為迅速,目前已廣泛在語音輸入、語音搜索、語音助手等產品中得到應用并日臻成熟。但是,語音應用的另一層面,即語音轉寫,目前仍存在一定的難點,由于在產生錄音文件的過程中使用者并沒有預計到該錄音會被用于語音識別,因而與語音聽寫相比,語音轉寫將面臨說話風格、口音、錄音質量等諸多挑戰。

語音轉寫的典型場景包括,記者采訪、電視節目、課堂及交談式會議等等,甚至包括任何人在日常的工作生活中產生的任何錄音文件。 語音轉寫的市場及想象空間是巨大的,想象一下,如果人類可以征服語音轉寫,電視節目可以自動生動字幕、正式會議可以自動形成記要、記者采訪的錄音可以自動成稿……人的一生中說的話要比我們寫過的字多的多,如果有一個軟件能記錄我們所說過的所有的話并進行高效的管理,這個世界將會多么的讓人難以置信。

基于DFCNN的聲學建模技術

語音識別的聲學建模主要用于建模語音信號與音素之間的關系,科大訊飛繼去年12月21日提出前饋型序列記憶網絡(FSMN, Feed-forward Sequential Memory Network)作為聲學建模框架后,今年再次推出全新的語音識別框架,即深度全序列卷積神經網絡(DFCNN,Deep Fully Convolutional NeuralNetwork)。

目前較好的語音識別系統采用雙向長短時記憶網絡(LSTM,LongShort Term Memory),這種網絡能夠對語音的長時相關性進行建模,從而提高識別正確率。但是雙向LSTM網絡存在訓練復雜度高、解碼時延高的問題,尤其在工業界的實時識別系統中很難應用。因而科大訊飛使用深度全序列卷積神經網絡來克服雙向LSTM的缺陷。

CNN早在2012年就被用于語音識別系統,但始終沒有大的突破。主要的原因是其使用固定長度的幀拼接作為輸入,無法看到足夠長的語音上下文信息;另外一個缺陷將CNN視作一種特征提取器,因此所用的卷積層數很少,表達能力有限。

針對這些問題,DFCNN使用大量的卷積層直接對整句語音信號進行建模。首先,在輸入端DFCNN直接將語譜圖作為輸入,相比其他以傳統語音特征作為輸入的語音識別框架相比具有天然的優勢。其次,在模型結構上,借鑒了圖像識別的網絡配置,每個卷積層使用小卷積核,并在多個卷積層之后再加上池化層,通過累積非常多的卷積池化層對,從而可以看到非常長的歷史和未來信息。這兩點保證了DFCNN可以出色的表達語音的長時相關性,相比RNN網絡結構在魯棒性上更加出色,同時可以實現短延時的準在線解碼,從而可用于工業系統中。

(DFCNN 結構圖)

口語化和篇章級語言模型處理技術

語音識別的語言模型主要用于建模音素與字詞之間的對應關系。由于人類的口語為無組織性的自然語言,人們在自由對話時,通常會出現猶豫、回讀、語氣詞等復雜的語言現象,而以文字形式存在的語料通常為書面語,這兩種之間的鴻溝使得針對口語語言的語言模型建模面臨極大的挑戰。

科大訊飛借鑒了語音識別處理噪聲問題采用加噪訓練的思想,即在書面語的基礎上自動引入回讀、倒裝、語氣詞等口語“噪聲”現象,從而可自動生成海量口語語料,解決口語和書面語之間的不匹配問題。首先,收集部分口語文本和書面文本語料對;其次,使用基于Encoder-Decoder的神經網絡框架建模書面語文本與口語文本之間的對應關系,從而實現了口語文本的自動生成。

另外,上下文信息可以較大程度幫助人類對語言的理解,對于機器轉錄也是同樣的道理。因而,科大訊飛在去年12月21提出了篇章級語言模型的方案,該方案根據語音識別的解碼結果自動進行關鍵信息抽取,實時進行語料搜索和后處理,用解碼結果和搜索到的語料形成特定語音相關的語言模型,從而進一步提高語音轉寫的準確率。

(篇章級語言模型流程圖)

噪聲和遠場識別技術

語音識別的應用遠場拾音和噪聲干擾一直是兩大技術難題。例如在會議的場景下,如果使用錄音筆進行錄音,離錄音筆較遠說話人的語音即為遠場帶混響語音,由于混響會使得不同步的語音相互疊加,帶來了音素的交疊掩蔽效應,從而嚴重影響語音識別效果;同樣,如果錄音環境中存在背景噪聲,語音頻譜會被污染,其識別效果也會急劇下降。科大訊飛針對該問題使用了單麥克及配合麥克風陣列兩種硬件環境下的降噪、解混響技術,使得遠場、噪聲情況下的語音轉寫也達到了實用門檻。

單麥克降噪、解混響

對采集到的有損失語音,使用混合訓練和基于深度回歸神經網絡降噪解混響結合的方法。即一方面對干凈的語音進行加噪,并與干凈語音一起進行混合訓練,從而提高模型對于帶噪語音的魯棒性(編者注:Robust的音譯,即健壯和強壯之意);另一方面,使用基于深度回歸神經網絡進行降噪和解混響,進一步提高帶噪、遠場語音的識別正確率。

麥克風陣列降噪、解混響

僅僅考慮在語音處理過程中的噪音可以說是治標不治本,如何從源頭上解決混響和降噪似乎才是問題的關鍵。面對這一難題,科大訊飛研發人員通過在錄音設備上加上多麥克陣列,利用多麥克陣列進行降噪與解混響。具體地,使用多個麥克風采集多路時頻信號,利用卷積神經網絡學習波束形成,從而在目標信號的方向形成一個拾音波束,并衰減來自其他方向的反射聲。該方法與上述單麥克降噪和解混響的結合,可以進一步顯著的提高帶噪、遠場語音的識別正確率。

文本處理實時糾錯+文字后處理

前面所說的都只是對于語音的處理技術,即將錄音轉錄成文字,但正如上文所述人類的口語為無組織性的自然語言,即使在語音轉寫正確率非常高的情況下,語音轉寫文本的可閱讀性仍存在較大的問題,所以文本后處理的重要性就體現了出來。所謂文本后處理即對口語化的文本進行分句、分段,并對文本內容的流利性進行處理,甚至進行內容的摘要,以利于更好的閱讀與編輯。

后處理Ⅰ:分句與分段

分句,即對轉寫文本按語義進行子句劃分,并在子句之間加注標點;分段,即將一篇文本切分成若干個語義段落,每個段落描述的子主題各不相同。

通過提取上下文相關的語義特征,同時結合語音特征,來進行子句與段落的劃分;考慮到有標注的語音數據較難獲得,在實際運用中科大訊飛利用兩級級聯雙向長短時記憶網絡建模技術,從而較好的解決了分句與分段問題。

后處理Ⅱ:內容順滑

內容順滑,又稱為不流暢檢測,即剔除轉寫結果中的停頓詞、語氣詞、重復詞,使順滑后的文本更易于閱讀。

科大訊飛通過使用泛化特征并結合雙向長短時記憶網絡建模技術,使得內容順滑的準確率達到了實用階段。

歡迎加入本站公開興趣群

商業智能與數據分析群

興趣范圍包括各種讓數據產生價值的辦法,實際應用案例分享與討論,分析工具,ETL工具,數據倉庫,數據挖掘工具,報表系統等全方位知識

QQ群:81035754

文章版權歸作者所有,未經允許請勿轉載,若此文章存在違規行為,您可以聯系管理員刪除。

轉載請注明本文地址:http://m.specialneedsforspecialkids.com/yun/4447.html

相關文章

  • 極驗驗證:淺析深度學習模型與應用

    摘要:一時之間,深度學習備受追捧。百度等等公司紛紛開始大量的投入深度學習的應用研究。極驗驗證就是將深度學習應用于網絡安全防御,通過深度學習建模學習人類與機器的行為特征,來區別人與機器,防止惡意程序對網站進行垃圾注冊,撞庫登錄等。 2006年Geoffery ?Hinton提出了深度學習(多層神經網絡),并在2012年的ImageNet競賽中有非凡的表現,以15.3%的Top-5錯誤率奪魁,比利用傳...

    王巖威 評論0 收藏0
  • 谷歌大神Jeff Dean:大規模深度學習最新進展

    摘要:在與李世石比賽期間,谷歌天才工程師在漢城校區做了一次關于智能計算機系統的大規模深度學習的演講。而這些任務完成后,谷歌已經開始進行下一項挑戰了。谷歌深度神經網絡小歷史谷歌大腦計劃于年啟動,聚焦于真正推動神經網絡科學能達到的較先進的技術。 在AlphaGo與李世石比賽期間,谷歌天才工程師Jeff Dean在Google Campus漢城校區做了一次關于智能計算機系統的大規模深度學習(Large-...

    legendaryedu 評論0 收藏0
  • 深度學習綜述

    摘要:本文是雜志為紀念人工智能周年而專門推出的深度學習綜述,也是和三位大神首次合寫同一篇文章。逐漸地,這些應用使用一種叫深度學習的技術。監督學習機器學習中,不論是否是深層,最常見的形式是監督學習。 本文是《Nature》雜志為紀念人工智能60周年而專門推出的深度學習綜述,也是Hinton、LeCun和Bengio三位大神首次合寫同一篇文章。該綜述在深度學習領域的重要性不言而喻,可以說是所有人入門深...

    NoraXie 評論0 收藏0
  • 從Pix2Code到CycleGAN:2017年深度學習重大研究進展解讀

    摘要:文本谷歌神經機器翻譯去年,谷歌宣布上線的新模型,并詳細介紹了所使用的網絡架構循環神經網絡。目前唇讀的準確度已經超過了人類。在該技術的發展過程中,谷歌還給出了新的,它包含了大量的復雜案例。谷歌收集該數據集的目的是教神經網絡畫畫。 1. 文本1.1 谷歌神經機器翻譯去年,谷歌宣布上線 Google Translate 的新模型,并詳細介紹了所使用的網絡架構——循環神經網絡(RNN)。關鍵結果:與...

    kuangcaibao 評論0 收藏0
  • 達觀數據特聘專家復旦大學黃萱菁教授帶你了解自然語言理解中的表示學習

    摘要:表示學習和深度學習的興起是密切相關。自然語言處理中的深度學習在自然語言的表示學習中提及深度學習這是因為深度學習首要的用處就是進行自然語言的表示。圖是深度學習在自然語言理解中應用描述。 本文根據達觀數據特聘專家復旦大學黃萱菁教授在達觀數據舉辦的長三角人工智能應用創新張江峰會上的演講整理而成,達觀數據副總裁魏芳博士統稿 一、概念 1 什么是自然語言和自然語言理解? 自然語言是指漢語、英語、...

    Rocture 評論0 收藏0

發表評論

0條評論

explorer_ddf

|高級講師

TA的文章

閱讀更多
最新活動
閱讀需要支付1元查看
<