摘要:而就在這個時候,國內(nèi)也有一個新消息曝出釘釘已正式成立音視頻事業(yè)部,還下設(shè)釘釘蜂鳴鳥音頻實驗室,由技術(shù)大拿馮津偉直接負(fù)責(zé)。
前腳Facebook改名Meta,后腳微軟也在會議軟件上搞出XR新花樣。
這波元宇宙熱度燒得太旺,個中真假虛實著實讓人難以辨別。
而就在這個時候,國內(nèi)也有一個新消息曝出:
釘釘已正式成立音視頻事業(yè)部,還下設(shè)釘釘蜂鳴鳥音頻實驗室,由技術(shù)大拿馮津偉直接負(fù)責(zé)。
這個時間節(jié)點,瞄準(zhǔn)的又是國際大廠紛紛打上“元宇宙”標(biāo)簽的在線會議場景,釘釘此舉立即引得這樣一種說法甚囂塵上:
釘釘這個新實驗室的研發(fā)目標(biāo),指向的就是元宇宙。
啊?這意思,我以后不會要在元宇宙里遲到了吧。
個中真相,是有必要進(jìn)一步搞清楚。
話不多說,我們立即著手聯(lián)系了新聞中提到的新實驗室一號位——聲學(xué)大拿馮津偉博士。
來,真假虛實,我們一問究竟。
馮津偉博士首先向我們確認(rèn),釘釘確實多帶帶成立了音視頻事業(yè)部,并且下設(shè)音頻實驗室,網(wǎng)羅各路博士研究員的那種。
這加碼音視頻業(yè)務(wù)的意圖明明白白。不過在更靠近業(yè)務(wù)側(cè)的釘釘設(shè)立一個研究型實驗室,到底有些出人意料。
核心的問題就是:釘釘成立這個 “實驗室”,具體是要研究什么?關(guān)注哪個方向的前沿技術(shù)?
圍繞這一點,馮津偉博士向我們透露了他和團(tuán)隊的幾個“小目標(biāo)”:
其一,針對線上會議場景的最大痛難點,將對應(yīng)的前沿音頻技術(shù)論文算法,在釘釘進(jìn)行落地,提升音視頻產(chǎn)品體驗與競爭力。
例如,用目前常見的會議軟件在高鐵上、地鐵中緊急開會,往往會出現(xiàn)信號極不穩(wěn)定,說話人卡頓、掉線的情況。
現(xiàn)在,蜂鳴鳥音頻實驗室正在針對這種情況設(shè)計“高鐵模式”音頻方案,從聲學(xué)原理、信號處理到軟硬件產(chǎn)品全流程進(jìn)行技術(shù)研發(fā),力圖真正解決線上會議網(wǎng)絡(luò)不穩(wěn)定的問題,包括采用電腦自帶的麥克風(fēng)等通用收音硬件的情況。
其二,透過釘釘,把經(jīng)過驗證的成熟技術(shù)開放給行業(yè)伙伴。
例如研發(fā)獨立音視頻模組,把釘釘音視頻會議的產(chǎn)品技術(shù)、AI能力等封裝成一個硬件化的SDK,硬件可以接上模組,實現(xiàn)設(shè)備的智能化升級;
其三,進(jìn)行“下一代音視頻形態(tài)研究”,如XR。
如此看來,這個“蜂鳴鳥實驗室”的研究路徑,其實已經(jīng)很明確:既有研究成果——轉(zhuǎn)化為產(chǎn)品結(jié)果——向行業(yè)開放——深化研究。
而這也就是為什么,釘釘會請來馮津偉坐鎮(zhèn)新實驗室:
這位負(fù)責(zé)人本科、碩士分別畢業(yè)于南京大學(xué)無線電物理專業(yè)、聲學(xué)研究所,還是南洋理工大學(xué)電子信號處理碩士、弗吉尼亞理工大學(xué)聲學(xué)博士。
加入阿里巴巴前,馮津偉曾在公認(rèn)的全球視頻會議設(shè)備“黃埔軍校”——寶利通(Polycom)擔(dān)任首席工程師。以他為核心貢獻(xiàn)者的團(tuán)隊,成功研發(fā)了世界上首臺音視頻會議行業(yè)的智能攝像機(jī)。
可以說,他在聲學(xué)和信號處理方面的雙重背景,使其在世界音頻研究領(lǐng)域備受關(guān)注。
2017年加入達(dá)摩院之后,馮津偉博士也繼續(xù)著聲學(xué)與信號處理方面的研究。并且不僅是學(xué)術(shù)研究,事實上從2017年起,馮津偉就已經(jīng)負(fù)責(zé)起阿里內(nèi)部音頻與聲學(xué)相關(guān)算法的結(jié)合應(yīng)用。
最經(jīng)典的落地案例,就是支持釘釘F1音視頻一體機(jī)的打造,將語音3A算法(主要負(fù)責(zé)音頻降噪和增益)應(yīng)用到智能硬件中。
除此之外,釘閃會的會議轉(zhuǎn)寫“閃記”項目、遠(yuǎn)程教育的“專遞課堂”項目、釘釘音視頻一體機(jī)“F2”項目……背后也均有馮津偉所在達(dá)摩院團(tuán)隊技術(shù)方案的身影。
結(jié)合兩方面的信息,釘釘成立“實驗室”這一看上去不合常情的舉措,也就有了更為明確的解釋:
相比更側(cè)重于基礎(chǔ)理論型研究,蜂鳴鳥音頻實驗室主打應(yīng)用型研究——研究方向與釘釘音視頻的場景結(jié)合更為緊密。
馮津偉博士表示,這其實也是云釘一體給釘釘帶來的更深入的價值——從橫向支持到走進(jìn)來專項做業(yè)務(wù)。
“因為釘釘這個獨特的商業(yè)環(huán)境,每一項技術(shù)都直接能被用戶感知到,所以蜂鳴鳥音頻實驗室的風(fēng)格會在技術(shù)的理想主義和現(xiàn)實主義之間。我們的定位是研究‘領(lǐng)先半步到一步’的技術(shù),既具有領(lǐng)先性,又能落地。”馮津偉這樣解釋。
并且具體到團(tuán)隊本身,研究基礎(chǔ)早已具備,實驗室成立亦能加速技術(shù)的聚攏和落地。
說到這里,最關(guān)鍵的問題也可以展開解答了:
這個時間節(jié)點,明確提出瞄準(zhǔn)“下一代音視頻形態(tài)研究”,還和產(chǎn)品結(jié)合如此緊密,釘釘莫非真的如外界所猜測,要在微軟Meta之后,加速沖向元宇宙了?
馮津偉博士的答案很明確:否。
他指出,XR是蜂鳴鳥音頻實驗室的一個研究方向,但實驗室的核心目標(biāo)還是圍繞音頻的基礎(chǔ)能力建設(shè)與創(chuàng)新,最優(yōu)先要做的,還是改善釘釘音視頻的軟硬件體驗。
甚至歸納起來時,釘釘蜂鳴鳥音頻實驗室成立的真實原因,比想象中要更加樸素——
無論是從自身業(yè)務(wù)角度、還是從整個行業(yè)來看,音頻都是一塊必須要補的技術(shù)“短板”。
在馮津偉看來,站在行業(yè)角度,音頻技術(shù)在會議場景下其實還有很大的發(fā)展空間。甚至“音頻技術(shù)研發(fā)的優(yōu)先級應(yīng)該大于視頻技術(shù)”。
他引用了音視頻行業(yè)的一句名言:
No video, people talk; no audio, people walk.(即使沒有視頻,人們還能在會議中聊天;但沒有音頻的話,人們就只能散會了)
而包括弱網(wǎng)場景、3D音頻、個性化降噪在內(nèi)的音頻技術(shù),其實更是下一代交互技術(shù)(如跟元宇宙緊密結(jié)合的XR)的核心體驗要點。
但目前的現(xiàn)狀卻是,像微軟、Meta這樣的大型互聯(lián)網(wǎng)公司,在視頻技術(shù)上已經(jīng)有不少儲備。相比之下,大部分會議軟件在音頻技術(shù)上,投入都相對較少,整體也還沒有太大的動作。
一個最常見的場景就是開會,我們在開視頻會議時,如果用的是手機(jī)、電腦自帶的麥克風(fēng),就會發(fā)現(xiàn)稍遠(yuǎn)一點距離就聽不清了;有幾個人爭論,AI速記軟件就傻傻分不清楚了,一堆看不懂的文字紀(jì)要出來了;如果會議室混響很大,別說AI速記軟件,回音的影響下,人也是聽不清了。
這是音頻研究上最基礎(chǔ)的拾音問題。無論是視頻會議,還是語音識別,除非對著麥克風(fēng)說話,都會面臨這項難題。
實際上,遠(yuǎn)場拾音一直是業(yè)界的難點與痛點,挑戰(zhàn)來自在閉空間中的混響、噪聲、回波,其中去混響曾被美國工程院列為“當(dāng)代未解決的十大工程問題之一”,學(xué)術(shù)界和工業(yè)界已經(jīng)研究了幾十年,目前仍沒有完美的解決方案。
所以,蜂鳴鳥音頻實驗室接下來重點要做的,就是在更基礎(chǔ)的音頻技術(shù)上進(jìn)行突破,并從這個角度出發(fā),改變釘釘、釘釘合作伙伴直至產(chǎn)業(yè)的現(xiàn)狀。
背后的具體技術(shù)路線,也已經(jīng)可以從團(tuán)隊研發(fā)儲備中推測出來。
比如針對前文中遠(yuǎn)場拾音的麥克風(fēng)陣列技術(shù),這一技術(shù)主要負(fù)責(zé)聲音信號的定位和提取。光是去年一年,馮津偉所在的大團(tuán)隊就在INTER-SPEECH等國際音頻頂會上,主導(dǎo)發(fā)表了系列論文6篇,均與自研的“指向性差分麥克風(fēng)陣列”技術(shù)有關(guān)。
這項研究首次將麥克風(fēng)聲學(xué)特性和差分波束理論的優(yōu)勢進(jìn)行結(jié)合,明顯改善了語音低頻拾音的魯棒性,將差分波束在低頻段的白噪聲增益明顯提升,并將遠(yuǎn)場拾音的語音識別準(zhǔn)確率提升至行業(yè)TOP 1,比第二名高出7%~9%。
另外,以差分陣列為載體,馮津偉團(tuán)隊還和相關(guān)團(tuán)隊合作,提出了業(yè)界首個利用差分陣列計算空間方位信息,用于角色分離的技術(shù)框架。也積極參與了業(yè)界首個基于指向性麥克風(fēng)陣列的大規(guī)模遠(yuǎn)場語音開源數(shù)據(jù)集建設(shè)。
還有語音3A算法。
馮津偉團(tuán)隊會將達(dá)摩院Fullband 3A快速在釘釘落地,這項算法對會議拾音的3個核心能力做了深度優(yōu)化:
優(yōu)化主講增益(AGC)。實測3米以外10dBFS的聲音可增益至22dBFS,距離主機(jī)5米的地方講話,對方依然可以聽得很清楚。
優(yōu)化回聲消除(AEC)。能有效消除99%由揚聲器外放聲音經(jīng)空間傳播后產(chǎn)生的回聲,人聲失真控制在3%以內(nèi);實現(xiàn)房間自適應(yīng),可以智能檢測房間混響,實現(xiàn)雙講透明。
優(yōu)化噪聲抑制(ANS)。能夠抑制特定的噪聲,比如壓制主講人旁邊的人聲和會議室常見的空調(diào)、鼠標(biāo)、鍵盤、翻書等噪音,確保傳遞出的聲音更純凈。
這一算法目前已經(jīng)應(yīng)用在釘釘F1視頻會議一體機(jī),以及合作伙伴的產(chǎn)品上。借助這一算法,相關(guān)產(chǎn)品在音頻質(zhì)量主觀盲測MOS等得分,遠(yuǎn)超同段位視頻會議設(shè)備。可以說是同類產(chǎn)品中的性價比之選。
……
技術(shù)儲備顯然已經(jīng)就位,思路亦清晰明朗。從這個角度來說,釘釘加碼音視頻技術(shù)這一舉動,似乎也值得被重新評估。
無疑,元宇宙是當(dāng)下最火科技熱詞,而釘釘?shù)臅h場景,又恰恰是巨頭們紛紛看好的元宇宙應(yīng)用陣地。
技術(shù)、場景對口,又背靠阿里這樣的大集團(tuán),乘概念之勢提前搶占生態(tài)位,聽上去倒也是業(yè)內(nèi)的常規(guī)操作。
但或許,恰恰是在概念滿天飛之時,才更應(yīng)該冷靜思考,什么才是現(xiàn)有技術(shù)能直觀改變用戶體驗之處,什么才是行業(yè)最急需的技術(shù)進(jìn)步。
釘釘單純加碼音視頻,又著重選擇了音頻這個更不容易被“看”到的賽道,看似逆潮流,但反過來說,焉不是一種對自身定位的明確,一種技術(shù)底氣的體現(xiàn)。
說到這里,吃瓜已畢:釘釘確實加碼了音視頻,但進(jìn)軍元宇宙——還不到這份上。
話說回來,雖然不是直指元宇宙,但正如前文所說,音頻等技術(shù)同樣是保障元宇宙交互體驗的基礎(chǔ)。釘釘音視頻將開放建生態(tài)作為重點,或許反而能在元宇宙的未來風(fēng)向里站穩(wěn)自己的生態(tài)位。
而且,馮津偉也強(qiáng)調(diào),有了音頻實驗室的中間環(huán)節(jié),釘釘接下來與達(dá)摩院語音、視頻、視覺、XR等相關(guān)實驗室的合作將會更深入,畢竟同為研究人員,更有共同話題嘛(手動狗頭)。
不過,釘釘?shù)倪x擇,卻也引發(fā)了新一層思考:
跟風(fēng)熱度,而缺少對行業(yè)本質(zhì)的洞察,恐怕會在愈發(fā)擁擠的賽道之中,偏離自身的航向。
stop doing list,未為不可。
你覺得呢?
最后的最后,馮津偉博士還向我們透露了一個訊息:
釘釘蜂鳴鳥音頻實驗室啟動階段,人才需求旺盛。
感興趣的小伙伴可以投起來了。
文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉(zhuǎn)載請注明本文地址:http://m.specialneedsforspecialkids.com/yun/123691.html
摘要:往年回顧氪研究院長期追蹤一級市場行業(yè)動態(tài),深入調(diào)研各領(lǐng)域細(xì)分賽道最具代表性的企業(yè),從行業(yè)發(fā)展環(huán)境成長性競爭格局未來趨勢等角度進(jìn)行分析與研究,輸出了包含人工智能金融教育醫(yī)療交通文娛電商泛科技在內(nèi)的上百份報告。 showImg(http://upload-images.jianshu.io/upload_images/13825820-d8888a77e920c16f.jpg?imageM...
摘要:不同瀏覽器下的限制策略和方案的整理端瀏覽器的限制策略和應(yīng)對方案使用在端測試的瀏覽器包括瀏覽器瀏覽器瀏覽器瀏覽器限制策略內(nèi)容參考自年月份發(fā)布的正式關(guān)掉了聲音自動播放靜音自動播放總是允許的。 不同瀏覽器下 autoplay 的限制策略和方案的整理 PC 端瀏覽器的限制策略 和 應(yīng)對方案 使用 Mac 在 PC 端測試的瀏覽器包括 Chrome 瀏覽器 Safari 瀏覽器 Firefox...
王菊 這波熱點來得莫名其妙啊,讓我們這些 菊外人 一臉懵逼。 showImg(https://segmentfault.com/img/remote/1460000016404968?w=600&h=1035);showImg(https://segmentfault.com/img/remote/1460000016404969?w=600&h=317);showImg(https://segm...
閱讀 2115·2021-11-18 10:02
閱讀 2863·2021-09-04 16:41
閱讀 1156·2019-08-30 15:55
閱讀 1421·2019-08-29 17:27
閱讀 1111·2019-08-29 17:12
閱讀 2541·2019-08-29 15:38
閱讀 2865·2019-08-29 13:02
閱讀 2842·2019-08-29 12:29