前言:深度神經網絡(DNN)是近幾年在工業(yè)界和學術界新型的一個機器學習領域的熱點話題。DNN算法成功的將以往的智能識別率提高了一個顯著的檔次,可以極大地提高圖像、語音識別的準確度,可以更快地推動智能人機交互(HCI)技術的進步。
自DNN發(fā)展以來,該技術已成功應用于語音識別技術領域,并取得很好的效果,在移動互聯(lián)網中已實現(xiàn)廣泛應用。近一年來,伴隨語音質檢系統(tǒng)在各在呼叫中心得到越來越廣的重視,捷通華聲通過與清華大學合作,成功將深度神經網絡應用到靈云語音質檢分析系統(tǒng)中,促進語音轉寫識別率達到實用化水平,從而使語音質檢質量與效率得到大幅提升。
深度學習神經網絡是機器學習研究中的一個新的領域,其動機在于建立、模擬人腦進行分析學習的神經網絡,它模仿人腦的機制來解釋數據,例如圖像,聲音和文本。2010年,微軟雷德蒙研究院發(fā)現(xiàn)深層網絡可顯著提高語音識別的精度。此后,微軟亞洲研究院在測試中發(fā)現(xiàn)應用DNN的語音識別模型識別錯誤率比最低錯誤率降低了33%之多,即絕對識別率提升了6.6%。
“使結果發(fā)生翻天覆地變化的是DNN,通過應用DNN,在日常對話中,最多可使單詞識別錯誤率比之前降低42%。這意味著,以往10個錯誤,有4個能用這種方法解決。這是自HMM(隱馬爾科夫模型)出現(xiàn)以來,單項技術使語音識別精確度獲得的最大提升”,微軟亞洲研究院研究員Frank Seide解釋道。
顯然,比起傳統(tǒng)的混合高斯模型(GMM),DNN在識別精度上具有相當的優(yōu)勢。
在采用了最先進的第4代深度神經網絡算法后,捷通華聲靈云語音識別的通用語音識別率達到93%以上,定制模型的識別率達到97%以上,各項指標已經達到國內最好水準。然而,在對其他聲源的識別能力上DNN是否會有所突破呢?2013年,捷通華聲與清華大學合作,開始在靈云語音質檢系統(tǒng)上應用DNN技術。該系統(tǒng)以識別“電話通道語音”為核心,將通話錄音中的語音信息提取出來,通過靈云語音識別轉換成文本保存在系統(tǒng)中,再通過提取關鍵詞、靜音檢測、情緒檢測、語速檢測等方式對語音進行篩選分析,從而得出質檢結果。通過靈云語音質檢系統(tǒng),可以幫助客戶將客服錄音數據進行各種分析,從而針對性地改善呼叫中心的服務質量。其中除對企業(yè)自身呼叫中心質檢之外,這套系統(tǒng)還可以為企業(yè)分析客戶的反饋意見,跟蹤廣大用戶的熱點問題,從而對公司的產品和服務提出優(yōu)化建議,實現(xiàn)更加精準的市場決策。因此,“電話通道語音”識別的精度越高意味著語音質檢的效率越高、客戶體驗越好。在應用DNN之后,客戶普遍反映靈云語音質檢的質量和效率已經有明顯的提升,證明了DNN在多聲源識別中的適用能力。
DNN的火熱雖早已經引起語音企業(yè)的重視,而圖像是DNN最早嘗試的應用領域--它已經使 YouTube的視頻分類提高了70%的準確率。而恰好圖像識別又是靈云的另一條主打產品線:靈云智能圖像。在語音識別和DNN產生化學反應后,我們有理由期待靈云智能圖像識別&DNN在票證、車牌、人臉等圖像識別領域的更新的表現(xiàn)。
捷通華聲在語音識別、圖像識別等技術領域全面應用DNN,得到了清華大學的鼎力支持。2013年,清華大學產業(yè)基金入資捷通華聲,成為捷通華聲第二大股東,也因此確立了捷通華聲與清華大學的戰(zhàn)略合作關系,并得到清華大學HCI領域中強大科研力量的支持。捷通華聲憑借自身在智能語音、智能圖像、自然語言理解等技術領域的技術積累,與清華大學HCI技術各領域實驗室、專家教授建立起聯(lián)合研究機制,為長期發(fā)展HCI技術奠定了堅實的基礎。
捷通華聲此次與清華大學在DDN領域的成功合作,也標示清華大學在HCI技術領域的雄厚科研力量通過與市場需求的緊密結合,開始全面服務社會。未來發(fā)展,捷通華聲將發(fā)揚清華大學在國家科技進步、國民經濟建設中的強大推動力與影響力,全面推進靈云發(fā)展戰(zhàn)略,促進提升清華大學HCI技術在產業(yè)中的影響力,助力清華大學構建“學術超前、科研領先、產業(yè)化推廣最強”的領導地位,從而共同實現(xiàn)“靈云科技 源自清華 服務全球”的戰(zhàn)略發(fā)展規(guī)劃,為中國HCI產業(yè)化發(fā)展做出更大的貢獻。