- 新一代人工智能與語音識別
- 馬延周
- 869字
- 2019-12-20 12:03:36
前言
隨著人工智能、計算技術和信號處理技術的飛速發展,以及自然語言與計算機網絡的結合,語言的功能已由人際交流延伸至人機交流和機機交流,而實現這一目標的重要前提是計算機能夠聽懂并識別和理解人類的語言。當前,作為人機交互的關鍵技術,語音信息智能處理已成為網絡空間環境下世界各國研究者廣泛關注的熱點問題之一。尤其是隨著新媒體的出現和大數據的興起,人們迫切需要對具有多通道、多來源、多語言特征的海量語音信息技術進行深化研究與創新突破,此項技術的戰略意義和安全價值日漸突顯。
近年來,國內外眾多科研院所和企業都對英文和中文語音識別進行了深入的探索和研究,開發了一系列實用化系統,但是在俄語語音識別領域,尤其是對連續語音識別的研究還相對薄弱。本書通過考察分析國內外語音識別技術的研究現狀及存在的難題,重點研究俄語連續語音識別的基本原理和關鍵技術,嘗試采用深度神經網絡(DNN)的聲學模型優化訓練方法,設計俄語連續語音識別原型系統。
本書試圖解決以下三個問題:
(1)俄語新聞語音語料和文本語料的采集、過濾、清洗、標注及建庫方法;
(2)建立基于DNN的聲學模型和基于SRILM的語言模型,分析兩類模型的訓練算法優化和訓練結果,并通過對比預測生成適用于語音識別的俄語發音詞典;
(3)設計與實現兼具在線和離線識別功能的俄語連續語音識別原型系統,并對原型系統的性能進行測試驗證。
本書取得的主要成果如下:
(1)在俄語聲學模型訓練過程中設計了基于眾包的語音標注平臺,建立了360小時的俄語新聞標注語音語料庫,形成俄語語音識別音素集,采用DNN的優化訓練方法生成了大小為59.7MB的聲學模型;
(2)在俄語語言模型訓練過程中設計了俄語新聞文本語料過濾清洗系統,建立了10GB規模的純凈可訓練俄語文本語料庫,采用SRILM的優化訓練方法生成了大小為1.21GB的四元剪枝語言模型;
(3)通過數據驅動的方法預測生成包含76277個詞形的俄語發音詞典,利用該詞典的數據資源,并基于Kaldi進行二次開發,實現了具有在線識別和離線識別功能的俄語連續語音識別原型系統,可以為面向特定領域的俄語語音識別實用系統的研發提供基礎理論和關鍵技術支撐。
馬延周
2019年7月
- 面向STEM的mBlock智能機器人創新課程
- R Machine Learning By Example
- 大數據改變世界
- iClone 4.31 3D Animation Beginner's Guide
- 80x86/Pentium微型計算機原理及應用
- 我也能做CTO之程序員職業規劃
- 云原生架構進階實戰
- 網中之我:何明升網絡社會論稿
- 水晶石影視動畫精粹:After Effects & Nuke 影視后期合成
- Hands-On SAS for Data Analysis
- 大數據:引爆新的價值點
- 人工智能云平臺:原理、設計與應用
- Web滲透技術及實戰案例解析
- AWS Administration:The Definitive Guide(Second Edition)
- Arduino創意機器人入門:基于Mixly