書名：新一代人工智能與語音識別
作者名：馬延周
本章字數： 869字
更新時間： 2019-12-20 12:03:36

前言

隨著人工智能、計算技術和信號處理技術的飛速發展，以及自然語言與計算機網絡的結合，語言的功能已由人際交流延伸至人機交流和機機交流，而實現這一目標的重要前提是計算機能夠聽懂并識別和理解人類的語言。當前，作為人機交互的關鍵技術，語音信息智能處理已成為網絡空間環境下世界各國研究者廣泛關注的熱點問題之一。尤其是隨著新媒體的出現和大數據的興起，人們迫切需要對具有多通道、多來源、多語言特征的海量語音信息技術進行深化研究與創新突破，此項技術的戰略意義和安全價值日漸突顯。

近年來，國內外眾多科研院所和企業都對英文和中文語音識別進行了深入的探索和研究，開發了一系列實用化系統，但是在俄語語音識別領域，尤其是對連續語音識別的研究還相對薄弱。本書通過考察分析國內外語音識別技術的研究現狀及存在的難題，重點研究俄語連續語音識別的基本原理和關鍵技術，嘗試采用深度神經網絡（DNN）的聲學模型優化訓練方法，設計俄語連續語音識別原型系統。

本書試圖解決以下三個問題：

（1）俄語新聞語音語料和文本語料的采集、過濾、清洗、標注及建庫方法；

（2）建立基于DNN的聲學模型和基于SRILM的語言模型，分析兩類模型的訓練算法優化和訓練結果，并通過對比預測生成適用于語音識別的俄語發音詞典；

（3）設計與實現兼具在線和離線識別功能的俄語連續語音識別原型系統，并對原型系統的性能進行測試驗證。

本書取得的主要成果如下：

（1）在俄語聲學模型訓練過程中設計了基于眾包的語音標注平臺，建立了360小時的俄語新聞標注語音語料庫，形成俄語語音識別音素集，采用DNN的優化訓練方法生成了大小為59.7MB的聲學模型；

（2）在俄語語言模型訓練過程中設計了俄語新聞文本語料過濾清洗系統，建立了10GB規模的純凈可訓練俄語文本語料庫，采用SRILM的優化訓練方法生成了大小為1.21GB的四元剪枝語言模型；

（3）通過數據驅動的方法預測生成包含76277個詞形的俄語發音詞典，利用該詞典的數據資源，并基于Kaldi進行二次開發，實現了具有在線識別和離線識別功能的俄語連續語音識別原型系統，可以為面向特定領域的俄語語音識別實用系統的研發提供基礎理論和關鍵技術支撐。

馬延周

2019年7月

官术网_书友最值得收藏!

新一代人工智能與語音識別

前言