官术网_书友最值得收藏!

自動語音識別(Automatic Speech Recognition,ASR)是自然語言處理(Natural Language Processing,NLP)的一個重要領域。

世界上第一臺能夠自動識別語音的機器當屬一種名為Radio Rex的玩具。這種玩具出現于20世紀20年代。Radio Rex是一個用賽璐璐材料制作成的玩具狗,它受到一根彈簧的控制,彈簧在500Hz的聲音頻率下會釋放,彈簧一旦釋放,玩具狗就會動起來。由于500Hz的頻率粗略等于單詞Rex中元音的第一個共振峰的頻率,因此當人們說出Rex的時候,這只叫作Radio Rex的玩具狗就會在人們的呼喚聲中自動走過來。

20世紀40年代末至50年代初,美國建立了一系列機器語音識別系統。早期,美國貝爾實驗室中的系統可以識別一個單獨說話人講出的10個數字中的任何一個,這個系統存儲了不依賴于說話人的10個模式,每個數字各有一個模式,每個模式都代表每個數字中的前兩個元音的共振峰,研究人員通過選擇與輸入語音存在最高相關系數的方法使數字的語音識別正確率達到了97%~99%。

英國倫敦大學的Fry和Denes建立了一個音位識別系統,根據模式識別原則,該系統能夠識別英語中的4個元音和9個輔音。Fry和Denes研發的系統首次使用了音位轉移概率對語音識別系統進行約束。

20世紀60年代末至70年代初出現了許多重要的創新性研究成果。

首先,出現了一系列特征抽取算法,包括高效的快速傅里葉變換(Fast Fourier Transform,FFT)、倒譜(cepstrum)處理在語音中的應用以及語音編碼中的線性預測編碼(Linear Predictive Coding,LPC)的研制。

其次,提出了一些處理翹曲變形(warping)的方法,當與存儲模式匹配時,通過展寬和收縮輸入信號的方法處理說話速率和切分長度的差異。解決這些問題的最自然的方法是動態規劃(dynamic programming)。在研究這個問題的時候,同樣的算法被多次重新提出。最早把動態規劃應用于語音處理技術的人是Vintsyk,盡管他的成果沒有被其他研究人員提及,但是后來有很多研究者都再次重復了他的發明。隨后,Itakura把這種動態規劃的思想和LPC系數相結合,并首次在語音編碼中使用,他建立的系統可以抽取輸入單詞中的LPC特征,并使用動態規劃的方法把這些特征與存儲的LPC模板相匹配。這種動態規劃方法的非概率應用是對輸入語音進行模板匹配,稱為動態時間翹曲變形(dynamic time warping)。

最后是隱馬爾可夫模型(Hidden Markov Model,HMM)的興起。1972年前后,美國的研究人員分別在兩個實驗室獨立應用HMM研究語音問題。其中一部分的應用是由一些統計學領域的工作引起的,Baum和他的同事在普林斯頓國防分析研究所研究HMM,并把它應用于各種預測問題的解決。James Baker在于卡內基-梅隆大學(Carnegie-Mellon University,CMU)攻讀碩士期間研究了Baum等人的工作內容,并把他們的算法應用于語音處理。同時,在IBM公司的Thomas J. Watson研究中心,Frederick Jelinek、Robert Mercer、Lalit Bahl獨立把HMM應用于語音研究,他們在信息模型方面的研究受到了Shannon的影響。IBM的系統和Baker的系統非常相似,都使用了貝葉斯(Bayes)算法,不同之處是早期的解碼算法。Baker的DRAGON系統使用了維特比(Viterbi)動態規劃解碼,而IBM系統則應用了Jelinek的棧解碼算法。Baker在建立DRAGON系統之前曾經短期參加過IBM小組的工作。IBM的語音識別方法在20世紀末期完全主導了語音識別領域,IBM實驗室是把統計模型應用于自然語言處理的推動力量,他們研制了基于類別的多元語法模型,研制了基于HMM的詞類標注系統,研制了統計機器翻譯系統,他們還使用熵和困惑度作為評測系統的度量指標。

HMM逐漸在語音處理界流傳開來,原因之一是美國國防部(U. S. Department of Defense)高級研究計劃署(Advanced Research Projects Agency,ARPA)發起了一系列相關研究和開發計劃。第一個“五年計劃”始于1971年,目標是建立基于少數說話人的語音理解系統。這個系統使用了一個約束性語法和一個詞表(包括1000個單詞),要求語義錯誤率低于10%。ARPA資助了四個系統,并且對它們進行了比較,這四個系統是:系統開發公司的系統(System Development Corporation,SDC)、Bolt,Beranek & Newman(BBN)的HWIM系統、卡內基-梅隆大學的Hearsay-Ⅱ系統和Harpy系統。其中,Harpy系統使用了Baker基于HMM的DRAGON系統的簡化版本,在評測系統時得到了最佳成績。對于一般任務,Harpy系統的語義正確率達到了94%,是唯一一個達到了ARPA計劃目標的系統。

自20世紀80年代中期開始,ARPA陸續資助了一些新的語音研究計劃。第一個計劃的任務是資源管理(Resource Management,RM),與ARPA早期的課題類似,其主要進行閱讀語音(說話人閱讀的句子的詞匯量包含1000個單詞)的轉寫(即語音識別),但這個系統還包括一個不依賴于說話人的語音識別裝置。該計劃的另一個任務是建立《華爾街雜志》(Wall Street Journal)的句子閱讀識別系統,該系統的初始詞匯量被限制在5000個單詞以內,到最后,系統已經沒有了詞匯量的限制。事實上,大多數系統的詞匯量都已經有了約6萬個單詞。后來的語音識別系統能夠識別的語音已經不再是簡單的閱讀語音了,而是更加自然的語音。其中,廣播新聞識別系統可以轉寫廣播新聞,甚至轉寫那些非常復雜的新聞,如現場采訪;還有CallHome系統、CallFriend系統和Fisher系統,它們可以識別人們在電話交流中的自然對話。空中交通信息系統(Air Traffic Information System,ATIS)屬于語音理解領域的課題之一,該系統可以幫助用戶預訂飛機票,回答用戶關于航班、飛行時間、日期等方面的問題。

ARPA計劃大約每年進行一次匯報,參加匯報的除了有ARPA資助的課題以外,還有來自北美和歐洲的其他“志愿者”系統,匯報時將分別測試各個系統的單詞錯誤率和語義錯誤率。在早期測試中,營利型公司一般不參加比賽,但是隨著時間的推移,很多公司開始積極參賽(特別是IBM公司和AT&T公司)。ARPA的比賽促進了各個實驗室之間的借鑒和交流,因為在比賽中可以很容易地看出大家過去一年的研究進展和成果,這成為了HMM模型能夠傳播到每一個語音識別實驗室的重要因素。ARPA的計劃也造就了很多有用的數據庫,這些數據庫原來都是為了評估而設計的訓練系統和測試系統(如TIMIT、RM、WSJ、ATIS、BN、CallHome、Switchboard、Fisher),但是后來卻都在其他總體性研究中得到了應用。

中國在語音自動處理領域也取得了很不錯的成績。于1999年6月9日成立的安徽科大訊飛信息科技股份有限公司(簡稱科大訊飛)是一家專門從事智能語音及語音技術研究、軟件及芯片產品開發、語音信息服務的國家級骨干軟件企業。科大訊飛推出的產品包括大型電信級的應用到小型嵌入式的應用,電信、金融等行業到企業和家庭用戶,PC到手機再到MP3、MP4、PMP和玩具,能夠滿足不同的應用環境。科大訊飛占有中文語音技術市場60%以上的市場份額,以科大訊飛為核心的中文語音產業鏈已經初具規模。

由以上介紹不難看出,自動語音識別是一個交叉學科,需要具備語言學、計算機科學、聲學等領域的知識。

本書作者馬延周不懼困難,他努力進行知識更新后的再學習,根據俄語語音的特點優化了聲學層的HMM模型,采用較好的算法解決了訓練數據不足和訓練速度慢的問題;他還在具有較強背景噪聲和多個說話人的環境下采用了降噪技術,增強了俄語語音識別的健壯性;此外,他還利用了各種能夠輔助俄語語音識別的語言信息,除了俄語語音的頻譜特征參數、能量參數、韻律參數以外,他還綜合利用了俄語構詞規則、變格變位規則、句法表現形式以及語義辨析和語境條件,有效地降低了俄語語音識別的錯誤率。

在研究過程中,作者建立了基于眾包的俄語語音標注平臺和語音語料庫,設計了面向俄語新聞網頁文本數據過濾清洗系統的俄語文本語料庫,為俄語連續語音識別系統的研究開辟了新途徑。作者還構建了一個具有一定規模的俄語發音詞典,可以將俄語文本轉寫為相應的俄語標準發音,并對俄語語音識別中的音素集和字音轉換規則進行了優化,降低了聲學模型的訓練難度,提高了模型的訓練效果。最后,作者設計并實現的俄語連續語音識別原型系統同時具有在線識別功能和離線識別功能,這在一定程度上填補了中國俄語語音識別研究領域的空白。

本書詳細闡述了作者的創新性研究,值得我們認真學習,是為序。

馮志偉

2019年6月5日

主站蜘蛛池模板: 漳州市| 龙岩市| 法库县| 黄大仙区| 固原市| 剑川县| 田阳县| 海原县| 长白| 卢氏县| 绥化市| 大理市| 巴中市| 和静县| 汉中市| 渭南市| 青浦区| 沙洋县| 临泽县| 阳西县| 尚义县| 定州市| 通山县| 万州区| 昌吉市| 双桥区| 张家港市| 郯城县| 两当县| 凤台县| 文水县| 济阳县| 高平市| 南溪县| 兴安县| 贺州市| 吉木乃县| 新宾| 彭阳县| 北辰区| 松桃|