- Kaldi語音識別實戰(zhàn)
- 陳果果等
- 720字
- 2020-06-05 16:56:36
序2
在最近的十年里,語音識別、語音合成和語音信號處理都有了長足的發(fā)展。這些發(fā)展一方面歸功于研究人員在語音處理領(lǐng)域引入了一系列新的研究成果,比如序列上的區(qū)分度訓(xùn)練和基于深度學(xué)習(xí)的識別和合成框架,另一方面得益于用戶在移動互聯(lián)網(wǎng)時代對語音技術(shù)的應(yīng)用需求和與之對應(yīng)的海量數(shù)據(jù)和強大計算力,這些因素互相促進,極大地推動了語音技術(shù)的發(fā)展,并使得語音技術(shù)的性能指標在幾年前就超過了用戶的使用門檻,催生了大量的實際應(yīng)用。
在技術(shù)和應(yīng)用的發(fā)展過程中,工具一直占有著重要的地位,比如,TensorFlow、PyTorch、CNTK、MXNet等深度學(xué)習(xí)工具的出現(xiàn)極大地推動了深度學(xué)習(xí)的發(fā)展。而語音系統(tǒng)鏈路復(fù)雜,涉及的技術(shù)模塊多樣,所需的領(lǐng)域知識點繁多,對工程優(yōu)化的要求高,好的工具就顯得尤為重要。早期的語音識別的發(fā)展大大得益于HTK和Sphinx工具集,而在最近的十年里,Kaldi工具箱對于語音技術(shù)的普及和研發(fā)起到了舉足輕重的作用。
Kaldi起源于2009年的約翰霍普金斯大學(xué)夏季研討會,當(dāng)時我在微軟研究院語音與對話研究組的同事Dan Povey博士提出了Subspace Gaussian Mixture Model(SGMM),并在研討會上組織研究了這個模型。作為這個研究的一個副產(chǎn)品,他們開始整理和開發(fā)一個新的語音技術(shù)工具箱Kaldi,并采用了開源的開發(fā)模式。經(jīng)過十年的發(fā)展,Kaldi已經(jīng)成為深度學(xué)習(xí)時代主流的語音技術(shù)工具箱,集成了大量的最新進展和最優(yōu)腳本,極大地降低了語音技術(shù)的研究和應(yīng)用門檻。
不過,Kaldi是一個持續(xù)發(fā)展中的開源項目,它的文檔大大落后于代碼。本書作者們基于自己多年的一線語音研發(fā)和Kaldi使用經(jīng)驗,深入淺出地介紹了語音識別各個模塊的原理及Kaldi中各種實踐技巧的來龍去脈和使用方法,極大地彌補了Kaldi文檔方面的缺陷,降低了Kaldi的學(xué)習(xí)和使用門檻,有助于Kaldi的進一步推廣和開發(fā)。
俞棟 IEEE Fellow,騰訊人工智能實驗室副主任
2019年9月28日于西雅圖
- SDH技術(shù)(第3版)
- LED封裝與檢測技術(shù)
- Android 10 Kotlin編程通俗演義
- 通信專業(yè)綜合能力(中級)
- 電子產(chǎn)品組裝技能演練
- 配電網(wǎng)可靠性規(guī)劃
- 大話無線室內(nèi)分布系統(tǒng)
- 電子工程師必備——元器件應(yīng)用寶典
- 索尼新型彩色電視機速修圖解
- 創(chuàng)客電子制作實例精選:36個趣味電子DIY項目
- PeopleSoft PeopleTools移動應(yīng)用開發(fā)
- RFID標簽所有權(quán)安全轉(zhuǎn)換
- Final Cut Pro X實戰(zhàn)從入門到精通
- 配電網(wǎng)故障檢測定位技術(shù)及典型案例
- 大話TD-SCDMA