官术网_书友最值得收藏!

序2

在最近的十年里,語音識別、語音合成和語音信號處理都有了長足的發(fā)展。這些發(fā)展一方面歸功于研究人員在語音處理領(lǐng)域引入了一系列新的研究成果,比如序列上的區(qū)分度訓(xùn)練和基于深度學(xué)習(xí)的識別和合成框架,另一方面得益于用戶在移動互聯(lián)網(wǎng)時代對語音技術(shù)的應(yīng)用需求和與之對應(yīng)的海量數(shù)據(jù)和強大計算力,這些因素互相促進,極大地推動了語音技術(shù)的發(fā)展,并使得語音技術(shù)的性能指標在幾年前就超過了用戶的使用門檻,催生了大量的實際應(yīng)用。

在技術(shù)和應(yīng)用的發(fā)展過程中,工具一直占有著重要的地位,比如,TensorFlow、PyTorch、CNTK、MXNet等深度學(xué)習(xí)工具的出現(xiàn)極大地推動了深度學(xué)習(xí)的發(fā)展。而語音系統(tǒng)鏈路復(fù)雜,涉及的技術(shù)模塊多樣,所需的領(lǐng)域知識點繁多,對工程優(yōu)化的要求高,好的工具就顯得尤為重要。早期的語音識別的發(fā)展大大得益于HTK和Sphinx工具集,而在最近的十年里,Kaldi工具箱對于語音技術(shù)的普及和研發(fā)起到了舉足輕重的作用。

Kaldi起源于2009年的約翰霍普金斯大學(xué)夏季研討會,當(dāng)時我在微軟研究院語音與對話研究組的同事Dan Povey博士提出了Subspace Gaussian Mixture Model(SGMM),并在研討會上組織研究了這個模型。作為這個研究的一個副產(chǎn)品,他們開始整理和開發(fā)一個新的語音技術(shù)工具箱Kaldi,并采用了開源的開發(fā)模式。經(jīng)過十年的發(fā)展,Kaldi已經(jīng)成為深度學(xué)習(xí)時代主流的語音技術(shù)工具箱,集成了大量的最新進展和最優(yōu)腳本,極大地降低了語音技術(shù)的研究和應(yīng)用門檻。

不過,Kaldi是一個持續(xù)發(fā)展中的開源項目,它的文檔大大落后于代碼。本書作者們基于自己多年的一線語音研發(fā)和Kaldi使用經(jīng)驗,深入淺出地介紹了語音識別各個模塊的原理及Kaldi中各種實踐技巧的來龍去脈和使用方法,極大地彌補了Kaldi文檔方面的缺陷,降低了Kaldi的學(xué)習(xí)和使用門檻,有助于Kaldi的進一步推廣和開發(fā)。

俞棟 IEEE Fellow,騰訊人工智能實驗室副主任

2019年9月28日于西雅圖

主站蜘蛛池模板: 广宗县| 濮阳市| 松滋市| 道真| 阜南县| 禹州市| 响水县| 吴桥县| 武清区| 正宁县| 永寿县| 和平县| 黑龙江省| 扎鲁特旗| 九江市| 长阳| 饶平县| 成武县| 通化县| 德阳市| 方山县| 文登市| 海晏县| 固安县| 巴楚县| 固镇县| 旬阳县| 化德县| 镇赉县| 南部县| 永平县| 盈江县| 葵青区| 辽中县| 修武县| 横峰县| 云浮市| 鄄城县| 昌乐县| 资溪县| 龙岩市|