- Kaldi語(yǔ)音識(shí)別實(shí)戰(zhàn)
- 陳果果等
- 1588字
- 2020-06-05 16:56:36
前言
在過(guò)去的幾年里,語(yǔ)音相關(guān)產(chǎn)業(yè)發(fā)展迅速,產(chǎn)品形態(tài)五花八門(mén)。在消費(fèi)電子領(lǐng)域,隨著語(yǔ)音輸入、語(yǔ)音搜索、智能助手等產(chǎn)品的出現(xiàn),一場(chǎng)人人交互和人機(jī)交互的變革正在我們身邊發(fā)生。語(yǔ)音產(chǎn)業(yè)的上一次爆發(fā)出現(xiàn)在20世紀(jì)80年代至90年代:隱馬爾可夫模型的應(yīng)用,使大規(guī)模連續(xù)語(yǔ)音識(shí)別成為可能——這意味著用戶(hù)在人機(jī)語(yǔ)音交互時(shí),得以擺脫字正腔圓、一詞一頓的刻板方式。在過(guò)去的十年間,隨著深度學(xué)習(xí)技術(shù)的強(qiáng)勢(shì)崛起和以GPU為代表的算力硬件的爆發(fā),語(yǔ)音類(lèi)產(chǎn)品(包括但不限于語(yǔ)音轉(zhuǎn)文字、說(shuō)話(huà)人識(shí)別、語(yǔ)種識(shí)別等)的使用體驗(yàn)又一次得到了顯著的提升。更重要的是,深度學(xué)習(xí)技術(shù)帶來(lái)的使用體驗(yàn)的提升,使語(yǔ)音技術(shù)更加接近商用,促成了語(yǔ)音產(chǎn)品和語(yǔ)音數(shù)據(jù)之間的良性循環(huán):相比傳統(tǒng)模型,基于深度神經(jīng)網(wǎng)絡(luò)的語(yǔ)音識(shí)別系統(tǒng)總是能更有效地利用持續(xù)增長(zhǎng)的數(shù)據(jù)量,提升識(shí)別性能,而識(shí)別性能的提升,又會(huì)激發(fā)更多的產(chǎn)業(yè)應(yīng)用,打通海量語(yǔ)音數(shù)據(jù)的獲取渠道,進(jìn)一步優(yōu)化模型。
隨著語(yǔ)音算法的逐代升級(jí),語(yǔ)音技術(shù)鏈路的相關(guān)研發(fā)工具也逐步成型和完善,其中的代表是HTK和Sphinx工具集,這兩個(gè)工具集都能夠完成從模型的訓(xùn)練到產(chǎn)品原型的搭建等一系列工作,并催生了一批以語(yǔ)音識(shí)別為核心技術(shù)的公司。在20世紀(jì)90年代末,這兩個(gè)工具集先后開(kāi)源,再次降低了語(yǔ)音識(shí)別和相關(guān)領(lǐng)域的研發(fā)門(mén)檻與成本。
在最近的十年里,新一代的開(kāi)源項(xiàng)目Kaldi逐步取代了HTK和Sphinx的統(tǒng)治地位,成為了流行的開(kāi)源語(yǔ)音工具箱。Kaldi誕生之初就汲取了其他語(yǔ)音項(xiàng)目的經(jīng)驗(yàn),并以語(yǔ)音識(shí)別為核心進(jìn)行全局的設(shè)計(jì):包含自成一派的文件I/O及存儲(chǔ)、數(shù)據(jù)處理流水線(xiàn)、模型訓(xùn)練流水線(xiàn),以及采用高效且優(yōu)雅的加權(quán)有限狀態(tài)機(jī)(WFST)作為語(yǔ)音識(shí)別解碼的統(tǒng)一框架,并提供了離線(xiàn)/在線(xiàn)識(shí)別原型等。
Kaldi項(xiàng)目發(fā)布不久,就吸引了國(guó)內(nèi)外的大量用戶(hù),形成了一個(gè)活躍的開(kāi)源社區(qū)。在社區(qū)中,有國(guó)際頂尖的語(yǔ)音科學(xué)家、探索新邊界的博士研究生,也有初探語(yǔ)音識(shí)別的初學(xué)者、其他技術(shù)領(lǐng)域想使用語(yǔ)音技術(shù)的工程師,當(dāng)然還有經(jīng)歷了HTK時(shí)代的老用戶(hù)們。截至本書(shū)完稿時(shí),Kaldi在GitHub上的官方項(xiàng)目中獲得的星標(biāo)和子倉(cāng)庫(kù)合計(jì)已超過(guò)一萬(wàn)個(gè)。
盡管Kaldi工具箱的出現(xiàn)在很大程度上降低了語(yǔ)音識(shí)別技術(shù)的研究門(mén)檻,但與其他AI技術(shù)相比,它的語(yǔ)音識(shí)別技術(shù)本身鏈路復(fù)雜、模塊多樣、領(lǐng)域知識(shí)點(diǎn)眾多;此外,目前Kaldi社區(qū)的活躍開(kāi)發(fā)者們更關(guān)注推進(jìn)核心技術(shù),因此在文檔建設(shè)方面,還停留在項(xiàng)目早期的設(shè)計(jì)理念及核心概念階段,文檔稀缺;再加上市場(chǎng)上少有Kaldi相關(guān)的教程和書(shū)籍,尤其是中文書(shū)籍,更使得國(guó)內(nèi)用戶(hù)在入門(mén)語(yǔ)音識(shí)別技術(shù)及上手Kaldi工具箱時(shí),面臨比較陡峭的學(xué)習(xí)曲線(xiàn)。
本書(shū)的作者來(lái)自Kaldi的開(kāi)發(fā)團(tuán)隊(duì)、開(kāi)源社區(qū)和企業(yè)用戶(hù),具有多年的語(yǔ)音研發(fā)經(jīng)驗(yàn)和Kaldi使用經(jīng)驗(yàn)。筆者長(zhǎng)期在各Kaldi社群中為普通用戶(hù)答疑,交流的主題大致可以分為四類(lèi),即語(yǔ)音識(shí)別的基礎(chǔ)理論、Kaldi中的具體算法實(shí)現(xiàn)、Kaldi工具箱的用法、搭建語(yǔ)音系統(tǒng)中經(jīng)常遇到的實(shí)際問(wèn)題。本書(shū)致力于系統(tǒng)梳理以上四類(lèi)問(wèn)題,深入淺出地介紹語(yǔ)音識(shí)別各個(gè)模塊的原理,厘清Kaldi中各種實(shí)踐技巧的來(lái)龍去脈,并結(jié)合示例解析,展示如何使用Kaldi構(gòu)建語(yǔ)音識(shí)別、關(guān)鍵詞檢索、說(shuō)話(huà)人識(shí)別和語(yǔ)種識(shí)別系統(tǒng)。
本書(shū)假定讀者具備基礎(chǔ)的編程知識(shí)和最基本的機(jī)器學(xué)習(xí)概念。筆者在行文中注重示例解析,盡量避免公式推導(dǎo),注重闡述核心問(wèn)題及對(duì)應(yīng)算法的直觀意義,力圖幫助讀者快速建立語(yǔ)音技術(shù)的宏觀視角,并熟悉Kaldi工具箱的微觀樣貌。沒(méi)有語(yǔ)音背景的讀者,可以把本書(shū)當(dāng)作快速上手語(yǔ)音研發(fā)的入門(mén)參考書(shū)。同時(shí),對(duì)于一些沒(méi)有詳細(xì)展開(kāi)的理論知識(shí)點(diǎn),本書(shū)給出了相關(guān)的經(jīng)典論文或參考文獻(xiàn),供有興趣、有能力的讀者進(jìn)一步縱向深入掌握。
Kaldi是一個(gè)仍在持續(xù)演進(jìn)并快速迭代的開(kāi)源項(xiàng)目,在Kaldi發(fā)布10周年之際,藉以此書(shū)對(duì)其發(fā)展歷史做一個(gè)回顧,對(duì)當(dāng)前狀態(tài)做一次匯總,愿與廣大中文Kaldi用戶(hù)一同展望語(yǔ)音行業(yè)的美好未來(lái)。
作者
2019年12月
讀者服務(wù)

微信掃碼回復(fù):37874
· 獲取博文視點(diǎn)學(xué)院20元優(yōu)惠券
· 獲取免費(fèi)增值資源
· 加入讀者交流群,與更多讀者互動(dòng)
· 獲取精選書(shū)單推薦
- 現(xiàn)代交換原理
- 信息光學(xué)原理
- 現(xiàn)代移動(dòng)通信技術(shù)及應(yīng)用
- 液晶電視機(jī)檢修手冊(cè)
- 移動(dòng)應(yīng)用軟件測(cè)試技術(shù)與實(shí)踐
- 錄音技術(shù)基礎(chǔ)與數(shù)字音頻處理指南
- 21堂課精通電子元器件檢測(cè)
- 艦船尾跡的電磁成像機(jī)理及特征提取技術(shù)
- 電磁場(chǎng)與電磁波
- 5G移動(dòng)通信網(wǎng)絡(luò):從標(biāo)準(zhǔn)到實(shí)踐(新一代信息技術(shù)叢書(shū))
- 電力工程與通信技術(shù)
- WCDMA網(wǎng)絡(luò)測(cè)試與優(yōu)化教程
- 電子電路知識(shí)與實(shí)踐課堂
- 電工與電子技術(shù)及技能訓(xùn)練
- 信號(hào)/電源完整性仿真分析與實(shí)踐