官术网_书友最值得收藏!

前言

在過(guò)去的幾年里,語(yǔ)音相關(guān)產(chǎn)業(yè)發(fā)展迅速,產(chǎn)品形態(tài)五花八門(mén)。在消費(fèi)電子領(lǐng)域,隨著語(yǔ)音輸入、語(yǔ)音搜索、智能助手等產(chǎn)品的出現(xiàn),一場(chǎng)人人交互和人機(jī)交互的變革正在我們身邊發(fā)生。語(yǔ)音產(chǎn)業(yè)的上一次爆發(fā)出現(xiàn)在20世紀(jì)80年代至90年代:隱馬爾可夫模型的應(yīng)用,使大規(guī)模連續(xù)語(yǔ)音識(shí)別成為可能——這意味著用戶(hù)在人機(jī)語(yǔ)音交互時(shí),得以擺脫字正腔圓、一詞一頓的刻板方式。在過(guò)去的十年間,隨著深度學(xué)習(xí)技術(shù)的強(qiáng)勢(shì)崛起和以GPU為代表的算力硬件的爆發(fā),語(yǔ)音類(lèi)產(chǎn)品(包括但不限于語(yǔ)音轉(zhuǎn)文字、說(shuō)話(huà)人識(shí)別、語(yǔ)種識(shí)別等)的使用體驗(yàn)又一次得到了顯著的提升。更重要的是,深度學(xué)習(xí)技術(shù)帶來(lái)的使用體驗(yàn)的提升,使語(yǔ)音技術(shù)更加接近商用,促成了語(yǔ)音產(chǎn)品和語(yǔ)音數(shù)據(jù)之間的良性循環(huán):相比傳統(tǒng)模型,基于深度神經(jīng)網(wǎng)絡(luò)的語(yǔ)音識(shí)別系統(tǒng)總是能更有效地利用持續(xù)增長(zhǎng)的數(shù)據(jù)量,提升識(shí)別性能,而識(shí)別性能的提升,又會(huì)激發(fā)更多的產(chǎn)業(yè)應(yīng)用,打通海量語(yǔ)音數(shù)據(jù)的獲取渠道,進(jìn)一步優(yōu)化模型。

隨著語(yǔ)音算法的逐代升級(jí),語(yǔ)音技術(shù)鏈路的相關(guān)研發(fā)工具也逐步成型和完善,其中的代表是HTK和Sphinx工具集,這兩個(gè)工具集都能夠完成從模型的訓(xùn)練到產(chǎn)品原型的搭建等一系列工作,并催生了一批以語(yǔ)音識(shí)別為核心技術(shù)的公司。在20世紀(jì)90年代末,這兩個(gè)工具集先后開(kāi)源,再次降低了語(yǔ)音識(shí)別和相關(guān)領(lǐng)域的研發(fā)門(mén)檻與成本。

在最近的十年里,新一代的開(kāi)源項(xiàng)目Kaldi逐步取代了HTK和Sphinx的統(tǒng)治地位,成為了流行的開(kāi)源語(yǔ)音工具箱。Kaldi誕生之初就汲取了其他語(yǔ)音項(xiàng)目的經(jīng)驗(yàn),并以語(yǔ)音識(shí)別為核心進(jìn)行全局的設(shè)計(jì):包含自成一派的文件I/O及存儲(chǔ)、數(shù)據(jù)處理流水線(xiàn)、模型訓(xùn)練流水線(xiàn),以及采用高效且優(yōu)雅的加權(quán)有限狀態(tài)機(jī)(WFST)作為語(yǔ)音識(shí)別解碼的統(tǒng)一框架,并提供了離線(xiàn)/在線(xiàn)識(shí)別原型等。

Kaldi項(xiàng)目發(fā)布不久,就吸引了國(guó)內(nèi)外的大量用戶(hù),形成了一個(gè)活躍的開(kāi)源社區(qū)。在社區(qū)中,有國(guó)際頂尖的語(yǔ)音科學(xué)家、探索新邊界的博士研究生,也有初探語(yǔ)音識(shí)別的初學(xué)者、其他技術(shù)領(lǐng)域想使用語(yǔ)音技術(shù)的工程師,當(dāng)然還有經(jīng)歷了HTK時(shí)代的老用戶(hù)們。截至本書(shū)完稿時(shí),Kaldi在GitHub上的官方項(xiàng)目中獲得的星標(biāo)和子倉(cāng)庫(kù)合計(jì)已超過(guò)一萬(wàn)個(gè)。

盡管Kaldi工具箱的出現(xiàn)在很大程度上降低了語(yǔ)音識(shí)別技術(shù)的研究門(mén)檻,但與其他AI技術(shù)相比,它的語(yǔ)音識(shí)別技術(shù)本身鏈路復(fù)雜、模塊多樣、領(lǐng)域知識(shí)點(diǎn)眾多;此外,目前Kaldi社區(qū)的活躍開(kāi)發(fā)者們更關(guān)注推進(jìn)核心技術(shù),因此在文檔建設(shè)方面,還停留在項(xiàng)目早期的設(shè)計(jì)理念及核心概念階段,文檔稀缺;再加上市場(chǎng)上少有Kaldi相關(guān)的教程和書(shū)籍,尤其是中文書(shū)籍,更使得國(guó)內(nèi)用戶(hù)在入門(mén)語(yǔ)音識(shí)別技術(shù)及上手Kaldi工具箱時(shí),面臨比較陡峭的學(xué)習(xí)曲線(xiàn)。

本書(shū)的作者來(lái)自Kaldi的開(kāi)發(fā)團(tuán)隊(duì)、開(kāi)源社區(qū)和企業(yè)用戶(hù),具有多年的語(yǔ)音研發(fā)經(jīng)驗(yàn)和Kaldi使用經(jīng)驗(yàn)。筆者長(zhǎng)期在各Kaldi社群中為普通用戶(hù)答疑,交流的主題大致可以分為四類(lèi),即語(yǔ)音識(shí)別的基礎(chǔ)理論、Kaldi中的具體算法實(shí)現(xiàn)、Kaldi工具箱的用法、搭建語(yǔ)音系統(tǒng)中經(jīng)常遇到的實(shí)際問(wèn)題。本書(shū)致力于系統(tǒng)梳理以上四類(lèi)問(wèn)題,深入淺出地介紹語(yǔ)音識(shí)別各個(gè)模塊的原理,厘清Kaldi中各種實(shí)踐技巧的來(lái)龍去脈,并結(jié)合示例解析,展示如何使用Kaldi構(gòu)建語(yǔ)音識(shí)別、關(guān)鍵詞檢索、說(shuō)話(huà)人識(shí)別和語(yǔ)種識(shí)別系統(tǒng)。

本書(shū)假定讀者具備基礎(chǔ)的編程知識(shí)和最基本的機(jī)器學(xué)習(xí)概念。筆者在行文中注重示例解析,盡量避免公式推導(dǎo),注重闡述核心問(wèn)題及對(duì)應(yīng)算法的直觀意義,力圖幫助讀者快速建立語(yǔ)音技術(shù)的宏觀視角,并熟悉Kaldi工具箱的微觀樣貌。沒(méi)有語(yǔ)音背景的讀者,可以把本書(shū)當(dāng)作快速上手語(yǔ)音研發(fā)的入門(mén)參考書(shū)。同時(shí),對(duì)于一些沒(méi)有詳細(xì)展開(kāi)的理論知識(shí)點(diǎn),本書(shū)給出了相關(guān)的經(jīng)典論文或參考文獻(xiàn),供有興趣、有能力的讀者進(jìn)一步縱向深入掌握。

Kaldi是一個(gè)仍在持續(xù)演進(jìn)并快速迭代的開(kāi)源項(xiàng)目,在Kaldi發(fā)布10周年之際,藉以此書(shū)對(duì)其發(fā)展歷史做一個(gè)回顧,對(duì)當(dāng)前狀態(tài)做一次匯總,愿與廣大中文Kaldi用戶(hù)一同展望語(yǔ)音行業(yè)的美好未來(lái)。

作者

2019年12月

讀者服務(wù)

微信掃碼回復(fù):37874

· 獲取博文視點(diǎn)學(xué)院20元優(yōu)惠券

· 獲取免費(fèi)增值資源

· 加入讀者交流群,與更多讀者互動(dòng)

· 獲取精選書(shū)單推薦

主站蜘蛛池模板: 灵璧县| 湾仔区| 太仓市| 桐城市| 南通市| 太湖县| 石嘴山市| 皋兰县| 华亭县| 阿鲁科尔沁旗| 兴业县| 东阳市| 渭源县| 夏邑县| 金秀| 利川市| 武清区| 襄城县| 尼玛县| 石台县| 平昌县| 阿瓦提县| 宜阳县| 普安县| 吉林省| 县级市| 沙湾县| 红河县| 北辰区| 贺兰县| 临潭县| 海口市| 嘉荫县| 将乐县| 微博| 通渭县| 青川县| 商水县| 平泉县| 甘孜县| 乃东县|