官术网_书友最值得收藏!

第0章 緒論

0.1 研究依據(jù)

在信息化社會(huì)中,以語(yǔ)言信息處理為核心的語(yǔ)言技術(shù)已成為當(dāng)代科技創(chuàng)新的重要基礎(chǔ)、動(dòng)力和源泉。信息技術(shù)為人類(lèi)創(chuàng)造了一個(gè)新的虛擬世界,改變了人類(lèi)的生存方式和生活方式。利用語(yǔ)音技術(shù)而開(kāi)發(fā)的智能手機(jī)、語(yǔ)音云駕駛系統(tǒng)、語(yǔ)音智能搜索引擎等智能化互動(dòng)產(chǎn)品,為人們的日常生活和社會(huì)交往帶來(lái)了極大便利。

近年來(lái),高性能計(jì)算、信號(hào)處理、模式識(shí)別及聲學(xué)技術(shù)發(fā)展迅速,針對(duì)不同應(yīng)用需求而研究開(kāi)發(fā)語(yǔ)音識(shí)別系統(tǒng)已成為可能,因此語(yǔ)音識(shí)別技術(shù)在工業(yè)生產(chǎn)、交通運(yùn)輸、國(guó)防安全等眾多領(lǐng)域得到了廣泛的推廣和應(yīng)用。目前,語(yǔ)音識(shí)別所涉及的語(yǔ)種得以擴(kuò)展。就俄語(yǔ)語(yǔ)音識(shí)別而言,對(duì)大詞匯量、非特定人、連續(xù)語(yǔ)音識(shí)別的研究仍然面臨著許多困難,與人們預(yù)期的目標(biāo)還有較大距離。俄語(yǔ)連續(xù)語(yǔ)音識(shí)別面臨的主要難題有:①在聲學(xué)層面,俄語(yǔ)的重音變化及自由重音現(xiàn)象難以處理;②俄語(yǔ)語(yǔ)音識(shí)別系統(tǒng)的適應(yīng)性較弱,隨著語(yǔ)言交際環(huán)境的變化,系統(tǒng)的性能會(huì)嚴(yán)重下降;③噪聲環(huán)境和傳輸設(shè)備會(huì)直接影響俄語(yǔ)語(yǔ)音特征的提取,如何排除環(huán)境噪聲的干擾以提升識(shí)別性能也是一大難題;④因發(fā)音人不同或隨發(fā)音人的生理及心理狀態(tài)的變化,俄語(yǔ)發(fā)音特征會(huì)產(chǎn)生很大的差異性;⑤在俄語(yǔ)連續(xù)語(yǔ)流中,語(yǔ)音的基本單元(如音素、詞形等)之間存在協(xié)同發(fā)音,由于邊界模糊而導(dǎo)致難以進(jìn)行精確的語(yǔ)音分割。

語(yǔ)音信號(hào)的端點(diǎn)檢測(cè)方法是判定語(yǔ)音識(shí)別準(zhǔn)確率的重要手段,即使在純凈環(huán)境下,語(yǔ)音識(shí)別系統(tǒng)50%的錯(cuò)誤識(shí)別均來(lái)自端點(diǎn)檢測(cè)。因此,俄語(yǔ)大詞匯量連續(xù)語(yǔ)音識(shí)別系統(tǒng)的開(kāi)發(fā)必須解決上述難題,才能在一定程度上提高識(shí)別的速度和準(zhǔn)確率。

鑒于俄語(yǔ)連續(xù)語(yǔ)音識(shí)別研究中存在的諸多難題,本書(shū)集中研究以下三個(gè)主要方面:①優(yōu)化聲學(xué)層模型,合理利用俄語(yǔ)語(yǔ)音學(xué)和計(jì)算語(yǔ)音學(xué)知識(shí),改進(jìn)聲學(xué)模型結(jié)構(gòu),采用更好的算法以解決訓(xùn)練數(shù)據(jù)不足和訓(xùn)練速度慢的問(wèn)題;②增強(qiáng)俄語(yǔ)語(yǔ)音識(shí)別的健壯性,在具有較強(qiáng)背景噪聲或多說(shuō)話(huà)人參與的環(huán)境下采用降噪技術(shù),進(jìn)而增強(qiáng)俄語(yǔ)語(yǔ)音識(shí)別系統(tǒng)的適應(yīng)性;③充分利用一切能夠輔助俄語(yǔ)語(yǔ)音識(shí)別的語(yǔ)言信息。除俄語(yǔ)語(yǔ)音的頻譜特征參數(shù)、能量參數(shù)、韻律參數(shù)之外,還要綜合利用俄語(yǔ)構(gòu)詞及詞變規(guī)則、句法表現(xiàn)形式甚至語(yǔ)義辨析和語(yǔ)境條件,從而有效降低語(yǔ)音識(shí)別的錯(cuò)誤率。

0.2 研究對(duì)象與研究目標(biāo)

本書(shū)的研究對(duì)象是基于標(biāo)注新聞的俄語(yǔ)大詞匯量連續(xù)語(yǔ)音識(shí)別的基本原理和關(guān)鍵技術(shù),主要包括以下幾點(diǎn)。

1. 俄語(yǔ)語(yǔ)音語(yǔ)料庫(kù)和文本語(yǔ)料庫(kù)的構(gòu)建

大規(guī)模語(yǔ)音語(yǔ)料庫(kù)和文本語(yǔ)料庫(kù)是語(yǔ)音識(shí)別系統(tǒng)的重要基礎(chǔ)性資源,實(shí)證語(yǔ)料數(shù)據(jù)的規(guī)模與加工質(zhì)量直接影響著俄語(yǔ)聲學(xué)模型與語(yǔ)言模型訓(xùn)練的效果。目前,國(guó)內(nèi)外已有一些IT企業(yè)和研究機(jī)構(gòu)(如ELDA、LDC、海天瑞聲)能夠提供大量語(yǔ)音和文本數(shù)據(jù)庫(kù)資源,可用于本研究的俄語(yǔ)聲學(xué)模型和語(yǔ)言模型的構(gòu)建與訓(xùn)練。

2. 俄語(yǔ)聲學(xué)建模的基本識(shí)別單元的選定

基于計(jì)算語(yǔ)音學(xué)的理論方法構(gòu)建俄語(yǔ)聲學(xué)模型,其目的在于利用高效的算法計(jì)算俄語(yǔ)語(yǔ)音的多維特征矢量序列和每一個(gè)發(fā)音模板之間的距離。充分利用俄語(yǔ)語(yǔ)言學(xué)及語(yǔ)音學(xué)的知識(shí),設(shè)計(jì)基于HMM的俄語(yǔ)音素模型,提取聲學(xué)基元,利用有效的相關(guān)算法訓(xùn)練HMM模型,這對(duì)于擴(kuò)大聲學(xué)模型的訓(xùn)練數(shù)據(jù)規(guī)模、增強(qiáng)識(shí)別系統(tǒng)的準(zhǔn)確率和靈活性均具有重要作用。

3. 俄語(yǔ)語(yǔ)言模型中數(shù)據(jù)稀疏問(wèn)題的求解

俄語(yǔ)新聞文本語(yǔ)料庫(kù)的覆蓋度不全面,可能導(dǎo)致一些語(yǔ)言現(xiàn)象無(wú)法統(tǒng)計(jì),進(jìn)而導(dǎo)致在已建立的語(yǔ)言模型中檢索不到與該模型對(duì)應(yīng)的某些語(yǔ)言現(xiàn)象,即概率為零且無(wú)法識(shí)別,因此造成語(yǔ)言模型的數(shù)據(jù)稀疏問(wèn)題。鑒于此,需要盡可能全面地采集并加工處理俄語(yǔ)新聞文本語(yǔ)料,為俄語(yǔ)語(yǔ)言模型的有效訓(xùn)練提供覆蓋面更大的實(shí)證數(shù)據(jù)支撐。

本書(shū)的研究目標(biāo)包括:基于Kaldi設(shè)計(jì)實(shí)現(xiàn)俄語(yǔ)連續(xù)語(yǔ)音識(shí)別原型系統(tǒng),使之具備在線識(shí)別和離線識(shí)別功能,以驗(yàn)證聲學(xué)模型和語(yǔ)言模型優(yōu)化算法的有效性,進(jìn)而為面向特定領(lǐng)域的俄語(yǔ)語(yǔ)音識(shí)別實(shí)用系統(tǒng)的研發(fā)提供理論方法、實(shí)驗(yàn)數(shù)據(jù)和關(guān)鍵技術(shù)支撐。為了實(shí)現(xiàn)上述目標(biāo),需要進(jìn)行如下環(huán)環(huán)緊扣的操作步驟:俄語(yǔ)語(yǔ)音語(yǔ)料的采集、加工、處理,俄語(yǔ)文本語(yǔ)料的采集、清洗、過(guò)濾,俄語(yǔ)發(fā)音詞典的自動(dòng)預(yù)測(cè)生成,聲學(xué)模型建模的基本單元(音素集)的確定,聲學(xué)模型和語(yǔ)言模型的優(yōu)化等。

0.3 研究方法

1. 語(yǔ)音數(shù)據(jù)加工處理方法

基于眾包模式設(shè)計(jì)開(kāi)發(fā)俄語(yǔ)語(yǔ)音標(biāo)注平臺(tái),通過(guò)標(biāo)注規(guī)范制定和標(biāo)注質(zhì)量控制等手段,對(duì)采集的俄語(yǔ)語(yǔ)音進(jìn)行規(guī)范化標(biāo)注,注重提高語(yǔ)音標(biāo)注的效率。

2. 聲學(xué)模型構(gòu)建方法

根據(jù)俄語(yǔ)語(yǔ)音學(xué)規(guī)律和連續(xù)語(yǔ)流的發(fā)音特點(diǎn),通過(guò)HMM-GMM和HMM-DNN進(jìn)行對(duì)比實(shí)驗(yàn),優(yōu)化設(shè)計(jì)基于SAMPA的俄語(yǔ)音素集以訓(xùn)練聲學(xué)模型;采用Phonetisaurus和Sequitur算法,驗(yàn)證俄語(yǔ)字音轉(zhuǎn)換的有效性。

3. 語(yǔ)言模型構(gòu)建方法

通過(guò)編寫(xiě)程序,從通用和特定領(lǐng)域的網(wǎng)站上下載俄語(yǔ)新聞?lì)惥W(wǎng)頁(yè),設(shè)計(jì)網(wǎng)頁(yè)文本清洗過(guò)濾系統(tǒng),生成可用于訓(xùn)練的純凈文本?;赟RILM訓(xùn)練四元語(yǔ)言模型,采用Katz和KN算法對(duì)數(shù)據(jù)稀疏問(wèn)題進(jìn)行平滑處理,采用REP等剪枝算法對(duì)語(yǔ)言模型進(jìn)行剪枝優(yōu)化,生成效率更高的四元語(yǔ)言模型。

4. 俄語(yǔ)連續(xù)語(yǔ)音識(shí)別原型系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)方法

基于Kaldi平臺(tái)設(shè)計(jì)研發(fā)俄語(yǔ)連續(xù)語(yǔ)音識(shí)別原型系統(tǒng),設(shè)計(jì)圖形用戶(hù)界面(Graphical User Interface,GUI),實(shí)現(xiàn)在線識(shí)別功能;利用GPU優(yōu)化算法大幅降低計(jì)算時(shí)間,提高計(jì)算效率,通過(guò)不斷擴(kuò)充語(yǔ)料數(shù)據(jù)規(guī)模提高俄語(yǔ)語(yǔ)音的識(shí)別準(zhǔn)確率。

0.4 研究意義

1. 理論意義

俄語(yǔ)語(yǔ)音識(shí)別的基本原理與方法研究可以為從語(yǔ)言類(lèi)型學(xué)角度開(kāi)展的與俄語(yǔ)相關(guān)的其他語(yǔ)種語(yǔ)音識(shí)別研究提供參考借鑒。俄語(yǔ)語(yǔ)音識(shí)別是一項(xiàng)綜合性基礎(chǔ)研究課題,需要綜合運(yùn)用語(yǔ)音學(xué)和語(yǔ)言學(xué)知識(shí)、語(yǔ)言計(jì)算方法和人工智能技術(shù),相關(guān)成果可以為深入研究俄語(yǔ)語(yǔ)音信息處理奠定堅(jiān)實(shí)的理論基礎(chǔ)。

2. 實(shí)踐意義

俄語(yǔ)語(yǔ)音識(shí)別技術(shù)具有廣泛的實(shí)際應(yīng)用價(jià)值,不僅有助于推進(jìn)俄語(yǔ)實(shí)驗(yàn)語(yǔ)音學(xué)的縱深發(fā)展,而且有助于研發(fā)具有俄語(yǔ)語(yǔ)音對(duì)話(huà)功能的智能化信息產(chǎn)品。本書(shū)開(kāi)發(fā)的俄語(yǔ)大規(guī)模語(yǔ)音語(yǔ)料庫(kù)和文本語(yǔ)料庫(kù)、俄語(yǔ)發(fā)音詞典和俄語(yǔ)連續(xù)語(yǔ)音識(shí)別原型系統(tǒng),在經(jīng)過(guò)數(shù)據(jù)規(guī)模擴(kuò)充訓(xùn)練和相關(guān)算法的進(jìn)一步優(yōu)化后,必將在俄語(yǔ)語(yǔ)音教學(xué)、網(wǎng)絡(luò)環(huán)境下的俄語(yǔ)實(shí)時(shí)通信、多用途俄語(yǔ)語(yǔ)音信息處理等領(lǐng)域發(fā)揮顯著效益。

0.5 本書(shū)的創(chuàng)新點(diǎn)

本書(shū)的創(chuàng)新之處主要體現(xiàn)在以下三個(gè)方面。

①設(shè)計(jì)建立了基于眾包的俄語(yǔ)語(yǔ)音標(biāo)注平臺(tái)和語(yǔ)音語(yǔ)料庫(kù),可用于建立并有效訓(xùn)練俄語(yǔ)聲學(xué)模型;通過(guò)設(shè)計(jì)面向俄語(yǔ)新聞網(wǎng)頁(yè)文本數(shù)據(jù)的過(guò)濾清洗系統(tǒng)而構(gòu)建的俄語(yǔ)文本語(yǔ)料庫(kù),可用于建立并有效訓(xùn)練語(yǔ)言模型,這兩類(lèi)模型的建立為俄語(yǔ)連續(xù)語(yǔ)音識(shí)別系統(tǒng)的研究開(kāi)辟了新途徑。

②自動(dòng)預(yù)測(cè)生成的俄語(yǔ)發(fā)音詞典是連續(xù)語(yǔ)音識(shí)別系統(tǒng)的核心資源,利用發(fā)音詞典數(shù)據(jù)資源可將俄語(yǔ)文本轉(zhuǎn)寫(xiě)為相應(yīng)的俄語(yǔ)標(biāo)準(zhǔn)發(fā)音,并對(duì)俄語(yǔ)語(yǔ)音識(shí)別音素集和字音的轉(zhuǎn)換規(guī)則進(jìn)行優(yōu)化,進(jìn)而降低聲學(xué)模型的訓(xùn)練難度,提高該模型的訓(xùn)練效果;采用KN、Katz等數(shù)據(jù)平滑算法和REP等剪枝算法,能夠在WER基本不變的情況下降低語(yǔ)言模型的規(guī)模。

③設(shè)計(jì)實(shí)現(xiàn)的俄語(yǔ)連續(xù)語(yǔ)音識(shí)別原型系統(tǒng)具有在線識(shí)別和離線識(shí)別功能,這在中國(guó)俄語(yǔ)學(xué)界和俄語(yǔ)信息處理領(lǐng)域尚屬首次探索性研究,它在一定程度上填補(bǔ)了中國(guó)俄語(yǔ)語(yǔ)音識(shí)別研究的某些空白,相關(guān)成果將為面向特定領(lǐng)域的俄語(yǔ)語(yǔ)音識(shí)別實(shí)用系統(tǒng)的研發(fā)提供基礎(chǔ)理論和關(guān)鍵技術(shù)支撐。

0.6 語(yǔ)料來(lái)源

1. 俄語(yǔ)語(yǔ)音語(yǔ)料來(lái)源

所采集的語(yǔ)音語(yǔ)料主要涉及俄羅斯時(shí)事新聞,包括俄語(yǔ)網(wǎng)絡(luò)語(yǔ)音、俄語(yǔ)電視臺(tái)、俄語(yǔ)廣播電臺(tái)、校園網(wǎng)IPTV、通過(guò)錄音軟件對(duì)指定俄語(yǔ)文本的錄音等。

語(yǔ)音語(yǔ)料加工處理:以基于眾包的語(yǔ)音標(biāo)注平臺(tái)為主、以Praat人工標(biāo)注為輔,對(duì)所采集到的各類(lèi)語(yǔ)音語(yǔ)料進(jìn)行標(biāo)注。

2. 俄語(yǔ)文本語(yǔ)料來(lái)源

主要通過(guò)通用領(lǐng)域和特定領(lǐng)域這兩種途徑采集俄語(yǔ)文本語(yǔ)料。

①通用領(lǐng)域。從36個(gè)俄語(yǔ)網(wǎng)站采集政治、經(jīng)濟(jì)、文化、軍事、體育等不同領(lǐng)域的新聞?wù)Z料,經(jīng)過(guò)過(guò)濾清洗,生成可訓(xùn)練的文本語(yǔ)料,規(guī)模約9GB。

②特定領(lǐng)域。從Twitter爬取消息類(lèi)俄語(yǔ)文本,通過(guò)過(guò)濾清洗和系統(tǒng)去噪,生成約1GB的純凈文本語(yǔ)料。

俄語(yǔ)文本語(yǔ)料主要通過(guò)36個(gè)俄語(yǔ)網(wǎng)站和Twitter獲取,其中以政治、經(jīng)濟(jì)、軍事、文化、體育等領(lǐng)域的俄語(yǔ)新聞?wù)Z料居多,消息類(lèi)俄語(yǔ)文本語(yǔ)料較少,經(jīng)過(guò)清洗過(guò)濾和去噪處理,分別生成可訓(xùn)練的新聞?lì)愇谋菊Z(yǔ)料規(guī)模約7.8GB、消息類(lèi)純凈文本語(yǔ)料規(guī)模約2.2GB。

3. 俄語(yǔ)發(fā)音詞典語(yǔ)料來(lái)源

通過(guò)網(wǎng)絡(luò)采集大約1000個(gè)俄語(yǔ)常用單詞的發(fā)音信息,利用Phonetisaurus和Sequitur兩種算法,通過(guò)迭代預(yù)測(cè)自動(dòng)生成約9萬(wàn)個(gè)俄語(yǔ)單詞的發(fā)音形式,經(jīng)過(guò)適當(dāng)?shù)娜斯じ深A(yù),最終形成包含76277個(gè)詞形的俄語(yǔ)發(fā)音詞典。

0.7 本書(shū)的結(jié)構(gòu)

本書(shū)由七個(gè)部分組成,主體部分為第1~5章,各部分的研究?jī)?nèi)容如下。

緒論部分簡(jiǎn)要論述本書(shū)的選題依據(jù)、研究對(duì)象與研究目標(biāo)、研究方法與研究意義、創(chuàng)新點(diǎn)、語(yǔ)料來(lái)源和本書(shū)的結(jié)構(gòu)。

第1章“語(yǔ)音識(shí)別技術(shù)研究綜述”。首先,對(duì)語(yǔ)音識(shí)別技術(shù)的相關(guān)概念進(jìn)行界定,闡述語(yǔ)音識(shí)別的基本類(lèi)型;對(duì)近60年來(lái)國(guó)內(nèi)外語(yǔ)音識(shí)別技術(shù)的發(fā)展概況和俄語(yǔ)連續(xù)語(yǔ)音識(shí)別的研究現(xiàn)狀進(jìn)行評(píng)析;最后,重點(diǎn)闡述語(yǔ)音識(shí)別系統(tǒng)研發(fā)的基本原理,明確指出建立聲學(xué)模型和語(yǔ)言模型是俄語(yǔ)連續(xù)語(yǔ)音識(shí)別研究需要解決的關(guān)鍵問(wèn)題。

第2章“語(yǔ)音數(shù)據(jù)的加工處理”。語(yǔ)音語(yǔ)料數(shù)據(jù)加工處理是語(yǔ)音識(shí)別研究的重要環(huán)節(jié),俄語(yǔ)聲學(xué)模型的建模需要以大規(guī)模語(yǔ)音語(yǔ)料為基礎(chǔ)。本章嘗試引入眾包思想,簡(jiǎn)述眾包的基本概念及解決方案,設(shè)計(jì)并開(kāi)發(fā)基于校園網(wǎng)的語(yǔ)音標(biāo)注平臺(tái),制定俄語(yǔ)語(yǔ)音標(biāo)注規(guī)范和質(zhì)量控制策略,通過(guò)手工標(biāo)注和平臺(tái)標(biāo)注的實(shí)驗(yàn)對(duì)比驗(yàn)證語(yǔ)音標(biāo)注平臺(tái)的有效性。

第3章“俄語(yǔ)聲學(xué)模型的建立”。主要探究適用于俄語(yǔ)連續(xù)語(yǔ)音識(shí)別的聲學(xué)模型的構(gòu)建與訓(xùn)練方法,它是本書(shū)的核心內(nèi)容之一。首先,描述連續(xù)語(yǔ)音識(shí)別系統(tǒng)的整體構(gòu)架,并對(duì)聲學(xué)模型的兩種訓(xùn)練方法(HMM-GMM和HMM-DNN)進(jìn)行比較;然后,闡釋俄語(yǔ)音素的發(fā)音特征及元音和輔音音素的隨位變化規(guī)律,確定俄語(yǔ)聲學(xué)基本單元,設(shè)計(jì)和建立俄語(yǔ)SAMPA音素集;最后,采用G2P算法對(duì)比和驗(yàn)證音素集設(shè)計(jì)的合理性和有效性,并分析實(shí)驗(yàn)結(jié)果。

第4章“俄語(yǔ)語(yǔ)言模型的建立”。主要探究俄語(yǔ)語(yǔ)言模型及其優(yōu)化測(cè)試方法,它是本書(shū)的另一個(gè)核心內(nèi)容。首先,簡(jiǎn)述語(yǔ)言模型的基本理論;然后,描述語(yǔ)言模型的平滑技術(shù)和剪枝算法、基于SRILM的語(yǔ)言模型訓(xùn)練流程以及詞典選取等問(wèn)題;最后,通過(guò)實(shí)驗(yàn)分析和驗(yàn)證語(yǔ)料規(guī)模、語(yǔ)料分類(lèi)及相關(guān)算法對(duì)語(yǔ)言模型優(yōu)劣的影響。

第5章“基于Kaldi的俄語(yǔ)語(yǔ)音識(shí)別原型系統(tǒng)”。本章對(duì)前述理論成果進(jìn)行綜合集成,并嘗試向工程實(shí)踐轉(zhuǎn)化,以突顯研究成果的示范應(yīng)用。首先,闡明基于Kaldi平臺(tái)的系統(tǒng)設(shè)計(jì)目標(biāo)和原則、系統(tǒng)開(kāi)發(fā)環(huán)境與整體架構(gòu)、Kaldi實(shí)驗(yàn)環(huán)境的搭建與模型訓(xùn)練的優(yōu)化方法;然后,采用圖形處理器設(shè)計(jì)和實(shí)現(xiàn)具有在線識(shí)別和離線識(shí)別功能的俄語(yǔ)連續(xù)語(yǔ)音識(shí)別原型系統(tǒng);最后,通過(guò)基于HMM-GMM與HMM-DNN的識(shí)別結(jié)果比較、語(yǔ)音數(shù)據(jù)規(guī)模與DNN的關(guān)系、語(yǔ)言模型與識(shí)別結(jié)果的關(guān)系這三個(gè)實(shí)驗(yàn),對(duì)原型系統(tǒng)的識(shí)別準(zhǔn)確率、優(yōu)化算法對(duì)識(shí)別結(jié)果的影響等進(jìn)行測(cè)試驗(yàn)證。

結(jié)論部分總結(jié)本書(shū)的研究?jī)?nèi)容、取得的主要成果以及存在的問(wèn)題,并對(duì)下一步的研究計(jì)劃進(jìn)行展望。

主站蜘蛛池模板: 盐津县| 中方县| 报价| 巴东县| 沙湾县| 搜索| 九江县| 冀州市| 改则县| 永胜县| 九龙坡区| 襄樊市| 察隅县| 安新县| 峡江县| 团风县| 平罗县| 岳阳县| 江永县| 江华| 华宁县| 南城县| 山丹县| 临朐县| 黄浦区| 涞水县| 新余市| 海城市| 那坡县| 得荣县| 南康市| 邓州市| 故城县| 扬州市| 福贡县| 乐陵市| 郯城县| 四子王旗| 蕉岭县| 涡阳县| 宁晋县|