- 人工智能:語(yǔ)音識(shí)別理解與實(shí)踐
- 俞棟等
- 1829字
- 2021-01-05 18:14:45
1.1 自動(dòng)語(yǔ)音識(shí)別:更好的溝通之橋
自動(dòng)語(yǔ)音識(shí)別這項(xiàng)技術(shù)已經(jīng)活躍了五十多年,一直以來(lái)都被當(dāng)作使人與人、人與機(jī)器更順暢交流的橋梁。然而,語(yǔ)音在過(guò)去并沒(méi)有真正成為一種重要的人機(jī)交流形式,這一方面是因?yàn)檫^(guò)去技術(shù)落后,語(yǔ)音技術(shù)在大多數(shù)用戶實(shí)際使用場(chǎng)景下還不大可用;另一方面是因?yàn)樵诤芏嗲闆r下,使用鍵盤(pán)、鼠標(biāo)這樣的形式交流比使用語(yǔ)音更有效、準(zhǔn)確,約束更少。
語(yǔ)音技術(shù)在近年來(lái)漸漸改變我們的生活和工作方式。對(duì)某些設(shè)備來(lái)說(shuō),語(yǔ)音成了人與之交流的主要方式。這種趨勢(shì)的出現(xiàn)和下面提到的幾個(gè)關(guān)鍵領(lǐng)域的進(jìn)步是分不開(kāi)的。首先,摩爾定律持續(xù)有效。有了多核處理器、通用圖形處理單元(General Purpose Graphical Processing Unit,GPGPU)、CPU/GPU集群這樣的技術(shù),現(xiàn)在可用的計(jì)算力僅僅相比十幾年前就高了幾個(gè)量級(jí),使得訓(xùn)練更加強(qiáng)大而復(fù)雜的模型成為可能。正是這些更消耗計(jì)算能力的模型(同時(shí)是本書(shū)的主題),顯著地降低了語(yǔ)音識(shí)別系統(tǒng)的錯(cuò)誤率。其次,借助越來(lái)越先進(jìn)的互聯(lián)網(wǎng)技術(shù)和云計(jì)算技術(shù),我們得到了比先前多得多的數(shù)據(jù)資源。使用從真實(shí)使用場(chǎng)景下收集的大數(shù)據(jù)進(jìn)行模型訓(xùn)練,會(huì)省去之前的很多模型假設(shè),使得系統(tǒng)更加魯棒。最后,移動(dòng)設(shè)備、可穿戴設(shè)備、智能家居設(shè)備、車載信息娛樂(lè)系統(tǒng)正變得越來(lái)越流行,在這些設(shè)備和系統(tǒng)上進(jìn)行以往鼠標(biāo)、鍵盤(pán)這樣形式的交互不再像在電腦上一樣便捷了,而語(yǔ)音作為人類之間自然的交流形式,在這些設(shè)備和系統(tǒng)上成為更受歡迎的交流形式。
在近幾年,自動(dòng)語(yǔ)音識(shí)別技術(shù)成為很多應(yīng)用中的重要角色。這些應(yīng)用可促進(jìn)人類之間的交流和幫助人機(jī)交流。
1.1.1 人類之間的交流
語(yǔ)音技術(shù)可以用來(lái)消除人與人之間的交流壁壘。在過(guò)去,人們?nèi)绻胍c不同語(yǔ)言的使用者進(jìn)行溝通,則需要另一個(gè)人作為翻譯才行。這極大地限制了人們的可選交流對(duì)象,減少了交流機(jī)會(huì)。例如,如果一個(gè)人不會(huì)中文,那么他(她)獨(dú)自到中國(guó)旅游通常會(huì)遇到很多麻煩。而語(yǔ)音到語(yǔ)音(Speech-to-Speech,S2S)翻譯系統(tǒng)其實(shí)是可以用來(lái)消除這些交流壁壘的。微軟研究院最近就做過(guò)這樣一個(gè)示例,可以在文獻(xiàn)[1]中找到。除了可以應(yīng)用于旅行,S2S翻譯系統(tǒng)也可以整合到像Skype這樣的交流工具中。這樣,語(yǔ)言不通的人也可以自由地進(jìn)行遠(yuǎn)程交流。圖1-1列舉了一個(gè)典型的S2S翻譯系統(tǒng)的核心組成模塊,可以看到,語(yǔ)音識(shí)別是整個(gè)流水線中的第一環(huán)。

圖1-1 典型的S2S翻譯系統(tǒng)的核心組成模塊
除此之外,語(yǔ)音技術(shù)還有其他形式可以幫助人與人之間的交流。例如,在統(tǒng)一消息系統(tǒng)(Unified Messaging System)中,消息發(fā)送者(Caller)的語(yǔ)音消息可以通過(guò)語(yǔ)音轉(zhuǎn)寫(xiě)子系統(tǒng)轉(zhuǎn)換為文本消息,文本消息繼而通過(guò)電子郵件、即時(shí)消息或短信的方式被輕松發(fā)送給接收者來(lái)方便地閱讀。再如,給朋友發(fā)短信時(shí),利用語(yǔ)音識(shí)別技術(shù)進(jìn)行輸入可以更便捷。語(yǔ)音識(shí)別技術(shù)還可以用來(lái)對(duì)演講和課程的內(nèi)容進(jìn)行識(shí)別和索引,使用戶能夠更輕松地找到自己感興趣的信息。
1.1.2 人機(jī)交流
語(yǔ)音技術(shù)可以極大地提升人機(jī)交流的能力,其中流行應(yīng)用包括語(yǔ)音搜索、個(gè)人數(shù)字助理、游戲、起居室交互系統(tǒng)和車載信息娛樂(lè)系統(tǒng)。
? 語(yǔ)音搜索(Voice Search,VS)[2-4]>使用戶可以直接通過(guò)語(yǔ)音來(lái)搜索餐館、行駛路線和商品評(píng)價(jià)的信息。這極大地簡(jiǎn)化了用戶輸入搜索請(qǐng)求的方式。語(yǔ)音搜索類應(yīng)用在iPhone、Windows Phone和Android手機(jī)上已經(jīng)非常流行。
? 個(gè)人數(shù)字助理(Personal Digital Assistance,PDA)已經(jīng)作為原型產(chǎn)品出現(xiàn)了十年,而一直到蘋(píng)果公司發(fā)布了用于iPhone的Siri系統(tǒng)才變得流行起來(lái)。自那以后,很多公司發(fā)布了類似的產(chǎn)品。PDA知曉用戶在移動(dòng)設(shè)備上的信息,了解一些常識(shí),并記錄了用戶與系統(tǒng)的交互歷史。有了這些信息后,PDA可以更好地服務(wù)用戶。比如,可以完成撥打電話號(hào)碼、安排會(huì)議、回答問(wèn)題和音樂(lè)搜索等工作。而用戶只需要直接向系統(tǒng)發(fā)出語(yǔ)音指令即可。
? 在融合語(yǔ)音技術(shù)之后,游戲的體驗(yàn)將得到很大提升。例如,在一些微軟XBox的游戲中,玩家可以和卡通角色對(duì)話以詢問(wèn)信息或發(fā)出指令。
? 起居室交互系統(tǒng)和車載信息娛樂(lè)系統(tǒng)[5]在功能上十分相似。這樣的系統(tǒng)允許用戶使用語(yǔ)音與之交互,用戶通過(guò)它們來(lái)播放音樂(lè)、詢問(wèn)信息或者控制系統(tǒng)。當(dāng)然,由于這些系統(tǒng)的使用條件不同,在設(shè)計(jì)這樣的系統(tǒng)時(shí)會(huì)遇到不同的挑戰(zhàn)。
在本節(jié)中,所有的應(yīng)用場(chǎng)景和系統(tǒng)討論的都是口語(yǔ)系統(tǒng)(Spoken Language System)[6]的例子。我們將在1.3節(jié)中對(duì)口語(yǔ)理解和對(duì)話系統(tǒng)的組成進(jìn)行更詳細(xì)的介紹??谡Z(yǔ)對(duì)話系統(tǒng)通常包括語(yǔ)音識(shí)別、語(yǔ)義理解、對(duì)話管理、自然語(yǔ)言生成、語(yǔ)音合成等多個(gè)組成部分的一個(gè)或多個(gè),所有組成部分對(duì)建立一個(gè)成功的口語(yǔ)對(duì)話系統(tǒng)都是很關(guān)鍵的。在本書(shū)中,我們將重點(diǎn)關(guān)注語(yǔ)音識(shí)別部分,同時(shí)在最后幾章中,對(duì)口語(yǔ)理解和對(duì)話管理相關(guān)的核心深度學(xué)習(xí)技術(shù)進(jìn)行介紹,以便讀者能夠全面了解口語(yǔ)對(duì)話系統(tǒng)所涉及的技術(shù)全貌。
- 機(jī)器人制作從入門(mén)到精通(第3版)
- 深度探索:解碼DeepSeek及人工智能的未來(lái)
- AIGC:讓生成式AI成為自己的外腦
- Arduino開(kāi)發(fā)實(shí)戰(zhàn)指南:智能家居卷
- 機(jī)器人制作從入門(mén)到精通(第2版)
- 物聯(lián)網(wǎng)+智能家居:移動(dòng)互聯(lián)技術(shù)應(yīng)用
- 計(jì)算社會(huì)學(xué):系統(tǒng)應(yīng)用篇
- DeepSeek血型與性格解碼
- AI自媒體寫(xiě)作超簡(jiǎn)單
- 深度強(qiáng)化學(xué)習(xí)實(shí)踐(原書(shū)第2版)
- 革新:科技改變生活
- 圖靈的大教堂:數(shù)字宇宙開(kāi)啟智能時(shí)代
- 人形機(jī)器人:產(chǎn)業(yè)變革、商業(yè)機(jī)遇與未來(lái)趨勢(shì)
- 深度學(xué)習(xí)與圖像識(shí)別:原理與實(shí)踐
- 深度學(xué)習(xí):卷積神經(jīng)網(wǎng)絡(luò)從入門(mén)到精通