官术网_书友最值得收藏!

前言

以自然語言人機交互為主要目標(biāo)的智能語音和語言處理是人工智能的核心領(lǐng)域之一,近幾十年來一直是研究的熱點。尤其是近十年,深度學(xué)習(xí)的迅速發(fā)展使得智能語音及語言處理的研究熱情被極大地點燃,學(xué)術(shù)界和工業(yè)界都熱忱地參與進來,產(chǎn)生了一系列重大進展。這一系列新的技術(shù)是智能語音及語言處理研究歷史上的重要里程碑,很有必要被系統(tǒng)地總結(jié)。

我們在2014年出版的《解析深度學(xué)習(xí):語音識別實踐》一書中,比較全面地介紹了2014年之前深度學(xué)習(xí)在“隱馬爾可夫模型+n元詞組語言模型”經(jīng)典語音識別框架下的應(yīng)用技術(shù)細(xì)節(jié)。以深度學(xué)習(xí)的初始經(jīng)典模型——深層神經(jīng)網(wǎng)絡(luò)(Deep Neural Network,DNN)為基礎(chǔ),講述了深度學(xué)習(xí)的基本方法,及其在語音識別的聲學(xué)建模中的各類技術(shù)細(xì)節(jié),并介紹了循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)和長短時記憶(Long Short Term Memory,LSTM)網(wǎng)絡(luò)的基礎(chǔ)應(yīng)用。

2014—2019年,隨著工業(yè)界對自然口語交互系統(tǒng)的應(yīng)用熱情空前高漲,以及研究界在基于深度學(xué)習(xí)的語音和語言處理技術(shù)上的大幅進步,一系列新的甚至顛覆性的理論、技術(shù)、算法應(yīng)用產(chǎn)生了,這使得語音識別系統(tǒng)在經(jīng)典大詞匯連續(xù)語音識別任務(wù)上的錯誤率大幅下降,甚至逼近了人類水平。同時,基于深度學(xué)習(xí)的自然語言處理技術(shù)也取得了長足進展,尤其是任務(wù)型口語對話系統(tǒng)的各個模塊都廣泛采用了深度學(xué)習(xí)技術(shù)并有了提升。因此,我們決定在《解析深度學(xué)習(xí):語音識別實踐》一書的基礎(chǔ)上,改寫并補充大量內(nèi)容,詳細(xì)總結(jié)新的語音識別算法及應(yīng)用技術(shù),以及口語對話系統(tǒng)中基于深度學(xué)習(xí)的自然語言處理技術(shù)。

首先,在語音識別理論的進展方面,從深度學(xué)習(xí)理論及其應(yīng)用的角度,增加了經(jīng)典語音識別框架下的先進深度學(xué)習(xí)模型的擴充介紹,主要是卷積神經(jīng)網(wǎng)絡(luò)、循環(huán)神經(jīng)網(wǎng)絡(luò)的新技術(shù)及深度學(xué)習(xí)在語音端點檢測、喚醒、語言模型中的技術(shù)應(yīng)用細(xì)節(jié)。其次,從語音識別框架和方法論的角度,重新組織了篇章結(jié)構(gòu),集中介紹了先進的語音識別方法,包括自適應(yīng)、鑒別性訓(xùn)練和端到端模型。尤其擴充介紹了聲學(xué)模型的序列鑒別性訓(xùn)練,這是近年來使深度學(xué)習(xí)聲學(xué)模型性能繼續(xù)大幅提升的關(guān)鍵高級技術(shù)。而端到端模型作為不同于經(jīng)典的“隱馬爾可夫模型+n元詞組語言模型”語音識別框架的顛覆性建模技術(shù),已經(jīng)在工業(yè)界得到廣泛應(yīng)用,成為替代原有框架的嶄新技術(shù)方向。本書還從場景角度介紹了復(fù)雜語音識別場景下的深度學(xué)習(xí)技術(shù)應(yīng)用,尤其是從抗噪語音識別角度介紹了單通道語音增強和信號分離技術(shù),以及遠(yuǎn)場語音識別的前端技術(shù)。

本書的另一個重要部分是深度學(xué)習(xí)在口語理解及對話系統(tǒng)中的應(yīng)用技術(shù)介紹。雖然人類的語音感知與語言認(rèn)知天然地作為一個完整系統(tǒng)在工作,但我們?nèi)匀唤?jīng)常聽到一種被廣泛傳播的錯誤理解:語音識別與自然語言處理是兩個獨立的技術(shù)體系。本書從完整的口語對話系統(tǒng)角度,梳理了語音識別與自然語言理解的相互關(guān)系,介紹了口語對話系統(tǒng)的基本概念、自然語言理解與口語理解的異同,以及對話狀態(tài)跟蹤與語義理解的異同等。對于深度學(xué)習(xí)在理解和對話中的應(yīng)用,不僅介紹了基于純文本的理解和對話交互的深度學(xué)習(xí)技術(shù),還介紹了如何在帶有錯誤的語音識別結(jié)果上做更好的語言理解和對話管理的相關(guān)處理框架與應(yīng)用技術(shù)。這些深度學(xué)習(xí)技術(shù)是未來構(gòu)建認(rèn)知型口語交互系統(tǒng)的關(guān)鍵。

我們相信,本書對語音識別、語言理解和口語對話給出了一個更為完整的技術(shù)圖譜,它將促進真實世界的人機智能口語交互系統(tǒng)的技術(shù)發(fā)展,也將有益于機器學(xué)習(xí)、智能語音及語言處理領(lǐng)域的研究者和實踐者。我們希望,本書能夠持續(xù)激發(fā)更多的創(chuàng)新想法和工業(yè)應(yīng)用,推動口語對話式人工智能的發(fā)展。

本書是由俞棟和鄧力提供部分材料,俞凱和錢彥旻撰寫完成的。在撰寫過程中,上海交通大學(xué)智能語音實驗室的常烜愷、曹瑞升、陳露、陳哲懷、陳志、杜晨鵬、胡虎、李豪、潘亦晟、石開宇、王帥、謝凱歌、張王優(yōu)、周瑛、朱蘇等同學(xué)提供了大量的支持和幫助,再次表示感謝。同時感謝電子工業(yè)出版社的編輯,他們的幫助是本書能夠順利出版的重要支撐。

俞棟 鄧力 俞凱 錢彥旻
2020年9月

主站蜘蛛池模板: 龙门县| 大悟县| 石柱| 阿瓦提县| 宜宾县| 颍上县| 弥勒县| 石河子市| 南昌市| 巴彦淖尔市| 信阳市| 福鼎市| 阿拉善左旗| 杭锦旗| 介休市| 从江县| 华坪县| 潼南县| 茶陵县| 滨海县| 特克斯县| 太仓市| 保靖县| 翁牛特旗| 普兰县| 广州市| 旅游| 行唐县| 新密市| 凤冈县| 甘孜| 平乡县| 吴川市| 庆城县| 芷江| 平阴县| 丰宁| 偏关县| 湖北省| 封开县| 定陶县|