- Kaldi語音識別實戰(zhàn)
- 陳果果等
- 831字
- 2020-06-05 16:56:36
作者簡介
(署名按作者姓氏拼音排序)
陳果果
清華大學本科學位,約翰霍普金斯大學博士學位,主要研究方向是語音識別及關鍵詞檢索,師從語音識別開源工具Kaldi主要開發(fā)者Daniel Povey,以及約翰霍普金斯大學語言語音處理中心教授Sanjeev Khudanpur。博士期間為Google開發(fā)了Google的喚醒詞Okay Google的原型,現(xiàn)在已經用到數(shù)以億計的安卓設備及Google智能語音交互設備上。博士期間同時參與開發(fā)語音識別開源工具Kaldi,以及神經網絡開源工具CNTK。博士畢業(yè)以后聯(lián)合創(chuàng)辦KITT.AI,專注于語音識別及自然語言處理,公司于2017年被百度收購,目前擔任百度智能生活事業(yè)群組(SLG)主任架構師。
都家宇
本科畢業(yè)于大連理工大學,后于澳大利亞新南威爾士大學電子信息工程學院學習,取得信號處理專業(yè)碩士學位。研究生期間在導師Julien Epps指導下開始進行語音處理、情緒識別方向的研究。畢業(yè)后先后任職于清華大學語音技術實驗室、百度語音技術部,以及阿里巴巴iDST、達摩院語音組,從事聲學模型、解碼器、語音喚醒等方面的研發(fā)工作。參與過與Kaldi相關的工作有:Kaldinnet1神經網絡框架中l(wèi)stm作者;發(fā)起并推動全球最大規(guī)模的中文開源數(shù)據(jù)集語音項目AISHELL-1、AISHELL-2,已服務于清華大學、北京大學、南洋理工大學、哥倫比亞大學等近200所國內外高校的科研項目。
那興宇
本科和博士均畢業(yè)于北京理工大學,主要研究方向是語音識別和語音合成。先后任職于中國科學院聲學研究所和阿里巴巴機器人,從事語音識別模型訓練系統(tǒng)和語音交互系統(tǒng)的開發(fā)。目前就職于微軟,擔任資深應用科學家,從事語音識別算法和技術架構的開發(fā)及業(yè)務支持工作。2015年開始在Kaldi開源項目中貢獻代碼,參與了nnet3和chain模型的開發(fā)工作,并維護其中若干示例及OpenSLR的中文語音識別模型。
張俊博
博士畢業(yè)于中國科學院聲學研究所,師從顏永紅研究員。在小米公司從零起主導構建了整套語音算法研究框架,包括語音識別、智能設備語音喚醒、聲紋識別、語音增強、用于語音應用的神經網絡部署,均達到了當時的先進水平,并發(fā)表頂會論文若干篇,為后續(xù)的語音研發(fā)工作建立了基礎。近期上線了用于外語學習的發(fā)音質量評測引擎,并給Kaldi貢獻了發(fā)音良好度評分的代碼。