官术网_书友最值得收藏!

  • Keras與深度學習實戰
  • 黃可坤 張良均主編
  • 3800字
  • 2023-11-15 19:17:23

1.1 深度學習簡介

深度學習目前在很多領域的表現都優于傳統的機器學習算法,在圖像分類與識別、語音識別與合成、人臉識別、視頻分類與行為識別等領域都有著不俗的表現。除此以外,深度學習還涉及與生活相關的紋理識別、行人檢測、場景標記、門牌識別等場景。

人臉識別采用深度學習算法后,其分類精度超過了目前非深度學習算法以及人眼能夠達到的分類精度。深度學習技術在語音識別領域更是取得了突破性的進展,在大規模圖像分類問題上的效率也遠超傳統算法。

1.1.1 深度學習的定義

2006年,杰弗里·欣頓(Geoffrey Hinton)等人在頂尖學術刊物《科學》上發表了一篇文章。該文章提出了深度網絡訓練中梯度消失問題的解決方案:首先使用無監督預訓練對權重進行初始化,然后使用有監督訓練微調權重。

2012年,擁有8層網絡的深度神經網絡AlexNet在圖片識別競賽中取得了優異的成績,展現了深度神經網絡強大的學習能力。此后數十層、數百層,甚至上千層的深度神經網絡模型被相繼提出。通常將利用深度神經網絡實現的算法稱為深度學習。

深度學習的核心在于自動將簡單的特征組合成更加復雜的特征,并使用這些特征解決問題。深度學習是機器學習的一個分支,它除了可以學習特征和任務之間的關聯之外,還能自動從簡單特征中提取更加復雜的特征。

雖然深度學習在研發之初受到了大腦工作原理的很多啟發,但是現代深度學習的發展并不拘泥于模擬人腦神經元和人腦的工作機制。現代的深度學習已經超越了神經科學的觀點,它可以更廣泛地適用于各種并非受到神經網絡啟發而產生的機器學習框架。

1.1.2 深度學習常見應用

深度學習在圖像分類、圖像分割、圖像生成、圖像說明生成(圖像理解)、圖像風格轉換、物體檢測、物體測量、物體分揀、視覺定位、情感分析、無人駕駛、機器翻譯、文本到語音轉換、手寫文字轉錄、智能問答系統等方面均有應用。這些深度學習的應用與人們的日常生活息息相關,如手機中的語音助手、汽車上的智能輔助駕駛、商店里的人臉支付等。

1.圖像分類

圖像分類的核心是從給定的分類集合中,為圖像分配一個標簽。實際上,圖像分類是指分析一個輸入圖像并返回一個將圖像分類的標簽。標簽總是來自預定義的分類集合。深度學習算法可以實現對貓的圖像的分類,如圖1-1所示。

圖1-1 貓的圖像的分類

2.圖像分割

圖像分割就是指能將圖像分割成若干個特定的、具有獨特性質的區域,并提出感興趣目標的技術和過程,它是介于圖像處理與圖像分析之間的關鍵步驟?,F有的圖像分割方法主要分為4類:基于閾值的分割方法、基于區域的分割方法、基于邊緣的分割方法和基于特定理論的分割方法。圖像分割的過程是將數字圖像劃分成互不相交的區域的過程。圖像分割的過程也是一個標記過程,即為屬于同一區域的像素賦予相同的編號。圖像分割對街道車輛圖像進行分割的結果如圖1-2所示。

圖1-2 圖像分割

3.圖像生成

有一種新的技術能實現不需要另外輸入任何圖像,只要前期使用大量的真實圖像讓網絡進行學習,即可由網絡自動生成新的圖像。目前常見的生成模型有變分自編碼器(Variational Auto-Encoder,VAE)系列、生成對抗網絡(Generative Adversarial Network,GAN)系列等。其中生成對抗網絡系列算法近年來取得了巨大的進展,最新的生成對抗網絡模型生成的圖像效果達到了人眼難辨真偽的程度。圖1-3所示的是為網絡提供的真實圖像,網絡根據真實圖像生成的新圖像如圖1-4所示。

圖1-3 為網絡提供的真實圖像

圖1-4 網絡根據真實圖像生成的新圖像

4.圖像說明生成

神經圖像說明(Neural Image Caption,NIC)模型會自動生成輸入圖像的介紹性文字。該模型由深度的卷積神經網絡(Convolutional Neural Network,CNN)和基于自然語言處理的循環神經網絡(Recurrent Neural Network,RNN)構成。卷積神經網絡提取圖像特征,循環神經網絡生成文本。輸入圖1-5所示的原圖像,NIC模型可以生成諸如“一個男人和一個女孩坐在地上吃”“一個男人和一個小女孩正坐在人行道上吃,附近有一個藍色的袋子”“一個男人穿著一件黑色的襯衫和一個穿著橙色禮服的小女孩分享一種美食”等標題。

圖1-5 原圖像

5.圖像風格轉換

圖像風格轉換利用了卷積神經網絡可以提取高層特征的功能,不在像素級別進行損失函數的計算,而是將原圖像和生成圖像都輸入到一個已經訓練好的神經網絡里,在得到的某種特征表示上計算歐氏距離(內容損失函數)。這樣得到的圖像與原圖像內容相似,但像素級別不一定相似,且所得圖像更具魯棒性。輸入兩幅圖像,網絡會生成一幅新的圖像。兩幅輸入圖像中,一幅稱為“內容圖像”,如圖1-6所示;另一幅稱為“風格圖像”,如圖1-7所示。如果將風格圖像的繪畫風格應用于內容圖像上,那么深度學習網絡會按照要求繪制出該風格的圖像,如圖1-8所示。

圖1-6 內容圖像

圖1-7 風格圖像

圖1-8 輸出圖像

6.物體檢測

物體檢測就是從圖像中確定物體的位置,并對物體進行分類。根據騎行圖像對騎行者進行檢測,如圖1-9所示。

圖1-9 物體檢測

物體檢測是機器視覺技術最主要的應用之一,例如為建立大安全大應急框架,完善公共安全體系,對汽車違規行駛的檢測,為了保障行車、行人的安全而在路口安裝的交通檢測系統,用于檢測司機是否存在駕駛速度超過限制,違規變道,闖紅燈,遮擋車牌,沒系安全帶等違規行為,提高公共安全治理水平。

人工檢測存在著較多的弊端,如準確率低,長時間工作時,人工的準確率更無法保障;檢測速度慢,容易出現錯判和漏判。因此,機器視覺技術在物體檢測的應用方面也就顯得非常重要。

物體檢測比物體識別更難。原因在于物體檢測需要從圖像中確定物體的位置,有時圖像中可能存在多個物體。對于這樣的問題,人們提出了多種基于卷積神經網絡的算法,這些算法有著非常優秀的性能。

在使用卷積神經網絡進行物體檢測的算法中,區域卷積神經網絡(Region-Convolutional Neural Network,R-CNN)被較早地運用在物體檢測上,因此該算法較為成熟。R-CNN算法在提高訓練和測試的速度的同時也提高了檢測精度。

7.物體測量

在日常生活中,物體測量通常是對物體的質量、長度、高度、體積等進行測量。在機器視覺領域,通常使用光的反射進行非接觸測量,如圖1-10所示,某款手機使用非接觸光學測量方法對桌子進行測量。物體測量技術還多用于工業方面,主要對汽車零部件、齒輪、半導體元件管腳等進行測量。

圖1-10 非接觸光學測量

8.物體分揀

物體分揀是在檢測、識別之后進行的一個環節,通過機器視覺技術對圖像中的目標進行檢測和識別,實現自動分揀,如圖1-11所示。在工業領域,物體分揀常用于食品分揀、表面瑕疵零件自動分揀、棉花纖維分揀等。同時,物體分揀在物流、倉庫中的運用更為廣泛。在分揀過程中,機器按照物品種類、物品大小、出入庫的先后順序等對物體進行分揀。

圖1-11 物體分揀

9.視覺定位

視覺定位要求機器能夠快速、準確地找到被測零件并確認其位置,如圖1-12所示。在半導體封裝領域,設備需要通過機器視覺技術取得的芯片位置信息調整拾取頭,準確拾取芯片并進行綁定。這就是視覺定位在機器視覺工業領域的基本應用。

圖1-12 視覺定位

10.情感分析

情感分析的核心就是從一段文字中判斷作者對主體的評價是好還是差。針對通用場景下帶有主觀描述的中文文本,深度學習算法可以自動判斷該文本的情感極性并給出相應的置信度。情感極性分為積極、消極、中性或更多維的情緒。情感分析的例子如圖1-13所示。

圖1-13 情感分析的例子

11.無人駕駛

無人駕駛被認為是深度學習在短期內能實現技術落地的一個應用方向,很多公司投入大量資源在無人駕駛上,百度的無人巴士“阿波龍”已經在北京、武漢等地展開試運營。無人駕駛的行車視野如圖1-14所示,無人駕駛主要利用深度學習算法,結合傳感器來指揮和操縱車輛,從而構建一個完全智能調度的移動出行網絡。

圖1-14 無人駕駛的行車視野

12.機器翻譯

常用的機器翻譯模型有Seq2Seq、BERT、GPT、GPT-2等。OpenAI公司提出的GPT-2模型參數量高達15億,發布之初甚至以技術安全考慮為由拒絕開源GPT-2模型。

目前深度學習在機器翻譯領域取得了很大的進步,如我國堅持科技自立自強,科大訊飛的翻譯機支持多語種(英語、日語、韓語、西班牙語、法語等)離線翻譯、拍照翻譯,并且也能順利翻譯四川話、河南話、東北話、山東話等方言。除了日常的對話外,翻譯機還可以用于行業領域的翻譯,如外貿、能源、法律、體育、電力、醫療、金融、計算機等行業領域??拼笥嶏w翻譯機如圖1-15所示,其實時翻譯記錄如圖1-16所示。

圖1-15 科大訊飛翻譯機

圖1-16 科大訊飛實時翻譯記錄

13.文本到語音轉換

從文本中生成人類的語音,通常被稱為文本到語音轉換(Text To Speech,TTS),它有許多的應用,是語音驅動的設備、導航系統和視力障礙者設備中不可缺少的工具。從根本上說,文本到語音轉換能讓人在不需要視覺交互的情況下與技術進行互動。百度研究院發布的Deep Voice是一個文本到語音轉換系統,完全由深度神經網絡構建。文本到語音轉換將自然語言的文本很流暢、自然地變為語音,也因此出現了語音小說。

14.手寫文字轉錄

手寫文字轉錄是指自動識別用戶手寫的文字,并將其直接轉化為計算機可以識別的文字。用戶手寫文字字形的提取,包括利用文本行的水平投影進行行切分,以及利用文本行的垂直投影進行字切分,然后將提取的用戶手寫文字字形特征向量與計算機文字的字形特征向量進行匹配,并建立用戶手寫體與計算機字體的對應關系,生成計算機可識別的文字。

15.智能問答系統

由于網絡在日常生活的應用,用戶可以足不出戶地在手機上完成購物、繳費等,但是這些行為帶來了溝通不便的問題,例如用戶在繳納手機話費時,不清楚賬單里的扣費詳情。因此基于深度學習和自然語言處理(Natural Language Processing,NLP)的智能問答系統受到了廣泛的關注。用戶在智能問答系統中輸入問題,智能問答系統提取問題中的關鍵字,然后輸出與關鍵字相關的答案,這樣能極大程度地減少人力和物力的投入。

主站蜘蛛池模板: 遵义县| 广平县| 罗定市| 南乐县| 云安县| 彭阳县| 城市| 高邑县| 奎屯市| 大渡口区| 亳州市| 韩城市| 霍林郭勒市| 镇宁| 承德市| 绩溪县| 钦州市| 临城县| 同仁县| 朝阳市| 汕头市| 潼南县| 重庆市| 定安县| 信阳市| 中西区| 蓬莱市| 金山区| 铜川市| 罗甸县| 太保市| 深水埗区| 会宁县| 海淀区| 钟祥市| 应城市| 长丰县| 南昌市| 博乐市| 桦甸市| 汉川市|