官术网_书友最值得收藏!

3 元學習神經網絡方法

本書對元學習的思想進行歸納匯總,前面兩章是將讀者帶入元學習這個領域,接下來介紹元學習的主要方法。這是第一個正式介紹元學習方法的章節,介紹的是最重要的元學習神經網絡方法,后面的章節會依次介紹元學習方法的思路,包括度量學習、元學習器、貝葉斯思想等方法。本書選取了許多論文中介紹的方法來闡釋元學習的思想,以及如何在神經網絡模型中使用元學習,如何快速準確地在分布外任務上進行推理。這些方法之間的分類并不明確,許多方法是很多元學習思想的綜合,這里的重點不是對方法進行精準分類,而是通過這些方法闡釋元學習的思路,讓讀者了解元學習的思想。

元學習神經網絡方法是元學習最重要的思想之一,神經網絡模型的應用非常廣泛,因此,建立在神經網絡模型上的元學習方法更容易獲得大家的認可和應用,也便于大家理解。在神經網絡模型中使用元學習方法的模塊,在元學習框架下整合多個神經網絡模型,都是可行的方案。元學習神經網絡方法在神經網絡模型設計中引入了更多靈活性,可實現神經網絡模型更加靈活快速地適應分布外任務。自動化機器學習AutoML(Automated Machine Learning)通過搜索所有超參數組合下的神經網絡模型的表現,找到最優的神經網絡模型,來自動設計神經網絡,達到匹敵人工調試神經網絡模型的效果,它與元學習的結合很多。

本章將先介紹神經網絡模型的基礎結構、參數和超參數、梯度反向傳播和常用正則化方法,然后介紹常用神經網絡模型的結構——卷積神經網絡模型和殘差神經網絡模型。之后,會介紹基于神經網絡模型的元學習方法,包括預訓練深度神經網絡模型的局部梯度更新、帶有任務專屬參數的神經元設計等方法。最后,介紹元學習框架在自動化機器學習中的應用,包括使用記憶模塊累積經驗為新任務提供初始模型、使用元學習器作為預測器來加速神經網絡模型的訓練和指導遍歷預測精度更好的超參數組合、使用遺傳演化算法由簡到繁地遍歷稀疏超參數域尋找最優的超參數組合等。

近年來深度學習興起,成為人工智能領域最重要的分支,Yann Lecun、Yoshua Bengio和Geoffrey Hinton于2015年在Nature上發表了論文“Deep Learning”[1],對深度學習進行了闡釋。深度學習使用很多處理層對數據進行多層次的抽象,通過這樣多層次的抽象,深度學習方法極大地提升了機器學習方法在語音識別、視覺物體識別、物體檢測以及其他領域(例如,藥物發現和基因工程)上的表現。深度學習模型可以發現大量數據中蘊含的細節規律,反向傳播算法是訓練深度學習模型的主要方法,卷積神經網絡用來對圖像、視頻、語音進行處理,遞歸神經網絡用來對有序數據進行處理。

深度學習模型是很好的高維數據降維模型。在高維數據降維模型中,研究者要求提取出來的特征是問題中需要的,因此需要根據大量有標注數據對神經網絡進行訓練。深度神經網絡模型適用于很多不同任務中的數據集,不需要做太多修改就可以處理大量不同的數據集,使用起來非常方便,不需要太多在模型上的思考,輸出的結果也還不錯。深度神經網絡是有監督學習模型,其訓練需要大量有標注數據,深度神經網絡模型中的參數是權重,通過損失函數對權重的梯度進行反向傳播,來對權重參數進行訓練。深度神經網絡的表示力特別強,例如,在圖像處理任務中,訓練后的深度神經網絡可以提取對圖像分類有用的特征,而忽視其他無效的特征。

深度神經網絡有很多隱藏層,在每一層的處理之后,輸入發生了降維或者變換,在處理中會有信息的損失。常用的深度神經網絡訓練方法是誤差反向傳導,通過誤差的求導和鏈式法則,來對網絡中的權重參數進行訓練。隨著神經網絡的層數變多,導數變得非常接近零或者非常大,使得神經網絡的訓練變得不穩定。有許多方法可以用來解決這個問題,例如,批歸一化(Batch Normalization)、殘差網絡(Residual Neural Network)、長短期記憶網絡等,使得誤差的導數在反向傳播過程中不會消失或者爆炸,讓神經網絡的層數變得更多,以增強神經網絡對復雜問題的表示力。

Kaiming He等作者于2016年在論文“Deep Residual Learning for Image Recognition”[2]中提出殘差神經網絡,在網絡層之間添加了殘差加入的路徑,使網絡的訓練變得更加容易,梯度在誤差反向傳播過程中不會消失或者爆炸。殘差的加入有利于神經網絡的加深,神經網絡加深后可帶來精度上的提升。Kaiming He等作者于2016年在論文“Identity Mappings in Deep Residual Networks”[3]中指出,通過恒等映射(Identity Mapping)的殘差加入的效果最好。論文中考慮了多層網絡中誤差求導和鏈式法則,因為很多小于1的數相乘會變得很接近0,而很多大于1的數相乘會變得很大,所以只有恒等映射不會帶來這種現象。然而在極限理論中,我們熟知

img

這說明很多大于1的數相乘不一定會變得巨大,尤其是在神經網絡的誤差反向傳播過程中。隨著層數加深,中間間隔的層數越多,誤差的導數變得越小,兩個層相隔越遠,兩個層之間的相互作用和影響越弱。盡管如此,恒等映射仍然是最安全的選擇,不論實際上的導數減弱規律是怎樣的,恒等映射都能保證誤差傳導過程中不會出現導數消失或者爆炸的問題。

主站蜘蛛池模板: 安义县| 伽师县| 罗山县| 静安区| 信宜市| 宜兰市| 长阳| 天祝| 靖宇县| 平塘县| 仁怀市| 沐川县| 商河县| 南平市| 额济纳旗| 锡林郭勒盟| 越西县| 开江县| 简阳市| 西充县| 上栗县| 泾川县| 清丰县| 黄大仙区| 长顺县| 宁武县| 莱阳市| 金昌市| 南京市| 万荣县| 新丰县| 麟游县| 拜泉县| 武鸣县| 喀什市| 柳林县| 宾阳县| 阳山县| 新乐市| 丰县| 延寿县|