下载捕鱼游戏1000炮

書名：元學習：基礎與應用
作者名：彭慧民編著
本章字數： 6046字
更新時間： 2021-06-10 14:41:19

1.3　近期發(fā)展

1990—2001年的元學習研究大多通過更新超參數或者更新模型選擇來實現學習器的自我更新。學習器是固定的，超參數的表示力越強，能夠表示的問題的復雜程度越高。近期的元學習研究主要是實現相似任務之間的模型泛化，例如，基于相似度量的方法，通過卷積神經網絡（CNN）或殘差神經網絡在高維輸入中計算特征向量，并且計算特征向量之間的距離。距離的衡量方法有很多種，距離度量的選擇依賴于數據點的概率分布，根據分布是否分塊和每塊數據點的離散程度等，選擇合適的距離度量，距離接近的輸入被認為是相似的，在一個任務上得到的結論可以推廣到另一個與之相似的任務上。

元學習與遷移學習的概念是類似的，在許多研究中都認為二者是相同的概念，筆者也認為二者是相同的概念。但是也有一些學者認為二者之間存在區(qū)別，他們認為主要的區(qū)別有：（1）元學習的目標是在相似程度較低的任務之間推廣學習器，而遷移學習的目標是在相似程度較高的同類任務之間推廣學習器。遷移學習認為在相似程度較低的任務之間遷移模型，會帶來負遷移現象，導致遷移后的模型不能在任務上取得較好的精度。（2）元學習算法的目標是在任務之間相似程度降低時算法表現不會惡化，而遷移學習算法在任務之間相似程度降低時會出現負遷移導致算法表現惡化。（3）元學習的目標是讓機器學會學習，是General AI的概念。這些區(qū)別主要來自研究人員對于二者當下研究內容的比較得到的結論，盡管如此，筆者仍然認為二者是類似的概念，從歷史上看，元學習方法和遷移學習方法之間的相互借鑒和融合非常多。近來，元學習方法和遷移學習領域的域遷移（Domain Adaptation）方法之間的結合非常多，在小樣本圖片分類任務上取得了不錯的精度。一個域的分布外任務，可以是另一個域的分布內任務，通過域遷移來更新模型，使得模型更好地適用到新任務上。

元學習研究的目標是在更大差別的任務之間實現模型的遷移，通過將模型擬合和模型推廣進行解耦，適應差別更大的任務。同時元學習的研究目標是實現General AI，讓機器通過與其他機器以及環(huán)境的交互，學會自我更新，適應相似度更低的任務。遷移學習上常用的方法是預訓練深度卷積神經網絡，例如，在ImageNet上訓練深度卷積神經網絡來進行圖像分類，然后將預訓練的網絡調整參數應用到新的類別的圖片分類問題，得到很高的分類精度，實現模型的遷移。然而，在深度卷積神經網絡中，參數的冗余程度很高，而且參數之間存在容易推廣的映射規(guī)律，因此模型的遷移可以迅速且準確地實現，這個方法也是近來元學習的主要方法流派之一。

近期的元學習研究將早期的元學習理念具體實現了，例如，Jürgen Schmidhuber在論文中提出可以用其他模型更新方法代替文中提到的遺傳演化算法，MAML使用了隨機梯度下降法而不是演化算法來進行學習器的自我更新。Jürgen Schmidhuber在論文中提到的基礎學習器、元學習器、元元學習器等結構在最新提出的元學習方法中也得到了實現，并獲得了不錯的效果，任務分解等概念也發(fā)展成可實現的元學習方法。而且，近代元學習研究的發(fā)展主要分為兩類，一類是將元學習框架融合到深度學習模型中，改善實際應用的效果；另一類是改進現有的元學習框架，在速度和準確度上獲得提升，適應差別更大的新任務，使機器變得更加智能化和自動化。

除此之外，2017年，Chelsea Finn提出的MAML[4]算法，考慮對基礎學習器進行隨機梯度下降法優(yōu)化，使用元學習器指導基礎學習器的優(yōu)化，來實現神經網絡模型中參數的更新，將一個任務的神經網絡模型快速推廣到另一個任務，以在新任務上達到很高的精度。MAML算法成為2017年以來元學習領域最受歡迎的方法，成為元學習的“代名詞”。近年來，元學習受到的關注主要來自MAML的光環(huán)?？梢钥吹?，與遷移學習中常用的預訓練深度卷積網絡方法不同的是，MAML使用元學習器指導基礎學習器的優(yōu)化，使得任務上的基礎學習器的訓練更快且精度更高，MAML可以學習神經網絡模型中哪些參數更需要在任務之間進行更新，MAML可以適用于小樣本任務之間的深度神經網絡快速準確推廣，這就是MAML屬于元學習方法而不是遷移學習方法的原因。

1.3.1　1997年的長短期記憶網絡LSTM

Sepp Hochreiter和Jürgen Schmidhuber于1997年提出長短期記憶網絡LSTM[5]，圖靈計算機的靈感來自模擬人類大腦，神經網絡模型的靈感也來自模擬人類大腦，于是計算機的硬件結構設計和神經網絡模型結構設計之間可以相互借鑒。截至目前，LSTM這篇文章有超過24 000次的引用量，可見LSTM的應用非常廣泛，影響非常深遠。LSTM模型主要用于有序數據的處理，包括時間序列和文本數據，在這類有序數據的特征分析上，LSTM模型具有獨到的優(yōu)勢。

LSTM是一種遞歸神經網絡RNN（Recurrent Neural Network），RNN的核心是遞歸自連接（Recurrent Self-Connection）神經元，自連接神經元可以實現自我更新。通過RNN，時間軸上的信息可以存儲在神經網絡中。乘法輸入門（Multiplicative Input Gate）保護保存的時間軸信息不會受其他輸入的干擾，乘法輸出門（Multiplicative Output Gate）保護其他單元的正確輸出不會受目前記憶細胞中存儲的無關信息的干擾。記憶細胞（Memory Cell）是伴隨著遞歸自連接神經元的，記憶細胞的核心就是遞歸自連接神經元，除了和自連接神經元通信之外，記憶細胞的輸入還來自乘法輸出門和乘法輸入門。

RNN的誤差傳導方法BPTT（Back-Propagation Through Time）會遇到梯度爆炸或者梯度消失問題，而LSTM要求遞歸自連接神經元的誤差傳導不減弱，乘法門可以選擇接收或者不接收恒定的誤差傳導，避免了梯度爆炸或者梯度消失問題。同時，由于自連接神經元的誤差傳導不會減弱，很久之前的誤差梯度仍然可以對當前的神經元狀態(tài)產生影響，因此，LSTM可應對長程相關性問題。LSTM擁有遞歸自連接神經元可以完成自我更新，泛化性能極佳，LSTM超參數往往不需要微調即可適用于新問題。

1999年，Felix Gers、Jürgen Schmidhuber和Fred Cummins在“Learning to Forget”[6]論文中提出在LSTM中加入遺忘門（Forget Gate），遺忘門的使用避免了記憶細胞中存儲的信息爆炸，讓過去模型訓練經驗的存儲變得更有效，有利于相關經驗的提取。2018年，Jos Van Der Westhuizen和Joan Lasenby提出JANET結構[7]，去掉了LSTM中的乘法輸入門和乘法輸出門，只保留了遺忘門，JANET的性能與LSTM可比，且在MNIST數據集上精度更高。由此可見，遺忘門的使用對LSTM的性能非常重要，學會遺忘也是General AI的重要環(huán)節(jié)。

1.3.2　2001年的LSTM元學習系統(tǒng)

LSTM中有兩個元素與元學習相關，（1）LSTM中的記憶細胞保存了過去模型更新的經驗，經驗可以被借鑒，用來更快速地解決新問題，記憶的特性有記憶提取機制和記憶有選擇性地遺忘。（2）LSTM中的遞歸自連接神經元的誤差傳導不會衰減，很久之前的信息仍然可以與當前的狀態(tài)進行聯(lián)系，尋找當前狀態(tài)與過去的相似性，這可用于對當前狀態(tài)的解讀。Jürgen Schmidhuber的博士論文中認為元學習是General AI，主要實現方式是學習器的自我更新，而RNN的核心是遞歸自連接神經元，自連接神經元的狀態(tài)在網絡訓練過程中不斷更新，因此，RNN和General AI聯(lián)系緊密。

元學習系統(tǒng)有兩個組成部分，（1）元學習器，適應任務并且提供相應學習器的機制，是一個監(jiān)督機制，用于在具有相似性的任務之間獲取好的學習器。（2）基礎學習器，對于不同的任務，基礎學習器不同。元學習器必須關注任務之間的共性，而基礎學習器關注的是不同任務的特性。Steven Younger、Sepp Hochreiter和Peter Conwell于2001年在論文“Meta-Learning with Backpropagation”中提出了LSTM元學習系統(tǒng)[8]，LSTM網絡本身就可以作為元學習系統(tǒng)。在這之前的元學習方法考慮的更多的是生物進化算法，而該論文中考慮的元學習是在RNN中使用最快梯度下降法實現，合理使用最快梯度下降法可以加速神經網絡模型的訓練。任何RNN都是一個元學習系統(tǒng)，RNN對應的反向傳播算法（Backpropagation）可用于元學習，且RNN中的LSTM作為元學習系統(tǒng)的效果極佳。

1.3.3　2017年的MAML算法

2017年，Chelsea Finn、Pieter Abbeel和Sergey Levine在論文“Model-Agnostic Meta-Learning for Fast Adaptation of Deep Networks”中提出MAML[4]，MAML適用于任何使用梯度下降法訓練的模型，元學習需要在很多種類的任務訓練中針對不同任務的學習器提供機制，所以對于只有少量樣本的新任務，元學習模型也可以提供合適的學習器，解決小樣本任務的訓練問題。在MAML中，使用新任務中的少量樣本對模型參數進行少量梯度更新步驟，訓練得到的學習器即可完成新任務。這樣的模型更新機制并不少見，然而MAML僅通過小樣本新任務中的少量梯度更新步驟，即可在小樣本新任務中取得當時最好的精度。

MAML的成功主要依賴于如下幾個方面：（1）MAML使用元學習器來指導每個任務上基礎學習器的訓練，元學習器有大量經驗，因地制宜，根據任務特性，給出最專業(yè)的指導，完成任務的速度和精度都大幅提升。（2）深度神經網絡模型的訓練耗時費力，但是要實現快速準確的推廣并不容易。在花費很長時間、計算量很大的機器人項目中，機器人學會了一個抓小球的動作，但是推廣到新的動作，例如，抓小方塊，或者周圍環(huán)境的構造發(fā)生一些變化之后，機器人就沒法快速準確地學會了，需要重新訓練深度學習模型。正是由于這樣的問題，促使MAML的出現，通過在不同環(huán)境之間使用隨機梯度下降法（Stochastic Gradient Descent，SGD）更新神經網絡模型的參數，然后更好地適應新環(huán)境中的學習問題，實現快速的模型遷移，完成新的任務。（3）MAML模型適用于所有使用隨機梯度下降法學習的任務模型，適用范圍很廣，尤其是神經網絡模型，都可以使用隨機梯度下降法進行參數更新。（4）MAML的速度快、精度高，可以有效地將模型推廣到新任務，提高模型泛化能力，實現新任務上精度的提升。

MAML用于小樣本學習，通過一兩次人的示范或者示例視頻，機器人即可學會基礎的動作；或者觀察少量新類別的樣本，學會新類別的分類。類似MAML，還有許多適用于隨機梯度下降法的元學習方法，例如，Reptile和FOMAML，可以用來在不同任務之間快速推廣模型。MAML使用損失函數的二階導數，計算量較大，而Reptile和FOMAML只使用損失函數的一階導數，計算量比MAML小，可以更快速地實現模型更新，從而更快地針對新任務給出合適的學習器。MAML的影響非常深遠，此后在MAML的基礎上延伸出許多元學習算法，吸引了研究者的目光。不同元學習算法之間的對比并不僅限于小樣本圖片分類問題的精度提升，元學習算法的關注點是方法需要適用于不同應用場景，尤其是要通過提高深度學習模型泛化能力來獲得好的解決方案的場景。

1.3.4　2019年基于LSTM的元學習器

Sachin Ravi和Hugo Larochelle在論文“Optimization as a Model for Few-Shot Learning”中提出了基于LSTM的元學習方法Meta-LSTM[9]，適用于梯度下降法優(yōu)化的學習器。這里的LSTM作為元學習器，基礎學習器是用于分類的神經網絡分類器。與2001年的LSTM元學習系統(tǒng)[8]不同的是，這里將LSTM作為元學習器而不是整個元學習系統(tǒng)。在不同的訓練任務上，LSTM為基礎學習器提供參數初始值，好的初始值經過新任務上少量的梯度更新步驟即可獲得較好的精度。在新任務上，通過Meta-LSTM訓練得到的基礎學習器達到的精度與深度度量小樣本學習的SOTA算法達到的精度類似。

為了快速準確地實現為新任務給出合適學習器的目的，基礎學習器的更新過程很迅速，LSTM監(jiān)測基礎學習器的訓練，并且在多任務上提煉出這些任務之間的共性。對時間序列的預測問題，基礎學習器考慮的是對短期內收集的新數據做出反應，而元學習器LSTM考慮的是對長期的數據進行總結歸納，為基礎學習器提供好的初始值。其實筆者對元學習領域的研究開始于時間序列的預測問題，在時間序列預測的問題上，使用深度度量學習得到的結果也不盡如人意。筆者認為，度量學習缺少對任務之間相似性和長程相關性建模的元學習器，而在元學習算法中，例如，在Meta-LSTM中，任務之間的相似性和長程相關性在LSTM元學習器中得到了建模，神經網絡是黑箱模型，模型的表示力很強，可以對復雜的相似性進行學習?；A學習器的優(yōu)點是小巧、快速、高效且不會過擬合，不需要大量有標注輸入數據，就能夠很快給出預測結果。

通過這種基礎學習器和元學習器的組合，任務特性學習和任務之間共性學習這兩種功能得到了解耦。對基礎學習器調參的唯一目標是對任務特性有更好的表示，而對元學習器調參的唯一目標是對任務之間共性有更好的學習。原本耦合而且相互克制的目標在這樣的結構中得到了解耦，解耦后各自在各自的功能上達到最大化，然后再將結果進行溝通交流，從而實現元學習算法的目標。

1.3.5　2019年基于高效基礎學習器的元學習

Luca Bertinetto、Jo?o Henriques、Philip H.S.Torr和Andrea Vedald在論文“Meta-Learning with Differentiable Closed-Form Solvers”[10]中提出R2D2，正如論文題目所言，基礎學習器采用的是可求導且有顯式解析解的學習器，基礎學習器的復雜度較低，有利于快速針對任務給出合適的基礎學習器。而元學習器的復雜度較高，因為元學習器要對任務之間的相似性進行建模，復雜元學習器對于復雜相似性的表示力更強，所以元學習器的復雜度一般會高一些。如果有必要的話，可以采用元元學習器來為元學習器提供參數更新，從而為任務之間相似性建模給出更大程度的靈活性。

和Meta-LSTM類似，R2D2也是由基礎學習器和元學習器組合而成的元學習算法，基礎學習器負責學習任務的特性，而元學習器負責學習任務的共性，這種學習模型采用元學習器來對任務之間的相似性進行建模。度量學習依賴于度量的選取，而度量的選取與數據的概率分布、離散程度等都有關聯(lián)。度量用來度量相似性，通過選取合適的度量，可以獲得任務相似性較好的描述。通常可以通過CNN提取圖像的特征，然后用特征計算度量，這種方法可以根據訓練數據調整特征提取的CNN模型中的參數，讓CNN特征提取模型作為度量中的可變參數，通過訓練保證這種度量反映了任務之間的相似性。因此，度量學習的元學習效果也是通過用CNN特征提取模型來對任務之間復雜相似性進行建模得到的，對任務之間的相似性建模是元學習重要的一環(huán)。

基礎學習器和元學習器不一定都是通過可導的方式進行優(yōu)化求解的，但是可導有利于通過誤差梯度傳導來更新參數，實現快速有效的模型更新。R2D2考慮的基礎學習器是有解析解的嶺回歸（Ridge Regression）和通過迭代更新求解的邏輯回歸（Logistic Regression）。其實日常生活中我們遇到的大多數問題都可以用簡單的邏輯回歸來進行分類和預測。在我們遇到的所有問題中，復雜問題只是少數，所以從應用的角度上來看，在任務上考慮使用嶺回歸或者邏輯回歸作為基礎學習器是合理的。而且實際應用顯示，R2D2具有很好的適應性，在新任務上的適應性很好，可針對新任務提供快速有效的學習器，R2D2速度很快，適應性也很好，對于大多數任務的處理非常有利。

Kwonjoon Lee、Subhransu Maji、Avinash Ravichandran和Stefano Soatto在論文“Meta-Learning with Differentiable Convex Optimization”[11]中提出MetaOptNet，這也是一個基于基礎學習器和元學習器結構的元學習算法，其繼承了R2D2的思想，即適當降低基礎學習器的復雜度，提高算法的實用性，使用基礎學習器快速準確完成新任務，依靠復雜元學習器來對任務之間的相似性進行建模。MetaOptNet使用的基礎學習器是凸優(yōu)化可解的線性學習器，基于核函數的支持向量機模型SVM采用的就是這樣的基礎學習器。MetaOptNet建議根據訓練數據集對基礎學習器的復雜程度進行選擇，找到最優(yōu)的基礎學習器復雜度。從實現General AI的角度而言，針對任務給出合適的學習器可以考慮參數和超參數的同時更新，雖然在任務相似性已經在元學習器中建模的情況下，基礎學習器的超參數已經在元學習器中被考慮。

一般而言，對基礎學習器的超參數更新會在元學習器中考慮，因為度量中并未對任務之間的相似性設計元學習器，度量中超參數的更新會帶來額外的好處。度量學習會同時訓練圖片特征提取CNN模型中的參數和根據度量進行分類模型的參數，此時更多的模型自由度可以提高模型的表示力和適應能力。相比之下，MetaOptNet給出的基礎學習器參數、超參數、模型復雜程度的自由度，使得基礎學習器可以更好地適應任務的特性，還有元學習器的參數、超參數、模型復雜度的自由度，使得元學習器可以更好地學習任務之間的共性，并為基礎學習器給出更好的建議和監(jiān)督。

官术网_书友最值得收藏!

元學習：基礎與應用

1.3 近期發(fā)展

1.3.1 1997年的長短期記憶網絡LSTM

1.3.2 2001年的LSTM元學習系統(tǒng)

1.3.3 2017年的MAML算法

1.3.4 2019年基于LSTM的元學習器