pg电子游戏试玩模拟器

書名：機器學習及其應用
作者名：汪榮貴等編著
本章字數： 5819字
更新時間： 2022-01-14 17:06:33

2.2 模型優化基本方法

在優化目標較為復雜時，通常很難直接通過參數估計方法求得最優估計值。事實上，機器學習的模型訓練除了使用前述參數估計法之外，還可通過數值優化計算方法確定模型參數。這類數值優化方法通常采用迭代逼近的方式確定最優解。在逼近最優解的過程中，模型性能會逐漸提升，故稱此類方法為模型優化方法。由于模型優化方法采用迭代方式逼近最優解的策略，故在很多情況下能夠有效應對優化目標較為復雜的情況。機器學習的模型優化方法有很多，本節主要介紹兩種基本方法，即梯度下降方法和牛頓迭代法。

2.2.1 梯度下降法

梯度下降方法是機器學習最常用的模型優化方法之一，其基本思想是朝著函數梯度的反方向不斷迭代更新參數。由于梯度方向為函數值上升最快的方向，故梯度反方向就是函數值下降最快的方向。一直朝著梯度反方向更新參數可以使函數值得到最快的下降，從而能夠盡可能快速地逼近函數極小值點直至收斂。梯度下降方法的數學表達如下

其中，step_k為第k次迭代的步長；P_k為第k次尋優方向，即為梯度反方向。

式（2-11）的含義是在第k次迭代起始點X_k確定的情況下，向目標函數梯度反方向走一段距離并將此次所到新位置X_k+step_kP_k作為下次迭代的起點賦值給X_k₊₁。通過對step_k適當取值就可由此得到目標函數的最優解。圖2-1表示初始迭代點為X₁的梯度下降迭代過程。

梯度下降方法的關鍵在于如何確定每次迭代的搜索方向和迭代步長。以圖2-1所示的迭代過程為例，從起始點X₁開始通過梯度下降法進行迭代優化，則有

X₂=X₁+step₁P₁

其中，。

令F（X）為優化的目標函數，則步長step₁可通過下列優化方式確定

圖2-1 梯度下降方法的迭代過程

現給出步長step_k的具體計算公式，根據二次泰勒展開式可將目標函數F（X）近似表示為正定二次函數

其中，A為正定的系數矩陣；X為參數向量；b為常數向量；c為常數。

在X_k處對F（X）求梯度可得。從X_k點出發沿著梯度的反方向進行搜索，則有

在選擇最優步長時，每步搜索方向均與上步搜索方向正交，即有。將展開，則有[A（X_k-step_kP_k）+b^T]P_k=0，由此解出step_k并將其代入迭代公式（2-14），則可將梯度下降迭代公式進一步改寫為

在機器學習的具體應用中，梯度下降方法的步長有時會根據需要人為設定，這需要一定的經驗。如果步長設定過大，則會導致算法不收斂；如果步長設定過小，則會使算法收斂得較慢，提高計算的時間成本。

例如，對于函數問題min，顯然有

假設起始點為X₁=（1，1）^T，則有F（X₁）=5，。由迭代公式可得

若迭代次數允許，則可一直迭代下去，直到滿足終止條件，得到近似最優解。

【例題2.5】試根據表2-4中的數據建立線性回歸模型，并使用該模型預測出面積為137m²的房屋價格，要求其中對目標函數的優化采用梯度下降法。

表2-4 房屋價格與房屋面積數據

【解】表2-4中數據較大，不方便計算，因此這里先對其進行歸一化處理再求解線性回歸模型，具體方式為

X=（S_i-S_min）/（S_max-S_min）；y=（P_i-P_min）/（P_max-P_min）

其中，S_min和S_max分別表示最小和最大的房屋面積取值；S_i表示序號為i的房屋的面積取值；P_min和P_max分別表示最小和最大的房屋價格取值；P_i表示序號為i的房屋價格取值。

經過歸一化后的數據如表2-5所示。

表2-5 歸一化后的數據

假設模型的具體形式為y=w₁X+w₀。使用該模型構造目標函數，并采用誤差平方和作為優化目標。為方便計算，將目標函數定義為1/2倍的誤差平方和，即

其中，yⁱ為序號為i的數據的真實值；為對應的預測值；w=（w₀，w₁）^T為參數向量

使用梯度下降方法對上述目標函數進行優化，通過如下迭代公式更新參數向量

其中，η為步長，此處步長選定為η=0.01；w_old表示當前更新的起點；w_new表示更新后的權重向量。目標函數E（w）的梯度為

由此可將梯度下降算法的迭代計算公式轉化為

設置w⁰=（1，1）^T，對上式進行1000次迭代，通過Python編程計算可得如表2-6所示的計算結果（表中僅給出部分迭代結果）。

表2-6 梯度下降方法迭代取值表

由表2-6中數據可知，經過1000次迭代后算法趨于收斂。因此可根據梯度下降方法求得線性回歸模型為y=0.704037X+0.142370。對面積為137m²的房屋價格進行預測時，應先對該面積數據進行歸一化計算，得到歸一化后數據為X=0.2。將其代入回歸模型計算對應的預測輸出為y=0.2831774，即得房屋價格預測值為257.33萬元。□

梯度下降法在靠近極小值時收斂速度通常會減慢，使得計算效率下降。人們為此提出了很多改進策略，共軛梯度下降法就是其中之一。共軛梯度下降法最初為求解非線性方程組而提出，后被推廣到求解無約束優化問題，并逐漸成為最具代表性的最優化方法之一。該算法思想與梯度下降方法的相同之處在于都有著沿目標函數負梯度方向搜索的步驟；不同點在于梯度下降方法的搜索方向一直是負梯度方向，共軛梯度下降法的搜索方向從第二次確定搜索方向時，不再采用負梯度方向，而是經修正后的方向。因此，如何修正下次迭代的搜索方向是共軛梯度下降法的關鍵技術。下面具體介紹共軛梯度下降法。首先，給出共軛的概念。

設A為Rⁿ^×ⁿ上的對稱正定矩陣，Q₁，Q₂為Rⁿ上的兩個非零向量，若有，則稱Q₁與Q₂關于矩陣A共軛，向量Q₁與Q₂的方向為一組共軛方向。

共軛梯度下降法的基本思路如圖2-2所示。首先，任意選取初始點X₁，計算目標函數在該點的梯度值，并將負梯度方向作為初次搜索方向，即；然后，按圖中箭頭方向搜索下一點，即按公式X_k₊₁=X_k+α_kP_k計算下一點X₂，其中α_k表示第k次迭代步長，為的優化值。

圖2-2 共軛梯度下降法

搜索到X₂后，計算該點對應的梯度值，并按下式調整搜索方向

其中，step_k為調整搜索方向時的步長。將式（2-16）兩側同時乘以AP_k可得

將步長step_k調整為step_k₊₁，使得P_k₊₁和P_k關于A共軛，即有，可得

重復以上步驟，即可得到逼近最優解的序列{X₁，X₂，…，X_n，…}。

例如，對于優化問題，取X₁=（2，2）^T為迭代初始值，由此可得初次的搜索方向，并按下式計算X₂

首先，通過優化問題arg min[2（2-8α₁）²+（2-4α₁）²]求出α₁=5/18，然后由此算出X₂=（-2/9，8/9）^T和。再由式（2-18）算出α₂=9/20，由此算出函數極值點X₃=（0，0）^T。

【例題2.6】UCI_IRIS數據集是一個常用訓練數據集，共有121條數據，表2-7為其中的部分數據。試用UCI_IRIS數據集和共軛梯度下降法訓練一個多層神經網絡模型。

【解】由表2-7可知，UCI_IRIS數據集中每個示例包含4個特征，所有示例分屬3個類別。故感知機模型輸入層應包含4個特征輸入結點及1個偏置輸入結點，輸出層應包含3個輸出結點。由此可構造如圖2-3所示具有10個隱含結點的神經網絡模型。

表2-7 UCI_IRIS數據訓練集中部分數據

圖2-3 包含10個隱含結點的多層神經網絡

令為第ι層第i個神經元與第ι+1層第k個神經元之間的連接權重，為第ι層第i個結點的偏置項，第ι層激活函數表示為φ^ι，則對于樣本輸入X=（x₁，x₂，x₃，x₄）^T，該模型的第j個隱含層結點的輸出h_j為

將上式表示為矩陣形式，則有

同理可得該模型的輸出f（X）為

其中，φ²為Sigmoid激活函數；φ³為softmax激活函數，該激活函數可將模型輸出映射為偽概率形式。

通過對目標函數的優化計算方式估計模型參數。可將目標函數定義為模型輸出在訓練集上的平均誤差，通過該誤差（目標函數）的最小化實現對模型的訓練構造。具體地說，使用如下的式（2-19）作為目標函數，該目標函數依據模型對樣本輸出類別的概率來對錯分樣本施加一定懲罰，并將對所有錯分樣本所施加懲罰的均值作為模型輸出在訓練集上的平均誤差。

其中，f_j（X_i）表示模型第j個輸出結點對樣本X_i的輸出；為樣本X_i所對應的標簽向量y_i中第j個元素的取值。

代入數據并用共軛梯度算法優化上述目標函數，通過TersonFlow框架編程計算可得權重更新結果，表2-8為輸入層到隱藏層的部分連接權重的部分計算數據，表2-9為隱藏層到輸出層的部分連接權重的部分計算數據，取值保留小數點后兩位。

表2-8 輸入層到隱藏層的部分連接權重取值

表2-9 隱藏層到輸出層的部分連接權重取值

取滿足精度要求的第100000迭代得到的連接權重w^*1，w^*2和偏置b^*1，b^*2作為最終模型參數，由此得到所求的分類映射規則

使用所求模型對如表2-10所示的測試數據進行預測，得到表中最后一列的預測計算結果。與該表中實際種類值進行比較，可知預測結果均為正確。□

表2-10 測試數據與計算結果比較

共軛梯度下降法可以看成是梯度下降法的一種改進策略，僅需一階導數信息，并克服了梯度法迭代后期收斂速度較慢的不足，是一種比較有效的優化算法。

2.2.2 牛頓迭代法

牛頓迭代法（以下簡稱牛頓法）是一種快速迭代搜索算法，主要用于求函數零點，即求方程的根。該算法要求目標函數具有二階連續偏導數，這是因為下一個近似值需要通過在現有近似值附近進行一階泰勒展開來確定。由微積分理論可知，任意n階可導的函數都可在任意點X_k處展開為冪函數形式，故可將具有連續二階導數的函數f（X）在點X_k處展開為

如果忽略上述二階展開式的余項，則可將方程f（X）=0近似表示為

若f′（X_k）≠0，則可由上式得到方程f（X）=0的一個近似根，即X=X_k-f（X_k）/f′（X_k），將其作為新的近似根，記為X_k₊₁，則可得到如下迭代式

如果迭代初值X₀選擇適當，則可通過上述迭代公式獲得以方程f（X）=0的根為極限的收斂序列{X_k}。當k值足夠大時，就可獲得滿足精度要求的方程近似根X_k。

我們知道，對于函數優化問題，目標函數的極值點為函數駐點，即為目標函數導函數的根，故可使用上述牛頓迭代法求解目標函數導函數的根，由此獲得目標函數的極值點。為此令函數f（X）為函數F（X）的導函數，則當f（X）=0時，F（X）在點X處取得極值。

假設目標函數F（X）具有連續的三階導數且F″（X_k）≠0，則同理可得到如下迭代式

適當選擇初值X₀就可使上述迭代收斂到方程F′（x）=0的根，即目標函數F（x）的極值點，故可用這種推廣的牛頓法進行模型優化。然而，機器學習的代價函數或目標函數通常比較復雜，一般會包含多個模型參數，此時通過牛頓法進行模型參數更新就相當于求解多元目標函數的極小值點。故將上述一元函數的牛頓法進一步推廣到多元函數的向量情形。

設F（X）為三次可微的n元函數，則由多元函數泰勒展開式將其在X_k展開，得

其中，X=（x₁，x₂，…，x_n）^T；處的一階導數，即

時的二階導數，是一個Hesse矩陣，具體形式為

假定式(2-23)右邊為n元正定二次凸函數且存在唯一的最優解，對上式求一階微分，則可將近似地表示為

由上式可得的一個近似解，記為X_k₊₁，則得到如下迭代式

可將上式表示為迭代搜索通式X_k₊₁=X_k+step_kP_k，其中搜索步長step_k恒為1，搜索方向為。由于方向P_k為從X_k到二次函數極小點的方向，故亦稱為從X_k發出的牛頓方向。由此可知，牛頓迭代法其實就是從迭代初始點開始，沿著牛頓方向且步長恒為1的迭代搜索算法。根據以上討論，可得牛頓迭代法的具體計算步驟歸納如下：

（1）設定初始點X₀和終止準則，并置X_k=0；

（2）求解點X_k對應的目標函數值、梯度和Hesse矩陣；

（3）根據確定搜索方向P_k；

（4）依迭代公式（2-26）確定下一個點X_k₊₁；

（5）判斷是否滿足終止條件，若滿足，則輸出解X_k₊₁；否則k=k+1，轉到步驟2。

【例題2.7】試根據表2-11中的數據建立一個預測廣告投入和凈利潤之間關系的機器學習模型，并使用該模型預測廣告投入為2.1萬元時所對應的凈利潤，要求模型優化過程采用牛頓迭代法。

表2-11 廣告投入和銷售額數據表（單位：萬元）

【解】畫出表2-11中數據散點圖如圖2-4所示。由圖2-4可知，可用二次函數擬合表中數據，故設機器學習模型為y=w₀+w₁X+w₂X²。使用該模型構造目標函數并用誤差平方和作為優化目標。為便于計算，將目標函數定義為誤差平方和的1/2，即

其中，yⁱ為第i個數據的真實值；為對應的預測值。

代入數據求得目標函數具體表達式為

設置初始點W₀=（w₀，w₁，w₂）^T=（1，1，1）^T，求出分別為

因為目標函數為二次函數，故Hesse矩陣為常數。根據牛頓迭代法公式

求得W₁=（-0.5559，5.313，-0.1448）^T，得到所求機器學習模型為

y=-0.5559X²+5.313X-0.1448

該模型的函數圖像如圖2-5所示。將X=2.1代入模型可得y=8.560981，即廣告投入為2.1萬元時預測可獲得的凈利潤為8.560981萬元。□

圖2-4 廣告投入和凈利潤數據散點圖

圖2-5 最終模型的函數圖像

牛頓法的收斂速度很快，這是其他算法難以媲美的。究其原因是由于該算法每次迭代都會構造一個恰當的二次函數逼近目標函數，并使用從迭代點指向該二次函數極小點的方向來構造搜索方向。牛頓法的不足之處主要在于搜索方向構造困難，不僅需要計算梯度，還要計算Hesse矩陣及逆矩陣。為此介紹一種名為擬牛頓法的改進牛頓法。

擬牛頓法不僅收斂速度快，而且不用計算Hesse矩陣。首先，給出擬牛頓法的基本原理和實現步驟，然后介紹擬牛頓法中一種有效的具體實現算法，即DFP算法。

，，則可將牛頓法迭代式轉化為如下形式