捕鱼机锁怎么开

書名：合成生物學智能化設計與應用
作者名：滕越主編
本章字數： 1123字
更新時間： 2024-12-16 16:48:36

2.2.1　集成學習

集成學習旨在通過多個模型的組合來獲得更高的預測精度，同時減少過擬合。這種算法最早出現在20世紀70年代，后被廣泛應用于各個領域，如圖像識別、自然語言處理和金融預測。

常見的集成學習包括bagging、boosting、stacking和blending，這4種集成學習算法的原理如下。

（1）bagging。其全名為bootstrap aggregating，是一種通過組合多個模型的方法來降低預測誤差的技術。在這種算法中，我們從原始數據集中隨機選擇樣本（有放回地選擇，即一個樣本可以被選擇多次，這就是“進行替換”的意思），然后對每個新生成的數據集訓練一個獨立的模型。最后，所有模型的預測結果被平均（對于回歸問題）或者投票（對于分類問題）得到最終的預測。這種方法能夠有效地減小模型的方差，提高模型的穩定性和準確性。

（2）boosting。這是一種依次訓練多個模型的算法，每個后續模型都會試圖修正其前一個模型的錯誤。采用這種策略可以將一類弱學習器（指其預測能力不強，比如簡單的決策樹）提升為強學習器。每個模型在訓練時，都會更加關注前一個模型錯誤分類的樣本，通過調整樣本權重來實現其算法。所有模型的預測結果將根據其在訓練過程中的表現進行加權融合，形成最終的預測。

（3）stacking。這是一種通過訓練一個元模型（meta-model）來融合多個基模型預測結果的方法。在這種算法中，首先獨立地訓練多個不同的基模型，然后將這些模型的預測結果作為新的特征去訓練一個元模型。元模型的目標是最好地組合各個基模型的預測結果。這種方法的優點在于，當基模型多樣化時，它可以更好地捕捉數據的多種特性，并提高預測的準確性。

（4）blending。與stacking類似，兩者的主要區別在于訓練元模型時使用的數據。在blending中，元模型是在一個單獨的數據集上訓練的，而不是使用基模型的預測結果作為特征。這種方法更簡單，但可能會因為信息泄露而導致過擬合。

生物學中使用集成學習的一個例子是預測蛋白質-蛋白質相互作用（protein-protein interaction，PPI）。PPI對發生在細胞內的一系列化學反應或物理事件都很重要，了解這一作用有助于開發新的疾病治療方法。然而，對PPI的實驗測定既費時又費錢，鑒于這種情況，研究人員開始采用機器學習方法從蛋白質序列和結構中預測PPI，并采用集成學習來提高PPI預測的準確性。具體來說，就是采用多個機器學習模型（如支持向量機、隨機森林和梯度提升機），在不同的數據子集或不同的特征集上訓練，然后用不同的方法（如多數投票或加權平均）將這些模型的輸出結合起來，以做出最終預測。

圖2-1描繪了人工智能、機器學習、深度學習、集成學習和生物信息學之間的關系。深色框表示本節的焦點，即生物信息學中的集成深度學習。圖2-2展示了經典的集成學習框架，包括bagging、boosting及其變體，以及基于數據擾動的集成聚類。其中，X代表輸入數據。

圖2-1　人工智能、機器學習、深度學習、集成學習和生物信息學的關系

圖2-2　經典的集成學習框架

官术网_书友最值得收藏!

合成生物學智能化設計與應用

2.2.1 集成學習

2.2.1　集成學習