書名: 合成生物學智能化設計與應用作者名: 滕越主編本章字數: 1123字更新時間: 2024-12-16 16:48:36
2.2.1 集成學習
集成學習旨在通過多個模型的組合來獲得更高的預測精度,同時減少過擬合。這種算法最早出現在20世紀70年代,后被廣泛應用于各個領域,如圖像識別、自然語言處理和金融預測。
常見的集成學習包括bagging、boosting、stacking和blending,這4種集成學習算法的原理如下。
(1)bagging。其全名為bootstrap aggregating,是一種通過組合多個模型的方法來降低預測誤差的技術。在這種算法中,我們從原始數據集中隨機選擇樣本(有放回地選擇,即一個樣本可以被選擇多次,這就是“進行替換”的意思),然后對每個新生成的數據集訓練一個獨立的模型。最后,所有模型的預測結果被平均(對于回歸問題)或者投票(對于分類問題)得到最終的預測。這種方法能夠有效地減小模型的方差,提高模型的穩定性和準確性。
(2)boosting。這是一種依次訓練多個模型的算法,每個后續模型都會試圖修正其前一個模型的錯誤。采用這種策略可以將一類弱學習器(指其預測能力不強,比如簡單的決策樹)提升為強學習器。每個模型在訓練時,都會更加關注前一個模型錯誤分類的樣本,通過調整樣本權重來實現其算法。所有模型的預測結果將根據其在訓練過程中的表現進行加權融合,形成最終的預測。
(3)stacking。這是一種通過訓練一個元模型(meta-model)來融合多個基模型預測結果的方法。在這種算法中,首先獨立地訓練多個不同的基模型,然后將這些模型的預測結果作為新的特征去訓練一個元模型。元模型的目標是最好地組合各個基模型的預測結果。這種方法的優點在于,當基模型多樣化時,它可以更好地捕捉數據的多種特性,并提高預測的準確性。
(4)blending。與stacking類似,兩者的主要區別在于訓練元模型時使用的數據。在blending中,元模型是在一個單獨的數據集上訓練的,而不是使用基模型的預測結果作為特征。這種方法更簡單,但可能會因為信息泄露而導致過擬合。
生物學中使用集成學習的一個例子是預測蛋白質-蛋白質相互作用(protein-protein interaction,PPI)。PPI對發生在細胞內的一系列化學反應或物理事件都很重要,了解這一作用有助于開發新的疾病治療方法。然而,對PPI的實驗測定既費時又費錢,鑒于這種情況,研究人員開始采用機器學習方法從蛋白質序列和結構中預測PPI,并采用集成學習來提高PPI預測的準確性。具體來說,就是采用多個機器學習模型(如支持向量機、隨機森林和梯度提升機),在不同的數據子集或不同的特征集上訓練,然后用不同的方法(如多數投票或加權平均)將這些模型的輸出結合起來,以做出最終預測。
圖2-1描繪了人工智能、機器學習、深度學習、集成學習和生物信息學之間的關系。深色框表示本節的焦點,即生物信息學中的集成深度學習。圖2-2展示了經典的集成學習框架,包括bagging、boosting及其變體,以及基于數據擾動的集成聚類。其中,X代表輸入數據。

圖2-1 人工智能、機器學習、深度學習、集成學習和生物信息學的關系

圖2-2 經典的集成學習框架
- 機器人制作從入門到精通(第3版)
- 城堡里學無人機:原理、系統與實現
- AI源碼解讀:數字圖像處理案例(Python版)
- 機器學習的算法分析和實踐
- 人工智能產品經理:AI時代PM修煉手冊(修訂版)
- 為機器立心(通用人工智能的中國藍圖系列)
- 2019年華北五省(市、自治區)大學生機器人大賽:人工智能與機器人創意設計賽論文集
- 風向:如何應對互聯網變革下的知識焦慮、不確定與個人成長
- COMSOL Multiphysics工程實踐與理論仿真
- 人工智能:現代方法(第4版)
- 空間計算:人工智能驅動的新商業革命
- 從大數據到智能制造
- 從零開始:機器學習的數學原理和算法實踐
- PyTorch神經網絡實戰:移動端圖像處理
- DeepSeek實戰精粹