- Python機器學習技術:模型關系管理
- 丁亞軍
- 1589字
- 2023-04-25 10:15:52
前言
所有模型都是錯的,但我們可以重新使其變成有用的。
每個模型都有其嚴格的適用條件,這些條件有時過于嚴格,甚至不能跨界使用,就像統計學之于小數據,深度學習之于非結構化數據,很難集成到一起。因此,在進入數據分析的殿堂之前,首先需要區(qū)分不同領域的數據分析技術。
本書的知識點難度對于初次了解數據分析的讀者而言,并不算友好。本書可以看作《統計分析:從小數據到大數據》的高級版本或者續(xù)作,很多模型的背景依托于此書。為了彌補這點缺陷,本書首先在第1章介紹了機器學習的基礎概念,提供了數據挖掘的基礎知識,然后重點介紹集成學習,集成學習需要借助模型關系管理,而模型關系管理旨在更好地利用不同模型的優(yōu)、缺點,完成項目需求與集成模型功能的契合。
本書的核心框架如下。
◆ 特征工程技術。
◆ 機器學習技術。
◆ 弱集成學習:決策樹。
◆ 強集成學習:特征工程+機器學習。
◆ 混合專家(或深度學習):神經網絡+網絡結構。
特征工程用于數據管理和數據清理,在數據挖掘中,尤其是當數據治理不成熟時起到不可或缺的作用。此外,就機器學習而言,如果我們深入項目解決實踐問題,那么會發(fā)現實際問題往往需要分解為子問題相加和子問題相乘的兩種模式,前者是弱集成學習的領域,后者是強集成學習的領域,而這些算法都依托于機器學習本身。最后是深度學習,它需要借助“神經網絡集成+網絡結構設計”的思路才能完成,主要用于非結構化數據。
運行環(huán)境
本書使用的編程語言和庫如下。
◆ Python3:語言。
◆ NumPy:高級編碼庫。
◆ Pandas:數據框。
◆ Matplotlib:基礎繪圖。
◆ Seaborn:統計繪圖。
◆ Plotly:商業(yè)繪圖。
◆ Missingno:缺失值可視化。
◆ Missingpy:缺失值填補。
◆ Opencv-python:圖像處理。
◆ Mglearn:機器學習算法可視化。
◆ Mlxtend:機器學習拓展包。
◆ Dtreeviz:決策樹可視化。
◆ Bnlearn:網絡貝葉斯。
◆ Scikit-plot:機器學習評估可視化。
上述庫看起來很多,但這些庫大多都比較小巧,安裝極為便捷,只需要花些時間運行代碼“pip install庫1庫2……”。當然也可能會遇到不同版本庫間的兼容性問題,這一點在行文中會有提示說明,也會提供常見的解決方案。
本書特點
本書以算法“消費者”為主線,以數據分析實踐為中心話題展開對集成模型的討論,并使用Python環(huán)境依賴包和簡潔代碼,進行數據分析工程實踐。
◆ 以小數據為啟程,重點闡述大數據技術的原理與流程。
◆ 應用常用依賴包,編寫簡潔代碼,實現數據分析。
◆ 以集成學習為核心知識點,展開對相關知識的討論。
◆ 借助描述性案例講解模型配置,借助項目案例講解數據挖掘流程。
◆ 以描述性挖掘、歸因性探索、預測性應用并舉的方式分析案例。
◆ 行為中涉及的數學公式大多輔以圖形幫助理解,對數理知識的要求并不高。
適合讀者
◆ 數據挖掘相關專業(yè)的高校師生,如統計學、數學、計算機、社會統計類專業(yè)等。
◆ 希望用數據挖掘技術賦能的業(yè)務人員,如運營人員、銷售人員、產品經理、人力專員等。
◆ 從事數據庫和數據挖掘的相關人員,如數據分析師、數據工程師、數據營銷師、風控建模師等。
◆ 數據分析管理人員,如數據分析主管、總監(jiān)、顧問,運營策略總監(jiān)等。
◆ 對數據分析感興趣的讀者。
致謝
本書寫作之時,除了宅在家里,我也經常到一個小河邊創(chuàng)作,大量的寫作都在河邊完成。
很多釣友經常隔河喊話:“還釣到了呀”,我總是附上一句:“還行嘞”。其實姜公是直鉤,我連一個魚鉤都沒有,拿著魚竿做樣子,不過我也養(yǎng)肥了很多魚,這附近的魚都比較喜歡我,所以本書選擇一種魚作為封面插圖,叫螭吻,是龍的第九個兒子。另外,在本書撰寫期間,我家二娃也出生了,增添了許多天倫之樂,所以感謝“釣友”的陪伴,感謝妻子的辛勤勞苦。
自本書起稿之日,趙堅毅老師就給予了很多關心和支持,并且為本書作序,在此表示由衷的感謝。
本身修稿經歷了半年之多,多謝張慧敏編輯及其同事的耐心指導,我也學習了很多編校知識,在此一并感謝。
此外,由于本書涵蓋了概率論、數理統計、計算機工程、大數據技術、數據挖掘等多個學科的知識,所以行文中難免存在不足之處,敬請廣大讀者批評指正。
作者
- Learning Neo4j
- MySQL 8從入門到精通(視頻教學版)
- 造個小程序:與微信一起干件正經事兒
- 數據結構(Python語言描述)(第2版)
- Mastering Unity Shaders and Effects
- CouchDB and PHP Web Development Beginner’s Guide
- Reactive Android Programming
- Apache Kafka Quick Start Guide
- HTML5開發(fā)精要與實例詳解
- Java Web從入門到精通(第3版)
- Programming Microsoft Dynamics? NAV 2015
- Oracle 12c從入門到精通(視頻教學超值版)
- 讀故事學編程:Python王國歷險記
- MySQL數據庫應用技術及實戰(zhàn)
- Practical Linux Security Cookbook