- Python函數式編程(第2版)
- (美)史蒂文·洛特
- 606字
- 2020-04-22 12:28:28
1.4 EDA
本書后續章節的函數式編程示例大多來自EDA領域,該領域包含很多處理復雜數據集的算法和技術,函數式編程往往能很好地連接起問題領域和解決方案。
雖然每個人有自己的行事風格,但處理EDA領域的問題通常可以劃分成下面幾個階段。
? 準備數據:主要是抽取和變換源應用中的數據。例如解析原始數據格式,對數據執行某種程度的清洗(比如移除不可用數據和異常數據等),這是函數式編程擅長的領域。
? 數據探測:對數據進行初始畫像,通常使用一些基本的統計函數來完成,這也是函數式編程擅長的領域。用專業術語講,該階段我們關注數據的單變量和雙變量統計特征,實際上就是數據的描述性統計特征值,包括平均值、中位數、眾數等。數據探測還可能涉及數據可視化,但本書不探討這個主題,因為它不怎么采用函數式編程。如果你感興趣,可以嘗試一些工具包,例如SciPy。訪問如下網址,可獲取有關SciPy工作原理和使用方法的更多信息。
■ https://www.packtpub.com/big-data-and-business-intelligence/learning-python-data-visualization
? 數據建模與機器學習:主要解決如何從已有模型中提取新數據,但本書不涉及,因為從數學角度看有些模型十分復雜,討論這些問題無助于理解函數式編程。
? 評估與比較:當存在多個可用模型時,就需要針對當前數據評估哪個模型更適合。此過程主要涉及計算模型常用的一些描述型統計特征值,函數式設計技術能有所幫助。
EDA的目標是創建模型為應用決策提供依據。很多情況下,一個模型可能就是一個簡單的函數。使用函數式編程方式,便于將已有模型應用于新數據,生成業務人員可以理解的結果。
推薦閱讀
- Nexus規模化Scrum框架
- ASP.NET 3.5程序設計與項目實踐
- Scala Data Analysis Cookbook
- Extending Unity with Editor Scripting
- 區塊鏈架構之美:從比特幣、以太坊、超級賬本看區塊鏈架構設計
- Mastering Gephi Network Visualization
- Android應用開發實戰(第2版)
- R語言數據挖掘:實用項目解析
- 征服C指針(第2版)
- Python高性能編程(第2版)
- Docker on Windows
- 微信公眾平臺開發最佳實踐
- Building Microservices with .NET Core 2.0(Second Edition)
- PhoneGap 3.x Mobile Application Development Hotshot
- LabVIEW案例實戰