官术网_书友最值得收藏!

1.4 EDA

本書后續章節的函數式編程示例大多來自EDA領域,該領域包含很多處理復雜數據集的算法和技術,函數式編程往往能很好地連接起問題領域和解決方案。

雖然每個人有自己的行事風格,但處理EDA領域的問題通常可以劃分成下面幾個階段。

? 準備數據:主要是抽取和變換源應用中的數據。例如解析原始數據格式,對數據執行某種程度的清洗(比如移除不可用數據和異常數據等),這是函數式編程擅長的領域。

? 數據探測:對數據進行初始畫像,通常使用一些基本的統計函數來完成,這也是函數式編程擅長的領域。用專業術語講,該階段我們關注數據的單變量和雙變量統計特征,實際上就是數據的描述性統計特征值,包括平均值、中位數、眾數等。數據探測還可能涉及數據可視化,但本書不探討這個主題,因為它不怎么采用函數式編程。如果你感興趣,可以嘗試一些工具包,例如SciPy。訪問如下網址,可獲取有關SciPy工作原理和使用方法的更多信息。

https://www.packtpub.com/big-data-and-business-intelligence/learning-scipy-numerical-and-scientific-computing

https://www.packtpub.com/big-data-and-business-intelligence/learning-python-data-visualization

? 數據建模與機器學習:主要解決如何從已有模型中提取新數據,但本書不涉及,因為從數學角度看有些模型十分復雜,討論這些問題無助于理解函數式編程。

? 評估與比較:當存在多個可用模型時,就需要針對當前數據評估哪個模型更適合。此過程主要涉及計算模型常用的一些描述型統計特征值,函數式設計技術能有所幫助。

EDA的目標是創建模型為應用決策提供依據。很多情況下,一個模型可能就是一個簡單的函數。使用函數式編程方式,便于將已有模型應用于新數據,生成業務人員可以理解的結果。

主站蜘蛛池模板: 镇安县| 黎川县| 长岭县| 通辽市| 徐闻县| 岗巴县| 凌源市| 盘山县| 蚌埠市| 临城县| 大宁县| 来宾市| 洛扎县| 博白县| 蓬莱市| 彝良县| 张家界市| 波密县| 故城县| 靖州| 大庆市| 红原县| 遂溪县| 朝阳区| 怀宁县| 龙川县| 分宜县| 廉江市| 中方县| 柳州市| 城固县| 巴林左旗| 垣曲县| 石河子市| 宁乡县| 北辰区| 龙里县| 鹤山市| 河东区| 尚义县| 西峡县|