官术网_书友最值得收藏!

1.2 數據挖掘的過程方法

數據挖掘是一個復雜過程,需要一個明確方法有序有效地組織這個過程。早期有SPSS提出的5A(Assess,Access,Analysis,Act,Automae)模型,SAS提出的SEMMA(Sample,Explore,Modify,Model,Assess)模型,1998年NCR(Teradata從NCR脫離出來)、Clementine(1998年被SPSS收購)、OHRA和Daimler-Benz聯合項目組提出了CRISP-DM(Cross-Industry Standard Process for Data Mining),分為業務理解(Business Understanding)、數據理解(Data Understanding)、數據準備(Data Preparation)、模型建立(Modeling)、模型評估(Evaluation)、模型部署(Deployment)6個階段,它已經成為目前的事實標準[4] 。2016年微軟提出的TDSP(Team Data Science Process)將數據挖掘分為業務理解、數據獲取與理解、建模、部署、用戶接受5個階段。這些方法框架與CRISP-DM基本思想一致,下面重點介紹CRISP-DM方法。

主站蜘蛛池模板: 瓮安县| 百色市| 枝江市| 池州市| 新泰市| 汉阴县| 娄烦县| 永和县| 神池县| 苏尼特左旗| 互助| 石嘴山市| 大关县| 云安县| 盐亭县| 望城县| 龙游县| 张家口市| 青河县| 安化县| 巴彦县| 边坝县| 茂名市| 泰兴市| 昂仁县| 呼玛县| 靖宇县| 苏州市| 高安市| 双柏县| 全南县| 永宁县| 阿拉善左旗| 保靖县| 桑日县| 金沙县| 泊头市| 邵东县| 班戈县| 饶阳县| 喀什市|