官术网_书友最值得收藏!

1.4 常用數據挖掘工具

數據挖掘是一個反復探索的過程,只有將數據挖掘工具提供的技術和實施經驗與企業的業務邏輯和需求緊密結合,并在實施過程中不斷地磨合,才能取得好的效果。常用的幾種數據挖掘建模工具如下。

1.Python

Python是一種面向對象的解釋型計算機程序設計語言,它擁有高效的高級數據結構,并且能夠用簡單而又高效的方式進行面向對象編程。但是Python并不提供一個專門的數據挖掘環境,而是提供數據挖掘的眾多擴展庫,如NumPy、SciPy和Matplotlib。這3個十分經典的科學計算擴展庫分別為 Python 提供了快速數組處理、數值運算和繪圖功能。此外scikit-learn 庫中包含很多分類器的實現及聚類相關的算法。有了這些擴展庫,Python 成為了數據挖掘的常用語言。

2.IBM SPSS Modeler

IBM SPSS Modeler原名Clementine,其2009年被IBM收購,之后IBM對其功能和性能進行了大幅度改進和提升。它封裝了先進的統計學和數據挖掘技術,以獲得預測知識并將相應的決策方案部署到現有的業務系統和業務過程中,從而提高企業的效益。IBM SPSS Modeler擁有直觀的操作界面、自動化的數據準備和成熟的預測分析模型,結合商業技術可以快速建立預測模型。

3.KNIME

KNIME(Konstanz Information Miner)是基于Java開發的,可以擴展使用Weka中的挖掘算法。KNIME采用類似數據流(Data Flow)的方式來建立分析和挖掘流程。挖掘流程由一系列功能節點組成,每個節點有輸入/輸出端口,用于接收數據或模型、導出結果。

4.RapidMiner

RapidMiner也叫YALE(Yet Another Learning Environment),它提供圖形化界面,采用類似Windows資源管理器中的樹狀結構來組織分析組件,樹上每個節點表示不同的運算符(Operator)。RapidMiner中提供了大量的運算符,包括數據處理、變換、探索、建模、評估等環節。RapidMiner是用Java開發的,基于Weka來進行構建,可以調用Weka中的各種分析組件。RapidMiner有拓展的套件Radoop,可以與Hadoop集成,并在Hadoop集群上運行任務。

5.TipDM開源數據挖掘建模平臺

TipDM開源數據挖掘建模平臺是基于Python引擎、用于數據挖掘建模的開源平臺。該平臺采用B/S結構,用戶不需要下載客戶端,可通過瀏覽器對其進行訪問。平臺支持數據挖掘流程所需的主要過程:數據探索(相關性分析、主成分分析、周期性分析等);數據預處理(特征構造、記錄選擇、缺失值處理等);分析與建模(聚類模型、分類模型、回歸模型等);模型評價(R-Squared、混淆矩陣、ROC曲線等)。用戶可在沒有Python編程基礎的情況下,通過拖曳的方式進行操作,將數據輸入/輸出、數據預處理、分析與建模、模型評價等環節通過流程化的方式進行連接,以達到數據分析挖掘的目的。

主站蜘蛛池模板: 临湘市| 平湖市| 固原市| 吉安县| 东安县| 谷城县| 湘阴县| 湖南省| 通山县| 温宿县| 房山区| 卓尼县| 沙田区| 新疆| 宣化县| 佳木斯市| 班玛县| 维西| 无棣县| 苍南县| 天祝| 青阳县| 和田市| 芦溪县| 阿拉善左旗| 通化市| 柘荣县| 大兴区| 进贤县| 大方县| 日照市| 博客| 元朗区| 崇仁县| 苏尼特右旗| 敦煌市| 滕州市| 乃东县| 海宁市| 武汉市| 瑞金市|