書名: R數據挖掘實戰作者名: (意)安德烈亞·奇里洛本章字數: 1140字更新時間: 2024-05-24 17:51:18
前言
你可能聽說過,R語言在數據分析師和數據科學家中非常受歡迎,它以能夠交付非常靈活和專業的數據結果,以及驚艷的數據可視化能力而聞名。既然R語言有如此強大的功能,我們要如何學習使用R語言來做數據挖掘呢?本書將從最基礎的知識開始,帶領你開啟學習之旅,除了好奇心之外你什么都不用準備,我們會在旅途中發現需要的所有知識。
在本書中我們會同時使用基礎和高級的數據挖掘技術來解決一個影響商業公司的真實欺詐犯罪案件,通過解決這個案件來提升你的數據挖掘技能。
在我們R語言旅程的最后,你將能夠識別需要進行數據挖掘的問題,分析這些問題,然后使用主流的數據挖掘技術來解決它們,并發布完善的總結報告來傳達和表述從數據中發現的信息和內幕。
本書主要內容
第1章:為何選擇R語言,講述了R語言的歷史、優勢和缺點,以及如何在計算機上安裝R語言并運行簡單的程序。
第2章:數據挖掘入門—銀行賬戶數據分析,在數據分析中應用R語言。
第3章:數據挖掘進階—CRISP-DM方法論,教會你如何使用CRISP-DM方法組織和運行數據挖掘項目。
第4章:保持室內整潔—數據挖掘架構,定義了數據挖掘項目的基礎結構。
第5章:如何解決數據挖掘問題—數據清洗和驗證,介紹了區分數據質量等級的度量標準,以及一系列用于評估數據質量的檢測方法。
第6章:觀察數據—探索性數據分析,講解了探索性數據分析的概念及其在數據分析過程中的應用。
第7章:最初的猜想—線性回歸,我們將設計一個簡單的線性回歸模型并檢驗它是否滿足我們的要求。
第8章:淺談模型性能評估,涵蓋定義和衡量數據挖掘模型性能的工具。
第9章:不要放棄—繼續學習包括多元變量的回歸,探索多變量情況下的輸出結果預測。
第10章:關于分類模型問題的不同展望,探討了分類模型的需求和使用。
第11章:最后沖刺—隨機森林和集成學習,在這一章中,我們將學習如何用集成學習來評估分類模型。
第12章:尋找罪魁禍首—使用R語言執行文本數據挖掘,介紹了如何為文本挖掘項目準備數據幀、刪除無關單詞以及將其從句子列表轉換成詞列表。同時,你也會學習基于文本挖掘的情感分析、詞云開發,以及N元模型分析。
第13章:借助R Markdown分享公司現狀,本章使用了RStudio生態系統中兩個強大的組件(R Markdown和Shiny)。
第14章:結語,通過獨特的背景故事,使得讀者對數據挖掘的學習非常有參與感。
附錄:日期、相對路徑和函數處理,包含了R程序運行的一些其他相關信息。
閱讀前準備
在UNIX或者Windows系統上使用R語言,能夠讓你更輕松地學習本書的各個章節。本書使用的R語言版本為3.4.0。
本書受眾
如果你是一位剛入行的數據科學家或者數據分析員,有一些基礎的R語言知識,想通過實踐進階更復雜的數據挖掘,那么本書就是為你準備的。
下載示例代碼
你可以從GitHub上找到本書的相關代碼,地址為https://github.com/PacktPublishing/ R-Data-Mining。
下載本書彩圖
你可以通過如下地址下載本書彩圖:https://www.packtpub.com/sites/default/files/ downloads/RDataMining_ColorImages.pdf。