- 大數(shù)據(jù)分析:R基礎(chǔ)及應(yīng)用
- 深圳國泰安教育技術(shù)股份有限公司
- 1340字
- 2021-03-19 19:26:20
3.1 R語言概述
R語言是集數(shù)據(jù)分析與圖形顯示于一體的編程語言,是一種專業(yè)的統(tǒng)計(jì)分析軟件。R從根本上摒棄了套用模式的傻瓜式數(shù)據(jù)分析方式,它將數(shù)據(jù)分析的主動(dòng)權(quán)和選擇權(quán)交給使用者本身。數(shù)據(jù)分析人員可以根據(jù)問題的背景和數(shù)據(jù)的特點(diǎn),更好地思考從數(shù)據(jù)出發(fā)如何選擇和組合不同的方法,并將每一層輸出反饋到對(duì)問題和數(shù)據(jù)處理的新思考上。R為專業(yè)分析提供了分析的彈性、靈活性和擴(kuò)展性,是利用數(shù)據(jù)回答問題的最佳平臺(tái)。
R語言主要有以下幾個(gè)特點(diǎn)。
1.R是自由軟件
之所以稱R是自由軟件,是基于它的免費(fèi)和開源。R是一個(gè)用于統(tǒng)計(jì)計(jì)算的很成熟的免費(fèi)軟件,同時(shí)也能提供和其他同類型商業(yè)統(tǒng)計(jì)軟件一樣好的功能服務(wù)。R還有一個(gè)亮點(diǎn),即它是一款開源軟件,用戶可以和全球一流的統(tǒng)計(jì)專家合作討論,也可以上傳自己的軟件包,可以說R是全世界統(tǒng)計(jì)學(xué)家思維的最大集中地。現(xiàn)如今,開放源代碼的軟件在科學(xué)研究和工程工作中越來越受到追捧。R的開源性使得它從20世紀(jì)90年代被開發(fā)出來至今,一直在快速發(fā)展中。
2.R的兼容性很好
R的兼容性體現(xiàn)在兩個(gè)方面:一方面,R和其他程序設(shè)計(jì)語言的語法表述相似,使得有一定編程基礎(chǔ)的人學(xué)習(xí)起來容易,并且它也是徹底地面向?qū)ο蟮慕y(tǒng)計(jì)編程語言,非常容易理解和使用;另一方面,R可以實(shí)現(xiàn)與Excel、SAS、SPSS等常用統(tǒng)計(jì)軟件的數(shù)據(jù)轉(zhuǎn)換,也可以方便地插入由C語言等編制的計(jì)算機(jī)程序,這對(duì)數(shù)據(jù)整合工作非常有用。
3.R是數(shù)據(jù)可視化的先驅(qū)
R軟件提供了非常豐富的2D和3D圖形庫,是數(shù)據(jù)可視化的先驅(qū),能夠生成從簡(jiǎn)單到復(fù)雜的各種圖形,甚至可以生成動(dòng)畫,滿足不同信息展示的需要。
4.不斷更新的加載包
Google首席經(jīng)濟(jì)學(xué)家Hal Varian說:“R變得如此有用和如此快地廣受歡迎是因?yàn)榻y(tǒng)計(jì)學(xué)家、工程師、科學(xué)家能夠用它精煉代碼或編寫各種特殊任務(wù)的包。R包增添了很多高級(jí)算法、作圖顏色和文本注釋,并通過數(shù)據(jù)庫連接等方式提供了挖掘技術(shù)。金融服務(wù)部門對(duì)R表現(xiàn)出了極大的興趣,各種各樣的衍生品分析包相繼出現(xiàn)。R最優(yōu)美的地方是它能夠根據(jù)自己的需求修改很多前人編寫的包的代碼,實(shí)際上你是站在巨人的肩膀上。”
正是由于R具有免費(fèi)、開源、模塊多樣齊全等眾多特點(diǎn),且在綜合R檔案網(wǎng)絡(luò)(Comprehensive R Archive Network,CRAN)中提供了大量的第三方功能包,其內(nèi)容涵蓋了從統(tǒng)計(jì)計(jì)算到機(jī)器學(xué)習(xí),從金融分析到生物信息,從社會(huì)網(wǎng)絡(luò)分析到自然語言處理,從各種數(shù)據(jù)庫、各種語言接口到高性能計(jì)算模型,可以說無所不包,無所不容,這也是為什么R獲得越來越多各行各業(yè)的從業(yè)人員喜愛的一個(gè)重要原因。
類似R的統(tǒng)計(jì)軟件種類有很多,最常見的有以下5種,它們有各自的優(yōu)缺點(diǎn)。
(1)SAS:內(nèi)容全面,價(jià)格昂貴,支持編程,是數(shù)據(jù)處理和統(tǒng)計(jì)分析的專用軟件。
(2)SPSS:操作簡(jiǎn)單、無需編程、輸出漂亮、功能齊全、價(jià)格合理,非統(tǒng)計(jì)專業(yè)人員的首選軟件。
(3)Eviews:具有強(qiáng)大的多元回歸和時(shí)間序列分析功能,計(jì)量專業(yè)首選軟件。
(4)Matlab:功能強(qiáng)大的編程軟件,矩陣運(yùn)算快,統(tǒng)計(jì)分析功能較少,是數(shù)值計(jì)算和圖像處理的首選軟件。
(5)Excel:具有簡(jiǎn)單的統(tǒng)計(jì)分析功能,是商務(wù)辦公軟件。
這些軟件的共同缺點(diǎn):其一是“黑匣子”,即源代碼不公開,只能運(yùn)用已有功能,不能根據(jù)自身特殊需要進(jìn)行修改;其二是“傻瓜軟件”,對(duì)于一些簡(jiǎn)單分析,傻瓜式操作簡(jiǎn)便,適用于非統(tǒng)計(jì)專業(yè)人士,但是進(jìn)行一些深入分析時(shí)就無法勝任或者步驟繁復(fù)。
- SQL Server 2008數(shù)據(jù)庫應(yīng)用技術(shù)(第二版)
- 大數(shù)據(jù)算法
- Live Longer with AI
- Mockito Cookbook
- 數(shù)字媒體交互設(shè)計(jì)(初級(jí)):Web產(chǎn)品交互設(shè)計(jì)方法與案例
- gnuplot Cookbook
- Chef Essentials
- Oracle數(shù)據(jù)庫管理、開發(fā)與實(shí)踐
- 機(jī)器學(xué)習(xí):實(shí)用案例解析
- R Machine Learning Essentials
- MySQL技術(shù)內(nèi)幕:InnoDB存儲(chǔ)引擎
- 深入理解Flink:實(shí)時(shí)大數(shù)據(jù)處理實(shí)踐
- Access 2010數(shù)據(jù)庫應(yīng)用技術(shù)教程(第二版)
- 數(shù)字孿生
- MySQL 8.0從入門到實(shí)戰(zhàn)