官术网_书友最值得收藏!

第2章 R語言基礎

2.1 R語言簡介

2.1.1 R語言的起源、特點及安裝

R語言是統計領域廣泛使用的誕生于1980年左右的S語言的一個分支。可以認為R語言是S語言的一種實現。而S語言是由AT&T貝爾實驗室開發的一種用來進行數據探索、統計分析和作圖的解釋型語言。最初S語言的實現版本主要是S-PLUS。S-PLUS是一個商業軟件,它基于S語言,并由MathSoft公司的統計科學部進一步完善。后來新西蘭奧克蘭大學的Robert Gentleman和Ross Ihaka及其他志愿人員開發了一個R系統。由“R開發核心團隊”負責開發。R語言是基于S語言的一個GNU項目,所以也可以當作S語言的一種實現,通常用S語言編寫的代碼都可以不做修改地在R環境下運行。R語言的使用與S-PLUS有很多類似之處,這兩種語言有一定的兼容性。S-PLUS的使用手冊,只要稍加修改就可作為R語言的使用手冊。所以有人說:R語言是S-PLUS的一個“克隆”。但是,R語言是免費的,R語言源代碼托管在github(https://github.com/SurajGupta/r-source)。

與常見的統計分析軟件,如Microsoft Excel、SAS、IBM SPSS、Stata等相比較,R語言具有如下幾點明顯的優勢。

(1)多數商業統計軟件價格不菲,投入成千上萬美元都是可能的。而R語言是免費的。

(2)R語言是一個全面的統計研究平臺,提供了各式各樣的數據分析技術。幾乎任何類型的數據分析工作皆可在R中完成。

(3)R語言囊括了在其他軟件中尚不可用的、先進的統計計算例程。

(4)R語言擁有頂尖水準的制圖功能。如果希望復雜數據可視化,那么R語言擁有最全面且最強大的一系列可用功能。

(5)從多個數據源獲取并將數據轉化為可用的形式,可能是一個富有挑戰性的議題。R語言可以輕松地從各種類型的數據源導入數據,包括文本文件、數據庫管理系統、統計軟件,乃至專門的數據倉庫。它同樣可以將數據輸出并寫入到這些系統中。R語言也可以直接從網頁、社交媒體網站和各種類型的在線數據服務中獲取數據。

(6)R語言是一個無與倫比的平臺,在其上可使用一種簡單而直接的方式編寫新的統計方法。它易于擴展,并為快速編程實現新方法提供了一套十分自然的語言。

(7)R語言的功能可以被整合進其他語言編寫的應用程序,包括C++、Java、Python、PHP、Pentaho、SAS和SPSS。這讓用戶在繼續使用自己熟悉語言的同時在應用程序中加入R語言的功能。

(8)R語言可運行于多種平臺之上,包括Windows、UNIX和Mac OS X。這基本上意味著它可以運行于所能擁有的任何計算機上。

R語言可以在CRAN上免費下載。CRAN為Comprehensive R Archive Network(R語言綜合典藏網)的簡稱,地址為https://cran.r-project.org/mirrors.html。它除了收藏了R語言的執行文件下載版、源代碼和說明文件,也收錄了各種用戶撰寫的軟件包。目前,全球有超過一百個CRAN鏡像站。下載完畢后,根據所選擇平臺的安裝說明進行安裝即可。

為了使R語言的使用更加方便,安裝R語言之后,還可以進一步地安裝RStudio。RStudio是一款跨平臺的、免費的、開源的R語言集成開發環境,可以跨平臺運行。RStudio把常用的窗口都整合在一起,開發者不用在命令行和繪圖窗口間來回切換,RStudio全部都在一個窗口,更方便操作。RStudio的主要特色如下。

(1)可定制的工作臺,所有與R語言開發所需的工具在一個同界面(控制臺、源碼、工作區等);

(2)語法高亮的編輯器并支持代碼完成;

(3)直接從源碼編輯器執行代碼;

(4)全面支持Sweave和TeX文檔創作;

(5)可運行在Windows,Mac和Linux等主要平臺上,也可以作為服務器運行,使多個用戶使用Web瀏覽器訪問RStudio IDE。

RStudio的下載地址為https://github.com/rstudio/rstudio。

2.1.2 R語言的基本操作

R語言是一種區分大小寫的解釋型語言,使用命令行的工作方式。對于數據分析來說,命令行操作會更加靈活,更容易進行編程和自動化處理。R語言的基本界面就是一個交互式命令窗口,命令提示符是一個大于號(>),在命令提示符(>)后,每次輸入并執行一條命令,或者一次性執行寫在腳本文件中的一組命令,如圖2-1所示。

R命令主要有兩種形式:表達式或賦值運算。R使用<-,而不是傳統的=作為賦值符號。例如,以下語句:

創建了一個名為x的向量對象,它包含5個來自標準正態分布的隨機偏差,如圖2-2所示。

為了方便起見,可以用向上光標鍵來找回以前運行的命令再次運行或修改后再運行。也可以將語句寫在腳本區,選擇需要執行的語句,單擊Run按鈕即可運行,運行結果顯示在控制臺區(Console)。如圖2-3所示,圖中的腳本計算1~100的和。

圖2-1 R語言的交互式命令窗口

圖2-2 R語言賦值語句示例

圖2-3 R語言腳本示例

2.1.3 R語言的常用命令

下面列舉幾個R語言中的常用命令。

1.工作目錄的設置與獲取

(1)setwd(dir):設定工作目錄,dir是代表目錄的字符串。

(2)getwd():獲取當前工作目錄。

例如,將d:\設置為工作目錄:

2.包操作

(1)library():列出已安裝的包。

(2)require(package)或library(package):加載包。

例如:

(3)data():列出已安裝的包中的所有數據集。

(4)data(package=“packagename”):列出指定的包中的所有數據集。

例如,列出arules包中的所有數據集:

3.幫助命令

(1)help(command):查看某一個命令或函數的幫助文檔。

例如,打開lapply命令的幫助文檔:

(2)help(package=“packagename”):打開某一個包的幫助文檔。

例如,打開cluster包的幫助文檔:

2.1.4 包的安裝與加載

R語言的使用,很大程度上是借助各種各樣的R包的輔助。從某種程度上講,R包就是針對于R的插件,不同的插件滿足不同的需求,目前R語言收錄了大量的可用于經濟計量、財政分析、人文科學、人工智能等研究的包。

首次使用時,R語言默認只安裝了base包,還有很多包在第一次使用時都需要先安裝,安裝以后每次需要使用包的時候只需加載該包即可。

1.包的安裝

R語言中通常使用如下方法安裝函數包。

1)使用命令

一種方法是在命令提示符下輸入如下命令:

package_name是指定要安裝的包名,請注意大小寫。

dir指的是包安裝的路徑。默認情況下是安裝在..\library文件夾中的。可以通過對該參數的修改來選擇安裝的文件夾。

例如,以安裝MASS包為例,使用如下命令:

運行該命令,R軟件會自動下載MASS包,然后將MASS包安裝在D:\R\R_Packages目錄下。

2)本地離線安裝

選擇合適的鏡像下載要安裝的包的壓縮文件,則可以實現在本地離線安裝。在不同操作系統下安裝文件的后綴名是不一樣的。

(1)Linux環境編譯運行,安裝文件的后綴為:.tar.gz。

(2)Windows環境編譯運行,安裝文件的后綴為:.zip文件。

(3)Mac OS環境編譯運行,安裝文件的后綴為:.tgz文件。

在如圖2-4所示的對話框中,在Install from下拉列表框中選擇Package Archive File(.zip;.tar.gz),則會彈出安裝文件選擇的對話框,在本地數據盤中選擇需要安裝的包的壓縮文件即可實現本地離線安裝。

圖2-4 R語言安裝包的選項框

2.加載包

包安裝后,如果要使用包的功能,必須先把包加載到內存中(默認情況下,R語言啟動后默認加載基本包),加載包的命令為:library(“包名”)或require(“包名”)。

主站蜘蛛池模板: 枣强县| 梁河县| 伽师县| 湘乡市| 贡嘎县| 青冈县| 乳山市| 富宁县| 宾川县| 左贡县| 景东| 霍林郭勒市| 光泽县| 会同县| 屏边| 靖远县| 手机| 祥云县| 中方县| 永康市| 故城县| 永川市| 柳江县| 永兴县| 乾安县| 尚义县| 兴业县| 文水县| 正蓝旗| 县级市| 瑞昌市| 台北市| 乐业县| 临猗县| 广南县| 沧源| 大城县| 新蔡县| 泾川县| 扶余县| 景德镇市|