官术网_书友最值得收藏!

2.1.1 數據框的基本操作

數據框的基本操作包括:數據框創建、維度信息查看、排序、子集選擇/查詢、數據集修改、數據集統計/整合等單數據框操作,以及兩個數據框的合并,見表2-1。詳細的函數列表可以參閱R語言的dplyr包[1] 和Python Pandas[2] 的備忘清單(Cheat Sheet)。

這些操作函數是數據分析的基礎,需要熟練靈活掌握。關于R語言和Python Pandas,已經有很多優秀的圖書,例如《R語言實戰》[3] 《R語言核心技術手冊》[4] 《R數據科學》[5] 和《Python數據科學手冊》[6] ,對于一些高級用法,可以參閱《高級R語言編程指南》[7] 和《R的極客理想:工具篇》[8]

表2-1 數據框的基本操作

除了base、stats等基礎包外,R還提供了dplyr、tidyr、tidyverse、magrittr等包方便數據框的處理。具體函數本節不做重復性的介紹。但有些常用函數需要特別注意,例如,is.na研判NA數值、complete.cases用來判斷每行記錄數據是否完整、pmax常用來在矩陣求每行的多列的最大值、cumsum是向量的累積求和(可以用來算累積時長)。另外,各種apply函數簡潔表達一些循環計算。reshape2包的melt、各種cast函數在一些數據框的處理中經常采用(例如ggplot2包畫圖時不同類別用不同顏色,通常在數據框中做加工)。

主站蜘蛛池模板: 克什克腾旗| 曲靖市| 隆林| 翼城县| 含山县| 方城县| 思茅市| 宾川县| 灵武市| 高唐县| 林口县| 锡林郭勒盟| 兖州市| 合川市| 资中县| 邻水| 和林格尔县| 馆陶县| 耒阳市| 昌乐县| 都匀市| 大冶市| 鞍山市| 青神县| 云阳县| 密云县| 宜良县| 抚远县| 枝江市| 房产| 沂南县| 鲁甸县| 黑龙江省| 广水市| 长阳| 邹城市| 黄石市| 城口县| 巩义市| 吴堡县| 天峻县|