R语言数据处理方法~小结

发布时间：2021-01-11 14:35:42 所属栏目：大数据来源：网络整理

导读：文章目录 1. R自带函数 2. reshape2数据重构 3. dplyr 4. tidyr 5. 字符串处理 1. R自带函数 1.1 转置使用函数t()可对一个矩阵或数据框进行转置，对于数据框，行名将变成变量（列）名。数列array进行维度转换 aperm 1.2 整合数据aggregate 在R中使用一个

3.1.1 数据类型

将过长过大的数据集转换为显示更友好的 tbl_df 类型

3.1.2 筛选filter

按给定的逻辑判断筛选出符合要求的子数据集,类似于 base::subset() 函数

用R自带函数实现:

除了代码简洁外,还支持对同一对象的任意个条件组合,如:

3.1.3 排列 arrange

用R自带函数实现:

3.1.4 选择select用列名作参数来选择子数据集:

排除列名:

select的特殊函数

(1)starts_with(x,ignore.case = TRUE): names starts with x

(2)ends_with(x,ignore.case = TRUE): names ends in x

(3)contains(x,ignore.case = TRUE): selects all variables whose name contains

(4)matches(x,ignore.case = TRUE): selects all variables whose name matches the regular expression x

(5)num_range("x",1:5,width = 2): selects all variables (numerically) from x01 to x05.

(6)one_of("x","y","z"): selects variables provided in a character vector.

(7)everything(): selects all variables.

":" 选择连续列，contains来匹配列名

同样类似于R自带的subset() 函数.

3.1.5 添加新变量mutate

对已有列进行数据运算并添加为新列:

mutate_each()

对每一列运行窗体函数。

plyr::mutate() 与 base::transform() 相似,优势在于可以在同一语句中对刚增加的列进行操作。

通过data.frame有可以实现

3.1.6 汇总summarise
count()

3.1.7 tally

3.2 分组group_by

当对数据集通过 group_by() 添加了分组信息后,mutate(),arrange() 和 summarise() 函数会自动对这些 tbl 类数据执行分组操作 (R语言泛型函数的优势).

另: 一些汇总时的小函数

n(): 计算个数?n_distinct(x): 计算 x 中唯一值的个数

3.3 链式操作(管道) %>% 或 %.%

dplyr包还新引进了一个操作符，读成then，使用时把数据名作为开头,然后依次对此数据进行多步操作。比如:

按数据处理的思路写代码,一步步深入,?既易写又易读,接近于从左到右的自然语言顺序，对比一下用R自带函数实现的.

文章里还表示: 通过 %>% 那段代码比跑上面这段代码，运算速度提升很多倍.

至于这个新鲜的概念会不会和 ggplot2 里的 + 连接号一样,发挥出种种奇妙的功能呢? 还是在实际使用中多体验感受吧.

3.5 数据匹配合并join

(1)inner_join(x,y) ：只包含同时出现在x,y表中的行

(2)left_join(x,y) ：包含所有x中以及y中匹配的行

(3)semi_join(x,y) ：包含x中，在y中有匹配的行，结果为x的子集

(4)anti_join(x,y) ：包含x中，不匹配y的行，结果为x的子集，与semi_join相反

(5)full_join(x,y) ：包含所以x、y中的行

(6)right_join(x,y) ：包含所有y中以及x中匹配的行

（编辑：安卓应用网_ASP源码网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

2/3

首页

尾页