R语言数据处理方法~小结
|
3.1.1 数据类型 将过长过大的数据集转换为显示更友好的 tbl_df 类型
按给定的逻辑判断筛选出符合要求的子数据集,类似于 base::subset() 函数
除了代码简洁外,还支持对同一对象的任意个条件组合,如: 3.1.3 排列 arrange
3.1.4 选择select用列名作参数来选择子数据集:
select的特殊函数 (1)starts_with(x,ignore.case = TRUE): names starts with x (2)ends_with(x,ignore.case = TRUE): names ends in x (3)contains(x,ignore.case = TRUE): selects all variables whose name contains (4)matches(x,ignore.case = TRUE): selects all variables whose name matches the regular expression x (5)num_range("x",1:5,width = 2): selects all variables (numerically) from x01 to x05. (6)one_of("x","y","z"): selects variables provided in a character vector. (7)everything(): selects all variables.
":" 选择连续列,contains来匹配列名 同样类似于R自带的subset() 函数.
对已有列进行数据运算并添加为新列:
mutate_each() 对每一列运行窗体函数。
通过data.frame有可以实现 3.1.6 汇总summarise
当对数据集通过 group_by() 添加了分组信息后,mutate(),arrange() 和 summarise() 函数会自动对这些 tbl 类数据执行分组操作 (R语言泛型函数的优势).
另: 一些汇总时的小函数 n(): 计算个数?n_distinct(x): 计算 x 中唯一值的个数 3.3 链式操作(管道) %>% 或 %.% dplyr包还新引进了一个操作符,读成then,使用时把数据名作为开头,然后依次对此数据进行多步操作。比如:
按数据处理的思路写代码,一步步深入,?既易写又易读,接近于从左到右的自然语言顺序, 对比一下用R自带函数实现的.
文章里还表示: 通过 %>% 那段代码比跑上面这段代码,运算速度提升很多倍. 至于这个新鲜的概念会不会和 ggplot2 里的 + 连接号一样,发挥出种种奇妙的功能呢? 还是在实际使用中多体验感受吧. 3.5 数据匹配合并join(1)inner_join(x,y) :只包含同时出现在x,y表中的行 (2)left_join(x,y) :包含所有x中以及y中匹配的行 (3)semi_join(x,y) :包含x中,在y中有匹配的行,结果为x的子集 (4)anti_join(x,y) :包含x中,不匹配y的行,结果为x的子集,与semi_join相反 (5)full_join(x,y) :包含所以x、y中的行 (6)right_join(x,y) :包含所有y中以及x中匹配的行 (编辑:安卓应用网_ASP源码网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |
















