R语言 实现两表连接且输出不重复数据
短信预约 -IT技能 免费直播动态提醒
在做项目中遇到了如此问题,其中整理的结果表中没有会员ID信息,只有会员电话号码信息,且每一行为唯一一个会员。
另外一张member表中包含会员ID以及会员电话信息,但是这张表有重复的会员信息,也就是说一个会员在member表中多次出现,memeber表比整理的表要大很多。
说明:
1.在项目过程中,数据量较大,用到的是data.table包,需要用到SQL中的语句减少代码量,因此需要sqldf包。
2.以下例子中xx中的a1在yy中都有对应的值。
3.yy中的a1与b是一一对应的关系,不存在同一个a1值对应不同的b值。
4.此程序的目的是,用yy表与xx表匹配,也就是最终的结果应该是在xx的基础上增加b这一列的信息,数据集xx的行数不变。
如下所示:
<span style="font-size:14px;">> library(data.table)
> library(sqldf)
> xx <- data.table(a1=1:6,c=c(8,5,8,6,23,7),d=c('adf','af','sdf','utr','af','ruti'))</span>
<span style="font-family:SimSun;font-size:14px;">> xx
a1 c d
1: 1 8 adf
2: 2 5 af
3: 3 8 sdf
4: 4 6 utr
5: 5 23 af
6: 6 7 ruti</span>
<span style="font-size:14px;">yy <- data.table(a1=c(2,3,1,4,5,5,7,6,8,9,2,2,3,6),b=c('b','c','a','d','e','e','g',
'f','h','i','b','b','c','f'))</span>
<span style="font-size:14px;">> yy
a1 b
1: 2 b
2: 3 c
3: 1 a
4: 4 d
5: 5 e
6: 5 e
7: 7 g
8: 6 f
9: 8 h
10: 9 i
11: 2 b
12: 2 b
13: 3 c
14: 6 f
</span>
<span style="font-size:14px;">#按照a1连接所有信息包括进去
> dataxy<- merge(xx, yy, by = "a1", all.x = TRUE)
> dataxy
a1 c d b
1: 1 8 adf a
2: 2 5 af b
3: 2 5 af b
4: 2 5 af b
5: 3 8 sdf c
6: 3 8 sdf c
7: 4 6 utr d
8: 5 23 af e
9: 5 23 af e
10: 6 7 ruti f
11: 6 7 ruti f</span>
<span style="font-size:14px;">#删除重复的行*/
> sqldf("select DISTINCT a1,b,c,d from left1")
a1 b c d
1 1 a 8 adf
2 2 b 5 af
3 3 c 8 sdf
4 4 d 6 utr
5 5 e 23 af
6 6 f 7 ruti</span>
补充:R语言筛选出不重复的行的几种方法
在做项目的过程中遇到筛选不重复的会员信息进行匹配,本次介绍五种筛选不重复行的数据:
五种方法如下:
>>> library(dplyr)
>>> library(sqldf)
方法一:
>>> data1 <- data7_0 %>%
group_by(CELLPHONE,MEMBERID) %>%
filter(row_number() == 1) %>%
ungroup()
方法二:
>>> data2 <- data7_0 %>%
distinct(CELLPHONE,MEMBERID, .keep_all = TRUE)
方法三:
>>> data3 <- sqldf("select DISTINCT CELLPHONE,MEMBERID from data7_0")
方法四:
>>> data4 <- base::unique(data7_0)
方法五:
>>> data5 <- as.data.table(data7_0[!duplicated(data7_0$CELLPHONE), ])
以上为个人经验,希望能给大家一个参考,也希望大家多多支持编程网。如有错误或未考虑完全的地方,望不吝赐教。
免责声明:
① 本站未注明“稿件来源”的信息均来自网络整理。其文字、图片和音视频稿件的所属权归原作者所有。本站收集整理出于非商业性的教育和科研之目的,并不意味着本站赞同其观点或证实其内容的真实性。仅作为临时的测试数据,供内部测试之用。本站并未授权任何人以任何方式主动获取本站任何信息。
② 本站未注明“稿件来源”的临时测试数据将在测试完成后最终做删除处理。有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341