位置：首页-资讯-后端开发

R语言实现两表连接且输出不重复数据

2024-04-02 19:55

短信预约 -IT技能 免费直播动态提醒

在做项目中遇到了如此问题，其中整理的结果表中没有会员ID信息，只有会员电话号码信息，且每一行为唯一一个会员。

另外一张member表中包含会员ID以及会员电话信息，但是这张表有重复的会员信息，也就是说一个会员在member表中多次出现，memeber表比整理的表要大很多。

说明：

1.在项目过程中，数据量较大，用到的是data.table包，需要用到SQL中的语句减少代码量，因此需要sqldf包。

2.以下例子中xx中的a1在yy中都有对应的值。

3.yy中的a1与b是一一对应的关系，不存在同一个a1值对应不同的b值。

4.此程序的目的是，用yy表与xx表匹配，也就是最终的结果应该是在xx的基础上增加b这一列的信息，数据集xx的行数不变。

如下所示：


<span style="font-size:14px;">> library(data.table)
> library(sqldf)
> xx <- data.table(a1=1:6,c=c(8,5,8,6,23,7),d=c('adf','af','sdf','utr','af','ruti'))</span>
<span style="font-family:SimSun;font-size:14px;">> xx
  a1 c  d
1: 1 8 adf
2: 2 5  af
3: 3 8 sdf
4: 4 6 utr
5: 5 23  af
6: 6 7 ruti</span>


<span style="font-size:14px;">yy <- data.table(a1=c(2,3,1,4,5,5,7,6,8,9,2,2,3,6),b=c('b','c','a','d','e','e','g',
                            'f','h','i','b','b','c','f'))</span>


<span style="font-size:14px;">> yy
  a1 b
 1: 2 b
 2: 3 c
 3: 1 a
 4: 4 d
 5: 5 e
 6: 5 e
 7: 7 g
 8: 6 f
 9: 8 h
10: 9 i
11: 2 b
12: 2 b
13: 3 c
14: 6 f
</span>


<span style="font-size:14px;">#按照a1连接所有信息包括进去 
> dataxy<- merge(xx, yy, by = "a1", all.x = TRUE)
> dataxy 
  a1 c  d b
 1: 1 8 adf a
 2: 2 5  af b
 3: 2 5  af b
 4: 2 5  af b
 5: 3 8 sdf c
 6: 3 8 sdf c
 7: 4 6 utr d
 8: 5 23  af e
 9: 5 23  af e
10: 6 7 ruti f
11: 6 7 ruti f</span>


<span style="font-size:14px;">#删除重复的行*/ 
> sqldf("select DISTINCT a1,b,c,d from left1")
 a1 b c  d
1 1 a 8 adf
2 2 b 5  af
3 3 c 8 sdf
4 4 d 6 utr
5 5 e 23  af
6 6 f 7 ruti</span>

补充：R语言筛选出不重复的行的几种方法

在做项目的过程中遇到筛选不重复的会员信息进行匹配，本次介绍五种筛选不重复行的数据：

五种方法如下：


>>> library(dplyr)
>>> library(sqldf)

方法一：


>>> data1 <- data7_0 %>% 
       group_by(CELLPHONE,MEMBERID) %>%
       filter(row_number() == 1) %>%
       ungroup()

方法二：


>>> data2 <- data7_0 %>% 
       distinct(CELLPHONE,MEMBERID, .keep_all = TRUE)

方法三：


>>> data3 <- sqldf("select DISTINCT CELLPHONE,MEMBERID from data7_0")

方法四：


>>> data4 <- base::unique(data7_0)

方法五：


>>> data5 <- as.data.table(data7_0[!duplicated(data7_0$CELLPHONE), ])

以上为个人经验，希望能给大家一个参考，也希望大家多多支持编程网。如有错误或未考虑完全的地方，望不吝赐教。

免责声明：

① 本站未注明“稿件来源”的信息均来自网络整理。其文字、图片和音视频稿件的所属权归原作者所有。本站收集整理出于非商业性的教育和科研之目的，并不意味着本站赞同其观点或证实其内容的真实性。仅作为临时的测试数据，供内部测试之用。本站并未授权任何人以任何方式主动获取本站任何信息。

② 本站未注明“稿件来源”的临时测试数据将在测试完成后最终做删除处理。有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

阅读原文内容投诉

R语言实现两表连接且输出不重复数据

下载Word文档到电脑，方便收藏和打印～

下载Word文档

R语言实现两表连接且输出不重复数据

说明：

如下所示：

五种方法如下：

方法一：

方法二：

方法三：

方法四：

方法五：

R语言实现两表连接且输出不重复数据

相关文章

猜你喜欢

R语言实现两表连接且输出不重复数据

怎么在R语言中实现两表连接且输出不重复数据

热门标签

编程热搜

Python 学习之路 - Python

chatgpt的中文全称是什么

C/C++中extern函数使用详解

C/C++可变参数的使用

css样式文件该放在哪里

php中数组下标必须是连续的吗

Python 3 教程

Python pip包管理

ubuntu如何重新编译内核

改善Java代码之慎用java动态编译

编程资源站

2021年下半年软考高级信息系统项目管理师高频考点精选资料

2021下半年软考高级信息系统技术知识点记忆口诀精选资料

2021下半年软考《信息系统项目管理师》考试真题及答案精选资料

2021下半年软考高级考试备考攻略精选资料

2021年软考高级《信息系统项目管理师》巩固练习题汇总精选资料

2021下半年软考高级信息系统项目管理师30个易考知识点汇总精选资料

2021下半年软考高级知识点这样记，还担心记不住吗精选资料

2021年下半年软考高级考试重点汇总精选资料

2021下半年软考高级信息系统项目管理师计算公式汇总精选资料

2021年下半年软考高级《信息系统项目管理师》模拟试题精选资料

信息系统项目管理师选择题每日一练（2024）历年试题

2023年下半年信息系统项目管理师综合知识真题演练历年试题

目录

R语言 实现两表连接且输出不重复数据

说明：

如下所示：

五种方法如下：

方法一：

方法二：

方法三：

方法四：

方法五：

R语言 实现两表连接且输出不重复数据

相关文章

猜你喜欢

R语言 实现两表连接且输出不重复数据

怎么在R语言中实现两表连接且输出不重复数据

热门标签

编程热搜

编程资源站

目录

感谢您的提交，我们服务专员将在30分钟内给您回复

R语言实现两表连接且输出不重复数据

R语言实现两表连接且输出不重复数据

R语言实现两表连接且输出不重复数据