我的编程空间,编程开发者的网络收藏夹
学习永远不晚

Linux下怎么删除大数据文件中部分字段重复行

短信预约 -IT技能 免费直播动态提醒
省份

北京

  • 北京
  • 上海
  • 天津
  • 重庆
  • 河北
  • 山东
  • 辽宁
  • 黑龙江
  • 吉林
  • 甘肃
  • 青海
  • 河南
  • 江苏
  • 湖北
  • 湖南
  • 江西
  • 浙江
  • 广东
  • 云南
  • 福建
  • 海南
  • 山西
  • 四川
  • 陕西
  • 贵州
  • 安徽
  • 广西
  • 内蒙
  • 西藏
  • 新疆
  • 宁夏
  • 兵团
手机号立即预约

请填写图片验证码后获取短信验证码

看不清楚,换张图片

免费获取短信验证码

Linux下怎么删除大数据文件中部分字段重复行

本篇内容介绍了“Linux下怎么删除大数据文件中部分字段重复行”的有关知识,在实际案例的操作过程中,不少人都会遇到这样的困境,接下来就让小编带领大家学习一下如何处理这些情况吧!希望大家仔细阅读,能够学有所成!

最近写的一个数据采集程序生成了一个含有1千多万行数据的文件,数据由4个字段组成,按照要求需要删除第二个字段重复的行,找来找去linux下也没找到合适的工具,sed/gawk等流处理工具只能针对一行一行处理,并无法找到字段重复的行。看来只好自己python一个程序了,突然想起来利用mysql,于是进行乾坤大挪移:

1. 利用mysqlimport --local dbname data.txt导入数据到表中,表名要与文件名一致
2. 执行下列sql语句(要求唯一的字段为uniqfield)


代码如下:


use dbname;
alter table tablename add rowid int auto_increment not null;
create table t select min(rowid) as rowid from tablename group by uniqfield;
create table t2 select tablename .* from tablename,t where tablename.rowid= t.rowid;
drop table tablename;
rename table t2 to tablename;

“Linux下怎么删除大数据文件中部分字段重复行”的内容就介绍到这里了,感谢大家的阅读。如果想了解更多行业相关的知识可以关注编程网网站,小编将为大家输出更多高质量的实用文章!

免责声明:

① 本站未注明“稿件来源”的信息均来自网络整理。其文字、图片和音视频稿件的所属权归原作者所有。本站收集整理出于非商业性的教育和科研之目的,并不意味着本站赞同其观点或证实其内容的真实性。仅作为临时的测试数据,供内部测试之用。本站并未授权任何人以任何方式主动获取本站任何信息。

② 本站未注明“稿件来源”的临时测试数据将在测试完成后最终做删除处理。有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

Linux下怎么删除大数据文件中部分字段重复行

下载Word文档到电脑,方便收藏和打印~

下载Word文档

猜你喜欢

Linux下怎么删除大数据文件中部分字段重复行

本篇内容介绍了“Linux下怎么删除大数据文件中部分字段重复行”的有关知识,在实际案例的操作过程中,不少人都会遇到这样的困境,接下来就让小编带领大家学习一下如何处理这些情况吧!希望大家仔细阅读,能够学有所成!最近写的一个数据采集程序生成了一
2023-06-13

大数据中文本怎么按行去除重复值

这篇文章跟大家分析一下“大数据中文本怎么按行去除重复值”。内容详细易懂,对“大数据中文本怎么按行去除重复值”感兴趣的朋友可以跟着小编的思路慢慢深入来阅读一下,希望阅读后能够对大家有所帮助。下面跟着小编一起深入学习“大数据中文本怎么按行去除重
2023-06-03

Linux中误删除数据文件和归档日志怎么恢复

这篇文章主要介绍“Linux中误删除数据文件和归档日志怎么恢复”,在日常操作中,相信很多人在Linux中误删除数据文件和归档日志怎么恢复问题上存在疑惑,小编查阅了各式资料,整理出简单好用的操作方法,希望对大家解答”Linux中误删除数据文件
2023-06-13

编程热搜

目录