我的编程空间,编程开发者的网络收藏夹
学习永远不晚

python大ip文件排重

短信预约 -IT技能 免费直播动态提醒
省份

北京

  • 北京
  • 上海
  • 天津
  • 重庆
  • 河北
  • 山东
  • 辽宁
  • 黑龙江
  • 吉林
  • 甘肃
  • 青海
  • 河南
  • 江苏
  • 湖北
  • 湖南
  • 江西
  • 浙江
  • 广东
  • 云南
  • 福建
  • 海南
  • 山西
  • 四川
  • 陕西
  • 贵州
  • 安徽
  • 广西
  • 内蒙
  • 西藏
  • 新疆
  • 宁夏
  • 兵团
手机号立即预约

请填写图片验证码后获取短信验证码

看不清楚,换张图片

免费获取短信验证码

python大ip文件排重

1 需求:

整理个IP列表,需要将IP去重下,统计一共多少来源

本来想直接shell命令解决,简单的 sort 管道 uniq  然后wc下

无奈文件太大,条数多,处理效率不堪

文件大概5G,几亿条数据吧

image.png


2 PLAN A  未遂

 shell处理:

 #time sort ip | uniq | wc -l

然后没啥反应了。。。。 其实是在处理中,最后被我ctrl c了

image.png


3 PLAN B

没办法写个简单的python,用列表的排重特性(需要注意文件读取的方法,不要将文件一次全部读取到内存。。。):

#! /usr/bin/env python 
d={}
with open('ip', 'rb') as f:
    for line in f:
        d[line] = 'ip'
print  len(d)
time python read.py

然后就很快结束了:

image.png


4 结束

简单看下资源消耗情况:


image.png



优势还是挺明显的,以小见大吧,希望python可以帮助大家解决工作中的实际问题,不论大小。



免责声明:

① 本站未注明“稿件来源”的信息均来自网络整理。其文字、图片和音视频稿件的所属权归原作者所有。本站收集整理出于非商业性的教育和科研之目的,并不意味着本站赞同其观点或证实其内容的真实性。仅作为临时的测试数据,供内部测试之用。本站并未授权任何人以任何方式主动获取本站任何信息。

② 本站未注明“稿件来源”的临时测试数据将在测试完成后最终做删除处理。有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

python大ip文件排重

下载Word文档到电脑,方便收藏和打印~

下载Word文档

猜你喜欢

python大ip文件排重

1 需求:整理个IP列表,需要将IP去重下,统计一共多少来源本来想直接shell命令解决,简单的 sort 管道 uniq  然后wc下无奈文件太大,条数多,处理效率不堪文件大概5G,几亿条数据吧2 PLAN A  未遂 shell处理: 
2023-01-31

Python 读取大文件

在处理大数据时,有可能会碰到好几个 G 大小的文件。如果通过一些工具(例如:NotePad++)打开它,会发生错误,无法读取任何内容。那么,在 Python 中,如何快速地读取这些大文件呢?| 版权声明:一去、二三里,未经博主允许不得转载。
2023-01-31

python读取大文件

python读取文件对各列进行索引 可以用readlines, 也可以用readline, 如果是大文件一般就用readlined={}a_in = open("testfile.txt", "r")for line in a_in:   
2023-01-31

django+python大文件上传

大文件上传服务一、前端[webuploader](http://fex.baidu.com/webuploader/ ''webuploader'')二、后端django 2.0.0这里只贴出核心的代码:前端的:
2023-01-31

linux查找大文件并排序的命令

本篇内容介绍了“linux查找大文件并排序的命令”的有关知识,在实际案例的操作过程中,不少人都会遇到这样的困境,接下来就让小编带领大家学习一下如何处理这些情况吧!希望大家仔细阅读,能够学有所成!find . -type f -size +1
2023-06-19

Python读取大文件(GB)

最近处理文本文档时(文件约2GB大小),出现memoryError错误和文件读取太慢的问题,后来找到了两种比较快Large File Reading 的方法,本文将介绍这两种读取方法。Preliminary  我们谈到“文本处理”时,我们通
2023-01-31

python怎么重命名文件

在python中,可以利用os包的rename()函数来重命名文件(目录),语法“os.rename(src_path,dst_path)”,可将src_path的文件重命名为dst_path。因为rename()是os包提供的一个函数,想要使用该函数需要先引入os包,语法“import os”。
2023-05-14

python如何重命名文件

这篇文章将为大家详细讲解有关python如何重命名文件,小编觉得挺实用的,因此分享给大家做个参考,希望大家阅读完这篇文章后可以有所收获。python重命名文件的方法:首先创建一个python示例文件;然后通过if判断文件是否是文件夹;最后通
2023-06-06

python怎样重命名文件

这篇“python怎样重命名文件”文章,文中示例代码介绍的非常详细,具有一定的参考价值,感兴趣的小伙伴们一定要参考一下,对于“python怎样重命名文件”,小编整理了以下知识点,请大家跟着小编的步伐一步一步的慢慢理解,接下来就让我们进入主题
2023-06-06

python怎么读取大文件

这篇文章主要介绍“python怎么读取大文件”的相关知识,小编通过实际案例向大家展示操作过程,操作方法简单快捷,实用性强,希望这篇“python怎么读取大文件”文章能帮助大家解决问题。可以通过两种方法利用python读取大文件:第一种是利用
2023-06-30

python打开大文件整理

python中读取文件最常用的方式是:for line in open('myfile','r').readlines(): do_something(line)When this is done, however, the readlin
2023-01-31

如何实现Python文件去重

这篇文章将为大家详细讲解有关如何实现Python文件去重,小编觉得挺实用的,因此分享给大家做个参考,希望大家阅读完这篇文章后可以有所收获。代码ing导出的文件都是保存在同一文件夹下的,格式也相同。然后,上网查了下 filecmp.cmp()
2023-06-20

用Python实现大文本文件切割

在实际工作中,有些场景下,因为产品既有功能限制,不支持特大文件的直接处理,需要把大文件进行切割处理。当然可以通过UltraEdit编辑工具,或者从网上下载一些文件切割器之类的。但这些要么手工操作太麻烦,要么不能满足自定义需求。而且,对程序员
2023-01-31

python如何获取文件大小

Python中可以通过`os.path`模块中的`getsize()`函数来获取文件的大小。使用方法如下:```pythonimport osfile_path = 'path/to/file' # 文件路径file_size = os.
2023-08-15

强悍的 Python —— 读取大文件

Python 环境下文件的读取问题,请参见拙文 Python 基础 —— 文件 这是一道著名的 Python 面试题,考察的问题是,Python 读取大文件和一般规模的文件时的区别,也即哪些接口不适合读取大文件。1. read() 接口的
2023-01-31

编程热搜

  • Python 学习之路 - Python
    一、安装Python34Windows在Python官网(https://www.python.org/downloads/)下载安装包并安装。Python的默认安装路径是:C:\Python34配置环境变量:【右键计算机】--》【属性】-
    Python 学习之路 - Python
  • chatgpt的中文全称是什么
    chatgpt的中文全称是生成型预训练变换模型。ChatGPT是什么ChatGPT是美国人工智能研究实验室OpenAI开发的一种全新聊天机器人模型,它能够通过学习和理解人类的语言来进行对话,还能根据聊天的上下文进行互动,并协助人类完成一系列
    chatgpt的中文全称是什么
  • C/C++中extern函数使用详解
  • C/C++可变参数的使用
    可变参数的使用方法远远不止以下几种,不过在C,C++中使用可变参数时要小心,在使用printf()等函数时传入的参数个数一定不能比前面的格式化字符串中的’%’符号个数少,否则会产生访问越界,运气不好的话还会导致程序崩溃
    C/C++可变参数的使用
  • css样式文件该放在哪里
  • php中数组下标必须是连续的吗
  • Python 3 教程
    Python 3 教程 Python 的 3.0 版本,常被称为 Python 3000,或简称 Py3k。相对于 Python 的早期版本,这是一个较大的升级。为了不带入过多的累赘,Python 3.0 在设计的时候没有考虑向下兼容。 Python
    Python 3 教程
  • Python pip包管理
    一、前言    在Python中, 安装第三方模块是通过 setuptools 这个工具完成的。 Python有两个封装了 setuptools的包管理工具: easy_install  和  pip , 目前官方推荐使用 pip。    
    Python pip包管理
  • ubuntu如何重新编译内核
  • 改善Java代码之慎用java动态编译

目录