我的编程空间,编程开发者的网络收藏夹
学习永远不晚

python对大文件的增量读取

短信预约 -IT技能 免费直播动态提醒
省份

北京

  • 北京
  • 上海
  • 天津
  • 重庆
  • 河北
  • 山东
  • 辽宁
  • 黑龙江
  • 吉林
  • 甘肃
  • 青海
  • 河南
  • 江苏
  • 湖北
  • 湖南
  • 江西
  • 浙江
  • 广东
  • 云南
  • 福建
  • 海南
  • 山西
  • 四川
  • 陕西
  • 贵州
  • 安徽
  • 广西
  • 内蒙
  • 西藏
  • 新疆
  • 宁夏
  • 兵团
手机号立即预约

请填写图片验证码后获取短信验证码

看不清楚,换张图片

免费获取短信验证码

python对大文件的增量读取

欢迎关注我的豆瓣http://www.douban.com/note/484517776/  

对于很多大文件的增量读取,如果遍历每一行比对历史记录的输钱或者全都加载到内存通过历史记录的索引查找,是非常浪费资源的,网上有很多人的技术博客都是写的用for循环readline以及一个计数器去增量读取,这样是十分脑残的,假如文件很大,遍历一次太久。
 我们需要了解获取文件句柄的基本理论,其中包含的指针操作等。
 原理是这样子,linux的文件描述符的struct里有一个f_pos的这么个属性,里面存着文件当前读取位置,通过这个东东经过vfs的一系列映射就会得到硬盘存储的位置了,所以很直接,很快。
 以下是利用python实战代码,核心函数tell(),seek(). 也是调用的系统调用seek tell

seek()的三种模式:

   (1)f.seek(p,0)  移动当文件第p个字节处,绝对位置

   (2)f.seek(p,1)  移动到相对于当前位置之后的p个字节

   (3)f.seek(p,2)  移动到相对文章尾之后的p个字节

tell():
   返回当前文件的读取位置。
代码:
#!/usr/bin/python
fd=open("test.txt",'r') #获得一个句柄
for i in xrange(1,3): #读取三行数据
   fd.readline()
label=fd.tell() #记录读取到的位置
fd.close() #关闭文件
#再次阅读文件
fd=open("test.txt",'r') #获得一个句柄
fd.seek(label,0)# 把文件读取指针移动到之前记录的位置
fd.readline() #接着上次的位置继续向下读取



后续:今儿有一人问我如何得知这个大文件行数,以及变化,我的想法是
方法1:
可以去遍历'\n'字符。
方法2:
从一开始就用for循环fd.readline()进行计数,然后变化的部分(用上文说的seek、tell函数做)再用for循环fd.readline()进行统计增加行数。

免责声明:

① 本站未注明“稿件来源”的信息均来自网络整理。其文字、图片和音视频稿件的所属权归原作者所有。本站收集整理出于非商业性的教育和科研之目的,并不意味着本站赞同其观点或证实其内容的真实性。仅作为临时的测试数据,供内部测试之用。本站并未授权任何人以任何方式主动获取本站任何信息。

② 本站未注明“稿件来源”的临时测试数据将在测试完成后最终做删除处理。有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

python对大文件的增量读取

下载Word文档到电脑,方便收藏和打印~

下载Word文档

猜你喜欢

python对大文件的增量读取

欢迎关注我的豆瓣http://www.douban.com/note/484517776/  对于很多大文件的增量读取,如果遍历每一行比对历史记录的输钱或者全都加载到内存通过历史记录的索引查找,是非常浪费资源的,网上有很多人的技术博客都是写
2023-01-31

Python 读取大文件

在处理大数据时,有可能会碰到好几个 G 大小的文件。如果通过一些工具(例如:NotePad++)打开它,会发生错误,无法读取任何内容。那么,在 Python 中,如何快速地读取这些大文件呢?| 版权声明:一去、二三里,未经博主允许不得转载。
2023-01-31

python读取大文件

python读取文件对各列进行索引 可以用readlines, 也可以用readline, 如果是大文件一般就用readlined={}a_in = open("testfile.txt", "r")for line in a_in:   
2023-01-31

Python读取大文件(GB)

最近处理文本文档时(文件约2GB大小),出现memoryError错误和文件读取太慢的问题,后来找到了两种比较快Large File Reading 的方法,本文将介绍这两种读取方法。Preliminary  我们谈到“文本处理”时,我们通
2023-01-31

强悍的 Python —— 读取大文件

Python 环境下文件的读取问题,请参见拙文 Python 基础 —— 文件 这是一道著名的 Python 面试题,考察的问题是,Python 读取大文件和一般规模的文件时的区别,也即哪些接口不适合读取大文件。1. read() 接口的
2023-01-31

python怎么读取大文件

这篇文章主要介绍“python怎么读取大文件”的相关知识,小编通过实际案例向大家展示操作过程,操作方法简单快捷,实用性强,希望这篇“python怎么读取大文件”文章能帮助大家解决问题。可以通过两种方法利用python读取大文件:第一种是利用
2023-06-30

python之批量读取文件

python的os模块可以实现普遍的操作系统功能,并且和平台无关。以下为实现根目录下文件的批量读取。 os.listdir(dirname)可以列出dirname下的目录和文件,依次读取相应的文件即可。# -*- coding:utf-8
2023-01-31

Python按行读取文件的实现方法【小文件和大文件读取】

本文实例讲述了Python按行读取文件的实现方法。分享给大家供大家参考,具体如下: 小文件:#coding=utf-8 #author: walker #date: 2013-12-30 #function: 按行读取小文件 all_lin
2022-06-04

怎么中python读取大文件

本篇文章为大家展示了怎么中python读取大文件,内容简明扼要并且容易理解,绝对能使你眼前一亮,通过这篇文章的详细介绍希望你能有所收获。python的五大特点是什么python的五大特点:1.简单易学,开发程序时,专注的是解决问题,而不是搞
2023-06-14

Python读取大量Excel文件并跨文件批量计算平均值的方法

这篇文章主要介绍了Python读取大量Excel文件并跨文件批量计算平均值,介绍基于Python语言,实现对多个不同Excel文件进行数据读取与平均值计算的方法,需要的朋友可以参考下
2023-02-02

python简单读取大文件的方法

本文实例讲述了python简单读取大文件的方法。分享给大家供大家参考,具体如下: Python读取大文件(GB级别)采用的办法很简单:with open(...) as f:for line in f:
2022-06-04

Python实现读取大量Excel文件并跨文件批量计算平均值

这篇文章主要为大家详细介绍了如何利用Python语言,实现对多个不同Excel文件进行数据读取与平均值计算的方法,感兴趣的可以了解一下
2023-02-02

python如何流式读取大文件

这篇文章将为大家详细讲解有关python如何流式读取大文件,小编觉得挺实用的,因此分享给大家做个参考,希望大家阅读完这篇文章后可以有所收获。如何流式读取大文件使用with…open…可以从文件中读取数据,这是所有
2023-06-27

python怎么批量读取dat文件

你可以使用glob模块来批量读取.dat文件。下面是一个示例代码:import globfile_list = glob.glob('*.dat') # 获取当前目录下所有的.dat文件for file_name i
python怎么批量读取dat文件
2024-02-29

python怎么批量读取文件名

在Python中,可以使用os模块来批量读取文件名。具体步骤如下:导入os模块:import os使用os.listdir()函数获取指定文件夹中的所有文件名。该函数接受一个文件夹路径作为参数,并返回一个包含文件名的列表。遍历文件名列表
python怎么批量读取文件名
2024-02-29

python大批量读写.doc文件的解决

python大批量读写.doc文件分析前言:java语言读写.doc的出现乱码问题:      大家都知道当我们利用java语言读写.doc文件时,无论是利用流的方式将.doc文件的内容输出到控制台(console),还是将其写到其他文件中
2023-01-31

Golang文件读取操作:快速读取大文件的技巧

Golang文件读取操作:快速读取大文件的技巧,需要具体代码示例在Golang程序设计中,文件读取是一个非常常见的操作。但当需要读取大文件时,通常是一件比较耗费时间和资源的操作。因此,如何快速读取大文件是一个非常值得探讨的话题。本文将介绍
Golang文件读取操作:快速读取大文件的技巧
2024-01-19

Python如何读取相对路径文件

这篇文章主要介绍了Python如何读取相对路径文件问题,具有很好的参考价值,希望对大家有所帮助。如有错误或未考虑完全的地方,望不吝赐教
2023-03-02

编程热搜

  • Python 学习之路 - Python
    一、安装Python34Windows在Python官网(https://www.python.org/downloads/)下载安装包并安装。Python的默认安装路径是:C:\Python34配置环境变量:【右键计算机】--》【属性】-
    Python 学习之路 - Python
  • chatgpt的中文全称是什么
    chatgpt的中文全称是生成型预训练变换模型。ChatGPT是什么ChatGPT是美国人工智能研究实验室OpenAI开发的一种全新聊天机器人模型,它能够通过学习和理解人类的语言来进行对话,还能根据聊天的上下文进行互动,并协助人类完成一系列
    chatgpt的中文全称是什么
  • C/C++中extern函数使用详解
  • C/C++可变参数的使用
    可变参数的使用方法远远不止以下几种,不过在C,C++中使用可变参数时要小心,在使用printf()等函数时传入的参数个数一定不能比前面的格式化字符串中的’%’符号个数少,否则会产生访问越界,运气不好的话还会导致程序崩溃
    C/C++可变参数的使用
  • css样式文件该放在哪里
  • php中数组下标必须是连续的吗
  • Python 3 教程
    Python 3 教程 Python 的 3.0 版本,常被称为 Python 3000,或简称 Py3k。相对于 Python 的早期版本,这是一个较大的升级。为了不带入过多的累赘,Python 3.0 在设计的时候没有考虑向下兼容。 Python
    Python 3 教程
  • Python pip包管理
    一、前言    在Python中, 安装第三方模块是通过 setuptools 这个工具完成的。 Python有两个封装了 setuptools的包管理工具: easy_install  和  pip , 目前官方推荐使用 pip。    
    Python pip包管理
  • ubuntu如何重新编译内核
  • 改善Java代码之慎用java动态编译

目录