我的编程空间,编程开发者的网络收藏夹
学习永远不晚

Python读大数据txt

短信预约 -IT技能 免费直播动态提醒
省份

北京

  • 北京
  • 上海
  • 天津
  • 重庆
  • 河北
  • 山东
  • 辽宁
  • 黑龙江
  • 吉林
  • 甘肃
  • 青海
  • 河南
  • 江苏
  • 湖北
  • 湖南
  • 江西
  • 浙江
  • 广东
  • 云南
  • 福建
  • 海南
  • 山西
  • 四川
  • 陕西
  • 贵州
  • 安徽
  • 广西
  • 内蒙
  • 西藏
  • 新疆
  • 宁夏
  • 兵团
手机号立即预约

请填写图片验证码后获取短信验证码

看不清楚,换张图片

免费获取短信验证码

Python读大数据txt

如果直接对大文件对象调用 read() 方法,会导致不可预测的内存占用。好的方法是利用固定长度的缓冲区来不断读取文件内容。即通过yield。

在用Python读一个两个多G的txt文本时,天真的直接用readlines方法,结果一运行内存就崩了。

还好同事点拨了下,用yield方法,测试了下果然毫无压力。咎其原因,原来是readlines是把文本内容全部放于内存中,而yield则是类似于生成器。

代码如下:


def open_txt(file_name):
  with open(file_name,'r+') as f:
    while True:
      line = f.readline()
      if not line:
        return
      yield line.strip()

调用实例:


for text in open_txt('aa.txt'):
  print text

例二:

目标 txt 文件大概有6G,想取出前面1000条数据保存于一个新的 txt 文件中做余下的操作,虽然不知道这样做有没有必要但还是先小数据量测试一下吧。参考这个帖子:我想把一个list列表保存到一个Txt文档,该怎么保存 ,自己写了一个简单的小程序。
====================================================


import datetime
import pickle

start = datetime.datetime.now()
print "start--%s" % (start)

fileHandle = open ( 'train.txt' )
file2 = open('s_train.txt','w') 

i = 1
while ( i < 10000 ):
  a = fileHandle.readline()
  file2.write(''.join(a)) 
  i = i + 1

fileHandle.close() 
file2.close()

print "done--%s" % ( datetime.datetime.now() - start)

if __name__ == '__main__':
  pass

====================================================
pickle 这个库大家说的很多,官网看看,后面可以好好学习一下。

免责声明:

① 本站未注明“稿件来源”的信息均来自网络整理。其文字、图片和音视频稿件的所属权归原作者所有。本站收集整理出于非商业性的教育和科研之目的,并不意味着本站赞同其观点或证实其内容的真实性。仅作为临时的测试数据,供内部测试之用。本站并未授权任何人以任何方式主动获取本站任何信息。

② 本站未注明“稿件来源”的临时测试数据将在测试完成后最终做删除处理。有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

Python读大数据txt

下载Word文档到电脑,方便收藏和打印~

下载Word文档

猜你喜欢

Python读大数据txt

如果直接对大文件对象调用 read() 方法,会导致不可预测的内存占用。好的方法是利用固定长度的缓冲区来不断读取文件内容。即通过yield。在用Python读一个两个多G的txt文本时,天真的直接用readlines方法,结果一运行内存就崩
2022-06-04

python怎么读取txt数据

这篇“python怎么读取txt数据”文章的知识点大部分人都不太理解,所以小编给大家总结了以下内容,内容详细,步骤清晰,具有一定的借鉴价值,希望大家阅读完这篇文章能有所收获,下面我们一起来看看这篇“python怎么读取txt数据”文章吧。1
2023-06-30

python从txt文件读取数据

(作为一个python初学者,记录一点学习期间的笔记,方便日后查阅,若有错误或者更加便捷的方法,望指出!) 1、读取TXT文件数据,并对其中部分数据进行划分。一部分作为训练集数据,一部分作为测试集数据:def loadData(filena
2023-01-30

[20210831]bbed读取数据块6.txt

[20210831]bbed读取数据块6.txt--//前一段时间使用自己写的脚本读取数据块,遇到1个小问题,就是字段串超长就仅仅显示1段。--//实际上bbed最大显示宽度是300,我测试最大显示275个字符.1.问题提出:BBED> set width 3
[20210831]bbed读取数据块6.txt
2019-11-20

Android开发创建txt文件并读写txt文件数据

在Android开发过程中,经常会遇到需要创建txt文件并写入数据的情况。今天我们来介绍一下如何实现这样的功能。 一、创建txt文件 private void createFile()
2023-08-17

python如何读取一个大于10G的txt文件

这篇文章给大家分享的是有关python如何读取一个大于10G的txt文件的内容。小编觉得挺实用的,因此分享给大家做个参考,一起跟随小编过来看看吧。前言用python 读取一个大于10G 的文件,自己电脑只有8G内存,一运行就报内存溢出:Me
2023-06-15

python读取中文txt文本

对于python2.7字符串在Python2.7内部的表示是unicode编码,因此,在做编码转换时,通常需要以unicode作为中间编码,即先将其他编码的字符串解码成unicode,再从unicode编码成另一种编码。先用一些编辑器(如e
2023-01-31

python怎样读取txt文件

python 读取 txt 文件的方法包括:使用 open() 函数打开文件并读取内容使用 for 循环按行读取文件内容使用 readlines() 方法将文件内容读取到列表中Python 读取 TXT 文件Python 读取文本文件的步
python怎样读取txt文件
2024-05-11

PHP怎么从txt文件中读取数据

这篇文章主要介绍了PHP怎么从txt文件中读取数据,具有一定借鉴价值,感兴趣的朋友可以参考下,希望大家阅读完这篇文章之后大有收获,下面让小编带着大家一起了解一下。一、打开/关闭文件1、对文件操作时首先要打开文件,打开文件用 fopen()函
2023-06-29

【python】读取和输出到txt

读取txt的数据和把数据保存到txt中是经常要用到的,下面我就总结一下。python常用的读取文件函数有三种read()、readline()、readlines() 以读取上述txt为例,我们一起来看一下三者的区别read() 一次性读
2023-01-31

python怎么读取TXT文件

Python提供了多种读取文本文件的方法,以下是其中几种常用的方法:1. 使用`open()`函数:```file = open('file.txt', 'r')content = file.read()file.close()```2.
2023-10-11

python中如何读取txt文件

这期内容当中小编将会给大家带来有关python中如何读取txt文件,文章内容丰富且以专业的角度为大家分析和叙述,阅读完这篇文章希望大家可以有所收获。1、readline()读取第一行内容只读取文本第一行的内容,以字符串的形式返回结果with
2023-06-15

数据从txt文本导入python

机器学习实战 p21源代码:def file2matrix(filename):    fr = open(filename)    numberOfLines = len(fr.readlines())         #get the
2023-01-31

python怎么将数据写入txt

这篇“python怎么将数据写入txt”除了程序员外大部分人都不太理解,今天小编为了让大家更加理解“python怎么将数据写入txt”,给大家总结了以下内容,具有一定借鉴价值,内容详细步骤清晰,细节处理妥当,希望大家通过这篇文章有所收获,下
2023-06-06

编程热搜

  • Python 学习之路 - Python
    一、安装Python34Windows在Python官网(https://www.python.org/downloads/)下载安装包并安装。Python的默认安装路径是:C:\Python34配置环境变量:【右键计算机】--》【属性】-
    Python 学习之路 - Python
  • chatgpt的中文全称是什么
    chatgpt的中文全称是生成型预训练变换模型。ChatGPT是什么ChatGPT是美国人工智能研究实验室OpenAI开发的一种全新聊天机器人模型,它能够通过学习和理解人类的语言来进行对话,还能根据聊天的上下文进行互动,并协助人类完成一系列
    chatgpt的中文全称是什么
  • C/C++中extern函数使用详解
  • C/C++可变参数的使用
    可变参数的使用方法远远不止以下几种,不过在C,C++中使用可变参数时要小心,在使用printf()等函数时传入的参数个数一定不能比前面的格式化字符串中的’%’符号个数少,否则会产生访问越界,运气不好的话还会导致程序崩溃
    C/C++可变参数的使用
  • css样式文件该放在哪里
  • php中数组下标必须是连续的吗
  • Python 3 教程
    Python 3 教程 Python 的 3.0 版本,常被称为 Python 3000,或简称 Py3k。相对于 Python 的早期版本,这是一个较大的升级。为了不带入过多的累赘,Python 3.0 在设计的时候没有考虑向下兼容。 Python
    Python 3 教程
  • Python pip包管理
    一、前言    在Python中, 安装第三方模块是通过 setuptools 这个工具完成的。 Python有两个封装了 setuptools的包管理工具: easy_install  和  pip , 目前官方推荐使用 pip。    
    Python pip包管理
  • ubuntu如何重新编译内核
  • 改善Java代码之慎用java动态编译

目录