三种方法Python读取文件指定行，来看看你用过没？

2023-09-14 06:23

短信预约 -IT技能 免费直播动态提醒

在这里插入图片描述

1.行遍历实现

在python中如果要将一个文件完全加载到内存中，
通过file.readlines()即可，
但是在文件占用较高时，
我们是无法完整的将文件加载到内存中的，
这时候就需要用到python的file.readline()进行迭代式的逐行读取：

filename = 'hello.txt'##python学习交流扣扣qun:660193417with open(filename, 'r') as file:    line = file.readline()    counts = 1    while line:        if counts >= 50000000:            break        line = file.readline()        counts += 1

这里我们的实现方式是先用一个with语句打开一个文件，
然后用readline()函数配合while循环逐行加载，
最终通过一个序号标记来结束循环遍历，
输出文件第50000000行的内容。
该代码的执行效果如下：

dechin@ubuntu2004:~/projects/gitlab/dechin/$ time python3 get_line.py real    0m10.359suser    0m10.062ssys     0m0.296s

可以看到这里的耗时为10s多一些。

2.linecache实现

虽然在python的readline函数中
并没有实现读取指定行内容的方案，
但是在另一个库linecache中是实现了的，
由于使用的方式较为简单，
这里直接放上代码示例供参考：

filename = 'hello.txt'import linecachetext = linecache.getline(filename, 50000000)

该代码的执行结果如下：

dechin@ubuntu2004:~/projects/gitlab/dechin/$ time python3 get_line.py real    0m11.904suser    0m5.672ssys     0m6.231s

虽然在实现方式上简化了许多，但是我们发现这个实现的用时超过了11s，还不如我们自己手动实现的循环遍历方案。因此如果是对于性能有一定要求的场景，是不建议采用这个方案的。

在这里插入图片描述

3.命令行sed获取

我们知道用Linux系统本身自带的sed指令
也是可以获取到文件指定行或者是指定行范围的数据的，
其执行指令为：
sed -n 50000000p filename即表示读取文件的第50000000行的内容。
同时结合python的话，
我们可以在python代码中执行系统指令并获取输出结果：

filename = 'hello.txt'import osresult = os.popen('sed -n {}p {}'.format(50000000, filename)).read()

需要注意的是，
如果直接运行os.system()是没有返回值的，
只有os.popen()是有返回值的，
并且需要在尾巴加上一个read()的选项。
该代码的执行结果如下：

dechin@ubuntu2004:~/projects/gitlab/dechin/$ time python3 get_line.py real    0m2.532suser    0m0.032ssys     0m0.020s

可以看到直接使用sed指令的执行速度很快，
但是用这种方法并不是一本万利的，
比如以下这个例子：

filename = 'hello.txt'import osresult = os.popen('sed -n {}p {}'.format(500, filename)).read()

我们把读取第50000000行内容改为读取第500行的内容，
再运行一次程序：

dechin@ubuntu2004:~/projects/gitlab/dechin/$ time python3 get_line.py real    0m2.540suser    0m0.037ssys     0m0.013s

然而我们发现这个速度并没有因为要读取的行数减少了而变少，而是几乎保持不变的。

4.总结

本文通过4个测试案例分析了在python中读取文件指定行内容的方案，
并得到了一些运行耗时的数据。
从需求上来说，

如果是对于小规模的数据，
比如几百行规模的数据，
建议使用readline循环遍历来操作，
速度也相当不错，
或者是linecache中的函数实现也是可以的，
甚至可以直接用readlines将整个文本内容加载到内存中。

但是对于数据规模比较大的场景，
比如超过了千万行的级别，
那么使用sed指令的方式对指定行内容进行读取的方式，
应该是所有方式中最快速的。

在这里插入图片描述

来源地址：https://blog.csdn.net/m0_74872863/article/details/129699464

免责声明：

① 本站未注明“稿件来源”的信息均来自网络整理。其文字、图片和音视频稿件的所属权归原作者所有。本站收集整理出于非商业性的教育和科研之目的，并不意味着本站赞同其观点或证实其内容的真实性。仅作为临时的测试数据，供内部测试之用。本站并未授权任何人以任何方式主动获取本站任何信息。

② 本站未注明“稿件来源”的临时测试数据将在测试完成后最终做删除处理。有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

python 开发语言 pycharm

阅读原文内容投诉

三种方法Python读取文件指定行，来看看你用过没？

下载Word文档到电脑，方便收藏和打印～

下载Word文档

三种方法Python读取文件指定行，来看看你用过没？

1.行遍历实现

2.linecache实现

3.命令行sed获取

4.总结

三种方法Python读取文件指定行，来看看你用过没？

相关文章

猜你喜欢

三种方法Python读取文件指定行，来看看你用过没？

python3读取文件指定行的三种方法

热门标签

编程热搜

Python 学习之路 - Python

chatgpt的中文全称是什么

C/C++中extern函数使用详解

C/C++可变参数的使用

css样式文件该放在哪里

php中数组下标必须是连续的吗

Python 3 教程

Python pip包管理

ubuntu如何重新编译内核

改善Java代码之慎用java动态编译

编程资源站

2021年下半年软考高级信息系统项目管理师高频考点精选资料

2021下半年软考高级信息系统技术知识点记忆口诀精选资料

2021下半年软考《信息系统项目管理师》考试真题及答案精选资料

2021下半年软考高级考试备考攻略精选资料

2021年软考高级《信息系统项目管理师》巩固练习题汇总精选资料

2021下半年软考高级信息系统项目管理师30个易考知识点汇总精选资料

2021下半年软考高级知识点这样记，还担心记不住吗精选资料

2021年下半年软考高级考试重点汇总精选资料

2021下半年软考高级信息系统项目管理师计算公式汇总精选资料

2021年下半年软考高级《信息系统项目管理师》模拟试题精选资料

信息系统项目管理师选择题每日一练（2024）历年试题

2023年下半年信息系统项目管理师综合知识真题演练历年试题

目录

三种方法Python读取文件指定行，来看看你用过没？

1.行遍历实现

2.linecache实现

3.命令行sed获取

4.总结

三种方法Python读取文件指定行，来看看你用过没？

相关文章

猜你喜欢

三种方法Python读取文件指定行，来看看你用过没？

python3读取文件指定行的三种方法

热门标签

编程热搜

编程资源站

目录

感谢您的提交，我们服务专员将在30分钟内给您回复