Pandas数据集的分块读取的实现

2024-04-02 19:55

短信预约 -IT技能 免费直播动态提醒

一、直接用分块方式读取数据集文件（更直接）

分块读取数据集文件是指用read_xxx()方法读取存储数据的文件时采用分块的方式，这里以.csv文件为例，在read_csv()中加入chunksize参数即可实现分块读取：

reader = pd.read_csv('某招聘网站数据.csv', usecols = ['positionId', 'companyId', 'positionName', 'skillLables'],
                     chunksize=10)

此时，返回的reader不是DataFrame，而是一个可迭代对象（iteration），需要注意的是，这个可迭代对象不能用下标访问。下面遍历这个对象：

for r in reader:
    print(r)

遍历结果如下图所示：

这种分块读取方式比较直接，但是由于一开始就定义了分块大小，后续处理起来不够灵活。因此提供了第二种读取方法。

二、先将数据集读取为可迭代对象，再分块读取（更灵活）

这种方法将数据集文件读取为时可迭代对象不定义分块，用分块的方式读取read_csv()方法返回的可迭代对象。实现第一步要在read_csv()方法中指定参数iterator为True：

reader = pd.read_csv('某招聘网站数据.csv', usecols = ['positionId', 'companyId', 'positionName'],
                    iterator=True)

以下是用分块方式遍历reader，注意使用到的get_chunk()方法和里面的参数，参数定义分块大小，可以灵活调节：

while True:
    try:
        print(reader.get_chunk(10))
    except StopIteration:
        break

总结

综上所述，两种方法都能用pandas实现数据的分块读取，对于数据量较大的数据集还是比较实用的。两种方法的优劣体现在直接性和灵活性上，可以根据实际需求自行选择。

到此这篇关于Pandas数据集的分块读取的实现的文章就介绍到这了,更多相关Pandas数据集分块读取内容请搜索编程网以前的文章或继续浏览下面的相关文章希望大家以后多多支持编程网！

免责声明：

① 本站未注明“稿件来源”的信息均来自网络整理。其文字、图片和音视频稿件的所属权归原作者所有。本站收集整理出于非商业性的教育和科研之目的，并不意味着本站赞同其观点或证实其内容的真实性。仅作为临时的测试数据，供内部测试之用。本站并未授权任何人以任何方式主动获取本站任何信息。

② 本站未注明“稿件来源”的临时测试数据将在测试完成后最终做删除处理。有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

阅读原文内容投诉

Pandas数据集的分块读取的实现

下载Word文档到电脑，方便收藏和打印～

下载Word文档

Pandas数据集的分块读取的实现

目录

一、直接用分块方式读取数据集文件（更直接）

二、先将数据集读取为可迭代对象，再分块读取（更灵活）

总结

Pandas数据集的分块读取的实现

相关文章

猜你喜欢

Pandas数据集的分块读取的实现

pandas实现数据读取&清洗&分析的项目实践

Pandas读取csv的实现

pandas读取excel时获取读取进度的实现

Python Pandas模块实现数据的统计分析的方法

利用pandas读取Excel文件，轻松实现数据导入与分析

Pandas数据查询的集中实现方法

Pandas数据查询的集中如何实现

pytorch读取自制数据集的示例分析

用Python的pandas读取excel文件中的数据

PyTorch数据读取的实现示例

redis 亿级数据读取的实现

Pandas实现在线文件和剪贴板数据读取详解

使用pandas模块实现数据的标准化操作

pandas数据聚合与分组运算的实现

使用python的pandas读取excel文件中的数据详情

pytorch dataset实战案例之读取数据集的代码

python中Pandas读取数据文件的优点是什么

Python读取CSV数据的实用技巧分享

Pandas数据连接pd.concat的实现

热门标签

编程热搜

编程资源站

目录

感谢您的提交，我们服务专员将在30分钟内给您回复