我的编程空间,编程开发者的网络收藏夹
学习永远不晚

如何用pandas处理hdf5文件

短信预约 -IT技能 免费直播动态提醒
省份

北京

  • 北京
  • 上海
  • 天津
  • 重庆
  • 河北
  • 山东
  • 辽宁
  • 黑龙江
  • 吉林
  • 甘肃
  • 青海
  • 河南
  • 江苏
  • 湖北
  • 湖南
  • 江西
  • 浙江
  • 广东
  • 云南
  • 福建
  • 海南
  • 山西
  • 四川
  • 陕西
  • 贵州
  • 安徽
  • 广西
  • 内蒙
  • 西藏
  • 新疆
  • 宁夏
  • 兵团
手机号立即预约

请填写图片验证码后获取短信验证码

看不清楚,换张图片

免费获取短信验证码

如何用pandas处理hdf5文件

什么是HDF5

HDF5:Hierarchical Data Format Version 5,对于存储大规模、具有相同类型的数据,HDF5是一种非常不错的存储格式,文件后缀名为h5。这种格式的文件的存储和读取速度非常快,并且我们可以把HDF5文件看成是一个"目录",它是分层次的,我们来看看如何操作。

创建和读取HDF5文件


import pandas as pd
import numpy as np

hdf5 = pd.HDFStore("hello.h5", mode="w", complevel=9)
"""
path: 文件路径
mode: 和python的open函数中的mode一致
complevel: 压缩级别,默认是0到9。值越大,压缩程度越高,那么最终形成的文件所占的体积越小,但是相应的,在读取的时候用的解压缩的时间就越长
"""
# 打印是一个HDFStore对象
print(hdf5) # <class 'pandas.io.pytables.HDFStore'>

# 存储数据,可以直接使用赋值的方式
hdf5["series"] = pd.Series([1, 2, 3, 4, 5])
hdf5["dataframe"] = pd.DataFrame(np.random.randint(3, 10, size=(8, 4)))
# 除此之外,还可以使用put的方式
"""
hdf5.put("series", pd.Series([1, 2, 3, 4, 5]))
hdf5.put("dataframe", pd.DataFrame(np.random.randint(3, 10, size=(8, 4))))

put函数里面支持如下参数:
key:写入数据的key
value:写入数据的value
format:指定写出的模式,指定为"fixed",那么速度会快,但是不支持追加和查询。指定为"table",会以表格的模式写出,速度稍慢,但是支持追加和查询操作
"""

# 我们可以通过items来查看相应属性,类似于字典的items
print(list(hdf5.items()))
"""
File path: hello.h5

[('/dataframe', /dataframe (Group) ''
 children := ['axis0' (CArray), 'axis1' (CArray), 'block0_values' (CArray), 'block0_items' (CArray)]), ('/series', /series (Group) ''
 children := ['index' (CArray), 'values' (CArray)])]
"""
# items不太好看,我们来看keys,查看keys,但是注意:没有values
# 我们发现key是类似于目录一样的东西,名字就是我们设置的名字
# 所以我们可以把HDF5看成是目录,里面不同的目录对应不同的内容
print(hdf5.keys()) # ['/dataframe', '/series']

# 查看元素直接调用即可
print(hdf5["dataframe"])
"""
  0 1 2 3
0 4 8 5 6
1 4 6 7 9
2 6 3 9 4
3 8 9 3 9
4 6 6 3 4
5 6 9 9 8
6 4 8 9 6
7 9 5 8 8
"""

# 删除某个key,调用remove
hdf5.remove("series")
print(hdf5.keys()) # ['/dataframe']

# 如果想将数据保存到本地,那么调用close方法即可
hdf5.close()
# 查看数据流是否开启,返回False代表关闭了
print(hdf5.is_open) # False

# 另外创建HDF5文件,除了使用HDFStore,还可以通过先有的DataFrame进行操作。需要指定路径和key
# df.to_hdf("xx.h5", key="key")

下面来看看如何读取文件


import pandas as pd
import numpy as np

# 将mode改成r即可
hdf5 = pd.HDFStore("hello.h5", mode="r")
# 或者
"""
hdfs = pd.read_hdf("hello.h5", key="xxx")
"""
# 至于操作我们上面已经介绍了

hdf5这种格式是一种非常不错的格式,它无论是在存储方面和读取方面,文件大小和读取数据都比csv强不少,因此如果要存储大量的数据的话,那么hdf5这种文件格式是一种非常不错的选择。

以上就是如何用pandas处理hdf5文件的详细内容,更多关于pandas处理hdf5文件的资料请关注编程网其它相关文章!

免责声明:

① 本站未注明“稿件来源”的信息均来自网络整理。其文字、图片和音视频稿件的所属权归原作者所有。本站收集整理出于非商业性的教育和科研之目的,并不意味着本站赞同其观点或证实其内容的真实性。仅作为临时的测试数据,供内部测试之用。本站并未授权任何人以任何方式主动获取本站任何信息。

② 本站未注明“稿件来源”的临时测试数据将在测试完成后最终做删除处理。有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

如何用pandas处理hdf5文件

下载Word文档到电脑,方便收藏和打印~

下载Word文档

猜你喜欢

怎么用pandas处理hdf5文件

本篇内容介绍了“怎么用pandas处理hdf5文件”的有关知识,在实际案例的操作过程中,不少人都会遇到这样的困境,接下来就让小编带领大家学习一下如何处理这些情况吧!希望大家仔细阅读,能够学有所成!什么是HDF5HDF5:Hierarchic
2023-06-13

怎么用Python Pandas处理CSV文件

本篇内容主要讲解“怎么用Python Pandas处理CSV文件”,感兴趣的朋友不妨来看看。本文介绍的方法操作简单快捷,实用性强。下面就让小编来带大家学习“怎么用Python Pandas处理CSV文件”吧!读取Pandas文件df = p
2023-07-02

用 Pandas 处理结构不佳的 Excel 文件

本文将讨论如何使用pandas和openpyxl来读取这些类型的Excel文件,并干净地将数据转换为适合进一步分析的DataFrame。

利用pandas轻松处理txt文件数据

利用pandas轻松处理txt文件数据在数据分析和处理中,常遇到从txt文件读入的数据需要进行处理的情况。比如数据格式混乱,需要清洗;某些列无效,需要删除;某些列需要转换类型等。这些工作可能带来很大的工作量和时间花费,但是我们可以通过pa
利用pandas轻松处理txt文件数据
2024-01-19

使用pandas读取和处理Excel文件的方法

Pandas如何读取Excel文件并处理数据引言:Pandas是一种常用的数据处理和分析工具,它提供了丰富的函数和方法,方便用户对数据进行清洗、转换和分析。在实际工作中,我们经常需要处理Excel格式的数据文件,本文将介绍如何使用Pand
使用pandas读取和处理Excel文件的方法
2024-01-24

如何用vps处理大文件

使用VPS处理大文件的一种常见方法是通过SSH连接到VPS,并使用命令行工具来操作文件。以下是一些可以帮助你处理大文件的常用命令:1. scp:使用scp命令从本地计算机将大文件上传到VPS,或从VPS下载到本地计算机。示例:`scp /p
2023-09-08

如何用Python处理CSV文件

这篇文章主要介绍“如何用Python处理CSV文件”,在日常操作中,相信很多人在如何用Python处理CSV文件问题上存在疑惑,小编查阅了各式资料,整理出简单好用的操作方法,希望对大家解答”如何用Python处理CSV文件”的疑惑有所帮助!
2023-07-02

如何使用python处理文件

今天就跟大家聊聊有关如何使用python处理文件,可能很多人都不太了解,为了让大家更加了解,小编给大家总结了以下内容,希望大家根据这篇文章可以有所收获。python可以做什么Python是一种编程语言,内置了许多有效的工具,Python几乎
2023-06-14

pandas如何读取txt文件

pandas读取txt文件的步骤:1、安装Pandas库;2、使用“read_csv”函数读取txt文件,并指定文件路径和文件分隔符;3、Pandas将数据读取为一个名为DataFrame的对象;4、如果第一行包含列名,则可以通过将head
pandas如何读取txt文件
2023-11-21

pandas如何读取excel文件

本篇内容主要讲解“pandas如何读取excel文件”,感兴趣的朋友不妨来看看。本文介绍的方法操作简单快捷,实用性强。下面就让小编来带大家学习“pandas如何读取excel文件”吧!pandas读取excel文件的方法:首先创建一个表格,
2023-06-20

如何处理Linux文件

小编给大家分享一下如何处理Linux文件,相信大部分人都还不怎么了解,因此分享这篇文章给大家参考一下,希望大家阅读完这篇文章后大有收获,下面让我们一起去了解一下吧!Linux 提供了多种用于处理文件的命令,这些命令可以节省你的时间,并使你的
2023-06-16

如何使用dos批处理文件

本篇内容介绍了“如何使用dos批处理文件”的有关知识,在实际案例的操作过程中,不少人都会遇到这样的困境,接下来就让小编带领大家学习一下如何处理这些情况吧!希望大家仔细阅读,能够学有所成!if goto choice for 是批处理文件中比
2023-06-09

html如何使用objectURL处理文件

小编给大家分享一下html如何使用objectURL处理文件,希望大家阅读完这篇文章之后都有所收获,下面让我们一起去探讨吧!使用objectURL处理文件有一个特殊的方法叫做URL.createobjecturl(),用于从文件中创建唯一的
2023-06-27

如何使用pandas正确读取txt文件

如何使用pandas正确读取txt文件,需要具体代码示例Pandas是一个广泛使用的Python数据分析库,它可以用于处理各种各样的数据类型,包括CSV文件、Excel文件、SQL数据库等。同时,它也可以用于读取文本文件,例如txt文件。
如何使用pandas正确读取txt文件
2024-01-19

如何使用pandas生成/读取csv文件

这篇文章给大家分享的是有关如何使用pandas生成/读取csv文件的内容。小编觉得挺实用的,因此分享给大家做个参考,一起跟随小编过来看看吧。前言csv是我接触的比较早的一种文件,比较好的是这种文件既能够以电子表格的形式查看又能够以文本的形式
2023-06-20

python如何处理json文件

在Python中,可以使用`json`模块来处理JSON文件。具体步骤如下:1. 导入`json`模块:`import json`2. 读取JSON文件:可以使用`open()`函数打开JSON文件,并使用`json.load()`方法加载
2023-09-22

Golang如何处理parquet文件

这篇文章主要介绍“Golang如何处理parquet文件”,在日常操作中,相信很多人在Golang如何处理parquet文件问题上存在疑惑,小编查阅了各式资料,整理出简单好用的操作方法,希望对大家解答”Golang如何处理parquet文件
2023-07-05

编程热搜

  • Python 学习之路 - Python
    一、安装Python34Windows在Python官网(https://www.python.org/downloads/)下载安装包并安装。Python的默认安装路径是:C:\Python34配置环境变量:【右键计算机】--》【属性】-
    Python 学习之路 - Python
  • chatgpt的中文全称是什么
    chatgpt的中文全称是生成型预训练变换模型。ChatGPT是什么ChatGPT是美国人工智能研究实验室OpenAI开发的一种全新聊天机器人模型,它能够通过学习和理解人类的语言来进行对话,还能根据聊天的上下文进行互动,并协助人类完成一系列
    chatgpt的中文全称是什么
  • C/C++中extern函数使用详解
  • C/C++可变参数的使用
    可变参数的使用方法远远不止以下几种,不过在C,C++中使用可变参数时要小心,在使用printf()等函数时传入的参数个数一定不能比前面的格式化字符串中的’%’符号个数少,否则会产生访问越界,运气不好的话还会导致程序崩溃
    C/C++可变参数的使用
  • css样式文件该放在哪里
  • php中数组下标必须是连续的吗
  • Python 3 教程
    Python 3 教程 Python 的 3.0 版本,常被称为 Python 3000,或简称 Py3k。相对于 Python 的早期版本,这是一个较大的升级。为了不带入过多的累赘,Python 3.0 在设计的时候没有考虑向下兼容。 Python
    Python 3 教程
  • Python pip包管理
    一、前言    在Python中, 安装第三方模块是通过 setuptools 这个工具完成的。 Python有两个封装了 setuptools的包管理工具: easy_install  和  pip , 目前官方推荐使用 pip。    
    Python pip包管理
  • ubuntu如何重新编译内核
  • 改善Java代码之慎用java动态编译

目录