• h5py学习(一)核心概念


    因pandas的to_hdf5函数有bug TypeError: object of type 'int' has no len(),写dataframe数据出现了报错,遂决定直接使用h5py来写数据。

    以下翻译自https://www.h5py.org/

    核心概念

    h5py包是用于HDF5二进制数据格式的Python接口

    HDF5可以让你储存大量数值数据,以及很容易的操作NumPy的数据。比如,你可以将储存在磁盘上多个T大小的数据进行切片,就像他们是真实的Numpy数组一样。数以千计的数据集可以被储存到一个文件,可以根据需要进行分类和标记。

    一个HDF5文件是一共包含两种对象的容器:datasets,他们是类似于数组的数据的集合。groups,他们是类似于文件夹的容器,包含了datasets和其他的groups。

    何时使用h5py的最基本的事是:

    Groups是像字典一样工作,而datasets像NumPy数组一样工作。

    假设有人给你发了一个HDF5文件,mytestfile.hdf5. (关于如何创建此文件,请阅读附录:创建文件)您需要做的第一件事就是打开文件进行读取:

    >>> import h5py
    >>> f = h5p.file('mytestfile.hdf5', 'r')

    这个文件对象是你的出发点。这个文件中存储了什么?记得h5py.File文件就像一个Python字典,因此我们可以查看键,

    >>> list(f.keys())
    ['mydataset']

    根据我们的观察,文件里有一组数据,mydataset。让我们将这个数据集作为Dataset对象

    >>> dset = f['mydataset']

    我们得到的对象不是数组,而是HDF5 dataset.与NumPy数组一样,datasets既有形状也有数据类型:

    >>> dset.shape
    (100,)
    >>> dset.dtype
    dtype('int32')

    它们还支持和数组一样的的切片。这就是你读写数据的方式从文件中的数据集:

    >>> dset[...] = np.arange(100)
    >>> dset[0]
    0
    >>> dset[10]
    10
    >>> dset[0:100:10]
    array([ 0, 10, 20, 30, 40, 50, 60, 70, 80, 90])

    更多信息,请参见文件对象数据集集合.

    附录:创建文件

    在这一点上,你可能想知道mytestdata.hdf5文件是如何被创建的。我在file对象初始化时,将mode设置成w。而其他的一些模式是a(用于读/写/创建访问)和r+(用于读/写访问)。

    >>> import h5py
    >>> import numpy as np
    >>> f = h5py.File("mytestfile.hdf5", "w")

    这个file对象具有几个有趣的方法。其中一个是create_dataset,顾名思义,是创建给定形状和数据类型的数据集

    >>> dset = f.create_dataset("mydataset", (100,), dtype='i')

    file对象是一个上下文管理器;所以下面的代码也可以工作

    >>> import h5py
    >>> import numpy as np
    >>> with h5py.File("mytestfile.hdf5", "w") as f:
    >>>     dset = f.create_dataset("mydataset", (100,), dtype='i')
    
    

    Groups与分层结构

    “HDF”意为“Hierarchical Data Format分层数据格式”。HDF5文件中的每个对象有一个名称,并且它们用 / 分隔符以POSIX风格的层次进行排列:

    >>> dset.name
    '/mydataset'

    这个系统中的“folders”称为groups. 我们创建的file对象本身就是一个group,在本例中是root group,名称为 /

    >>> f.name
    '/'

    创建子组是通过恰当命名的create_group来实现. 但我们需要先以“append”模式(如果存在,则读/写,否则创建)打开文件:

    >>> f = h5py.File('mydataset.hdf5', 'a')
    >>> grp = f.create_group("subgroup")

    和file对象一样,所有Group对象都具有create_*的方法:

    >>> dset2 = grp.create_dataset("another_dataset", (50,), dtype='f')
    >>> dset2.name
    '/subgroup/another_dataset'

    顺便说一句,您不必手动创建所有的中间groups。指定完整路径就可以了:(即所谓的层次创建)

    >>> dset3 = f.create_dataset('subgroup2/dataset_three', (10,), dtype='i')
    >>> dset3.name
    '/subgroup2/dataset_three'

    Group支持大多数Python字典样式的接口。使用item-retrieval语法检索文件中的对象:

    >>> dataset_three = f['subgroup2/dataset_three']

    迭代groups可提供其成员的名称:

    >>> for name in f:
    ...     print(name)
    mydataset
    subgroup
    subgroup2
     

    还可以使用名称来测试成员是否存在:

    >>> "mydataset" in f
    True
    >>> "somethingelse" in f
    False

    您甚至可以使用完整的路径名:

    >>> "subgroup/another_dataset" in f
    True

    还有熟悉的keys(), values(), items()和iter()方法,以及get()方法。

    因为迭代一个组只会产生其直接连接的成员,对整个文件的迭代是用group方法visit()和visititems(),需要调用:

    >>> def printname(name):
    ...     print(name)
    >>> f.visit(printname)
    mydataset
    subgroup
    subgroup/another_dataset
    subgroup2
    subgroup2/dataset_three

    更多信息,请参见.

    属性

    HDF5的一个最好的特性是您可以立即存储元数据它所描述的数据。所有groups和datasets都支持附加一串属性.

    属性通过attrs代理对象实现字典接口:

    >>> dset.attrs['temperature'] = 99.5
    >>> dset.attrs['temperature']
    99.5
    >>> 'temperature' in dset.attrs
    True
  • 相关阅读:
    POJ-2378 Tree Cutting
    ZOJ-3870 Team Formation
    POJ-1741 Tree (树上点分治)
    POJ-3107 Godfather
    HDU-3586 Information Disturbing(树形DP+删边)
    POJ 2796 (单调栈 + 前缀和)
    POJ 3250(单调栈)
    ATCoder 116 D (思维+贪心+栈)
    POJ2528 (离散化+线段树)
    HDU 2795(思维+线段树)
  • 原文地址:https://www.cnblogs.com/jiangleads/p/15526342.html
Copyright © 2020-2023  润新知