Python和HDF5大数据应用(异步图书)(科莱特(AndrewCollette))

书:pan.baidu.com/s/11QzXauspnsGi67hme1U_2g?pwd=43xm

  1. 作者与出版社
    • 作者:科莱特(Andrew Collette)
    • 出版社:人民邮电出版社
  2. 书籍内容概览
    • 本书详细介绍了如何使用Python操作HDF5文件,以处理大规模数据。
  3. HDF5文件格式
    • HDF5是一种为存储和处理大容量科学数据设计的文件格式。
    • HDF5文件可以存储dataset和group两类数据对象。
  4. 创建与使用HDF5文件
    • 介绍了如何创建HDF5文件,以及如何使用环境管理器、文件驱动和用户块等。
  5. 数据集操作
    • 详细讲解了数据集的基础知识,包括类型和形状、读和写、创建空数据集等。
    • 介绍了如何显式指定存储类型以节省空间,以及如何进行数据类型转换和直读。
  6. 高效读写数据
    • 提供了高效率切片、start-stop-step索引、多维切片和标量切片等读写数据的方法。
    • 介绍了布尔索引、坐标列表、自动广播等高级功能。
  7. 分块与压缩
    • 讲解了连续存储和分块存储的区别,以及如何设置分块形状。
    • 介绍了过滤器流水线、压缩过滤器(如GZIP/DEFLATE、SZIP、LZF等)和其他过滤器(如SHUFFLE、FLETCHER32)的使用。
  8. 组、链接与迭代
    • 描述了HDF5的层次性结构,包括根组和子组、组的基本原理、字典风格的访问等。
    • 介绍了硬链接、软链接、外部链接等链接类型,以及如何使用Visitor模式进行多级遍历。
  9. 特征存储元数据
    • 讲解了特征的基本原理,以及如何使用特征存储元数据。
    • 提供了真实世界的例子:粒子加速数据库。
  10. 类型系统
    • 介绍了HDF5的类型系统,包括变长字符串的数据类型、复合类型、复数类型、枚举类型等。
    • 讲解了命名类型的创建、链接和管理。
  11. 维度标尺
    • 描述了如何创建维度标尺,并在数据集上添加标尺。
  12. 并发性
    • 介绍了Python并发的基本概念,以及多线程和多进程在HDF5并发性中的应用。
    • 讲解了MPI(消息传递接口)和并发HDF5的编程方法。
  13. 实际应用
    • 本书通过多个实际应用案例,展示了如何使用Python和HDF5处理大规模数据。
  14. 技术细节与工具
    • 提供了关于HDF5文件格式的技术细节,以及如何使用Python中的h5py、PyTables等工具操作HDF5数据的指南。

请注意,由于原文内容较长且详细,这里提供的要点是基于原文内容的总结和提炼,并未直接引用全部原文。如需更详细的信息,建议直接查阅《Python和HDF5大数据应用》一书。

发表评论

您的电子邮箱地址不会被公开。 必填项已用 * 标注