书:pan.baidu.com/s/11QzXauspnsGi67hme1U_2g?pwd=43xm
- 作者与出版社:
- 作者:科莱特(Andrew Collette)
- 出版社:人民邮电出版社
- 书籍内容概览:
- 本书详细介绍了如何使用Python操作HDF5文件,以处理大规模数据。
- HDF5文件格式:
- HDF5是一种为存储和处理大容量科学数据设计的文件格式。
- HDF5文件可以存储dataset和group两类数据对象。
- 创建与使用HDF5文件:
- 介绍了如何创建HDF5文件,以及如何使用环境管理器、文件驱动和用户块等。
- 数据集操作:
- 详细讲解了数据集的基础知识,包括类型和形状、读和写、创建空数据集等。
- 介绍了如何显式指定存储类型以节省空间,以及如何进行数据类型转换和直读。
- 高效读写数据:
- 提供了高效率切片、start-stop-step索引、多维切片和标量切片等读写数据的方法。
- 介绍了布尔索引、坐标列表、自动广播等高级功能。
- 分块与压缩:
- 讲解了连续存储和分块存储的区别,以及如何设置分块形状。
- 介绍了过滤器流水线、压缩过滤器(如GZIP/DEFLATE、SZIP、LZF等)和其他过滤器(如SHUFFLE、FLETCHER32)的使用。
- 组、链接与迭代:
- 描述了HDF5的层次性结构,包括根组和子组、组的基本原理、字典风格的访问等。
- 介绍了硬链接、软链接、外部链接等链接类型,以及如何使用Visitor模式进行多级遍历。
- 特征存储元数据:
- 讲解了特征的基本原理,以及如何使用特征存储元数据。
- 提供了真实世界的例子:粒子加速数据库。
- 类型系统:
- 介绍了HDF5的类型系统,包括变长字符串的数据类型、复合类型、复数类型、枚举类型等。
- 讲解了命名类型的创建、链接和管理。
- 维度标尺:
- 描述了如何创建维度标尺,并在数据集上添加标尺。
- 并发性:
- 介绍了Python并发的基本概念,以及多线程和多进程在HDF5并发性中的应用。
- 讲解了MPI(消息传递接口)和并发HDF5的编程方法。
- 实际应用:
- 本书通过多个实际应用案例,展示了如何使用Python和HDF5处理大规模数据。
- 技术细节与工具:
- 提供了关于HDF5文件格式的技术细节,以及如何使用Python中的h5py、PyTables等工具操作HDF5数据的指南。
请注意,由于原文内容较长且详细,这里提供的要点是基于原文内容的总结和提炼,并未直接引用全部原文。如需更详细的信息,建议直接查阅《Python和HDF5大数据应用》一书。