对pandas写入读取h5文件的方法详解-创新互联
1、引言
创新互联公司是一家专业提供宝清企业网站建设,专注与网站设计、成都做网站、H5开发、小程序制作等业务。10年已为宝清众多企业、政府机构等服务。创新互联专业的建站公司优惠进行中。通过参考相关博客对hdf5格式简要介绍。
hdf5在存储的是支持压缩,使用的方式是blosc,这个是速度最快的也是pandas默认支持的。 使用压缩可以提磁盘利用率,节省空间。 开启压缩也没有什么劣势,只会慢一点点。 压缩在小数据量的时候优势不明显,数据量大了才有优势。 同时发现hdf读取文件的时候只能是一次写,写的时候可以append,可以put,但是写完成了之后关闭文件,就不能再写了, 会覆盖。
另外,为什么单独说pandas,主要因为本人目前对于h6py这个包的理解不是很深入,不知道如果使用该包存pd.DataFrame格式的文件,不像numpy格式文件可以直接存储,因此本人只能依赖pandas自带一些函数进行处理。
2、写入文件
使用函数:pd.HDFStore
import numpy as np import pandas as pd ####生成9000,0000条数据,9千万条 a = np.random.standard_normal((90000000,4)) b = pd.DataFrame(a) ####普通格式存储: h6 = pd.HDFStore('/data/stock/test_s.h6','w') h6['data'] = b h6.close() ####压缩格式存储 h6 = pd.HDFStore('/data/stock/test_c4.h6','w', complevel=4, complib='blosc') h6['data'] = b h6.close()
另外有需要云服务器可以了解下创新互联scvps.cn,海内外云服务器15元起步,三天无理由+7*72小时售后在线,公司持有idc许可证,提供“云服务器、裸金属服务器、高防服务器、香港服务器、美国服务器、虚拟主机、免备案服务器”等云主机租用服务以及企业上云的综合解决方案,具有“安全稳定、简单易用、服务可用性高、性价比高”等特点与优势,专为企业上云打造定制,能够满足用户丰富、多元化的应用场景需求。
网页题目:对pandas写入读取h5文件的方法详解-创新互联
当前URL:http://ybzwz.com/article/dogcpo.html