当前位置: 首页 > news >正文

苏州企业网站公司都有哪些东莞有哪家比较好的网站建设公司

苏州企业网站公司都有哪些,东莞有哪家比较好的网站建设公司,建设工程信息网论坛,个人主页页面前言 本文对pandas支持的一些数据格式进行IO(读写)的性能测试,大数据时代以数据为基础,经常会遇到操作大量数据的情景,数据的IO性能尤为重要,本文对常见的数据格式csv、feather、hdf5、jay、parquet、pick…

前言

本文对pandas支持的一些数据格式进行IO(读写)的性能测试,大数据时代以数据为基础,经常会遇到操作大量数据的情景,数据的IO性能尤为重要,本文对常见的数据格式csv、feather、hdf5、jay、parquet、pickle性能进行对比。

csv

CSV(Comma-Separated Values)是一种用于存储表格数据的简单文件格式。在 CSV 文件中,每一行通常代表一条记录,字段(列)由逗号分隔。尽管可以使用其他分隔符(如制表符、分号等),逗号是最常见的分隔符。

import time
import pandas as pdtemplates_path = r'./data.hdf5'
df = pd.read_hdf(templates_path, 'table')t0 = time.time()
df.to_csv("data.csv")
print('csv写时间 ', time.time()-t0)
t1 = time.time()
df2 = pd.read_csv("data.csv")
print('csv读时间 ', time.time()-t1)

测试632MB的hdf5运行结果:
csv写时间 9.340209722518921
csv读时间 5.414996147155762

feather

Feather 是一种高效的列式存储格式,专门用于快速读写数据框(DataFrame)。它是由 Apache Arrow 项目开发的,旨在提高数据处理的速度和效率,特别是在大型数据集的情况下。

import time
import pandas as pdtemplates_path = r'./data.hdf5'
df = pd.read_hdf(templates_path, 'table')t0 = time.time()
df.to_feather("data.feather")
print('feather写时间 ', time.time()-t0)
t1 = time.time()
df2 = pd.read_feather("data.feather")
print('feather读时间 ', time.time()-t1)

测试632MB的hdf5运行结果:
feather写时间 1.2748804092407227
feather读时间 5.084072828292847

hdf5

HDF5(Hierarchical Data Format version 5)是一种用于存储和管理大型、复杂的数据集合的文件格式。

import time
import pandas as pdtemplates_path = r'./data.hdf5'
df = pd.read_hdf(templates_path, 'table')t0 = time.time()
df.to_hdf("data.hdf5", 'table')
print('hdf写时间 ', time.time()-t0)
t1 = time.time()
df2 = pd.read_hdf("data.hdf5", 'table')
print('hdf读时间 ', time.time()-t1)

测试632MB的hdf5运行结果:
hdf写时间 4.227152109146118
hdf读时间 1.985311508178711

jay

Jay 格式(通常称为 Jay Data)是一种具有可扩展性的数据交换格式,主要用于存储和传输数据。

import time
import pandas as pd
import datatable as dt
templates_path = r'./data.hdf5'
df = pd.read_hdf(templates_path, 'table')t0 = time.time()
dt.Frame(df).to_jay("data.jay")
print('jay写时间 ', time.time()-t0)
t1 = time.time()
data_jay = dt.fread("data.jay")
print('jay读时间 ', time.time()-t1)

测试632MB的hdf5运行结果:
jay写时间 1.4829316139221191
jay读时间 0.0009965896606445312

parquet

Parquet 是一种列式存储文件格式,主要用于数据处理和分析场景。它是 Apache Hadoop 生态系统中的一个重要组成部分,设计用来支持高效的数据存储和检索。

import time
import pandas as pdtemplates_path = r'./data.hdf5'
df = pd.read_hdf(templates_path, 'table')t0 = time.time()
df.to_parquet("data.parquet")
print('parquet写时间 ', time.time()-t0)
t1 = time.time()
df2 = pd.read_parquet("data.parquet")
print('parquet读时间 ', time.time()-t1)

测试632MB的hdf5运行结果:
parquet写时间 1.8439412117004395
parquet读时间 5.116466522216797

pickle

pickle 是 Python 的标准库之一,用于序列化(将 Python 对象转换为字节流)和反序列化(将字节流转换回 Python 对象)。

import time
import pandas as pdtemplates_path = r'./data.hdf5'
df = pd.read_hdf(templates_path, 'table')t0 = time.time()
df.to_pickle("data.pickle")
print('pickle写时间 ', time.time()-t0)
t1 = time.time()
df2 = pd.read_pickle("data.pickle")
print('pickle读时间 ', time.time()-t1)

测试632MB的hdf5运行结果:
pickle写时间 3.7283213138580322
pickle读时间 1.2415409088134766

测试结果汇总

格式csvfeatherhdf5jayparquetpickle
632M写9.341.274.221.481.843.72
632M读5.415.081.980.00095.111.24
3.6G写40.587.45*10.059.224.02
3.6G读34.434.43*0.0019 (5.44**)4.823.33
3.6Ghdf5占用空间3.65G0.97G3.6G3.75G1.01G3.05G
  • *数据中包含Long格式数据,无法保存,未能完成测试
  • **数据需要经过处理才能达到原始数据格式,加上处理耗时

总结

本测试基于python语言,对于其他语言可能不适用。

  • 对储存空间要求较高,推荐使用 feather
  • 对读写速度要求较高,推荐使用 pickle
http://www.yayakq.cn/news/640300/

相关文章:

  • 网站建设费用:做个网站要多少钱?网站建设一定要买数据盘吗
  • 做网站 就上微赞网wordpress电子报
  • 阿里国际站网站建设公司网站优化去哪里学
  • 麟游住房和城市建设局网站厦门网站建设报
  • 站长之家ip查询工具绣花图案设计网站
  • 建设网站哪家强怎么用html做移动网站
  • php网站开发用什么工具罗湖田贝社区网站建设
  • 河南网站建设公司排名微信公众号怎么运营管理
  • 神魔网站建设易企秀网站开发
  • 网站文章更新注意什么海外销售平台有哪些
  • 广州建设银行分行招聘网站怎么建立自己网站 asp
  • 网站网站怎么做的网站页面设计费用
  • 网站备案号注销的结果用本机做网站浏览
  • 成品网站管理系统 源码平凉市住房和城乡建设局网站
  • 专业摄影网站推荐wordpress 附件目录
  • 深圳外贸响应式网站建设承德网站
  • 做网站一般要多少钱seo标题优化是什么意思
  • wordpress 文章简介模板网站 怎么做优化
  • 网站美工设计基础wordpress 微博同步
  • 做网站前台需要什么技能wordpress去掉cat
  • gif放网站有锯齿wordpress 更改服务器
  • 成都网站建设收费明细网站建设流程是什么意思
  • 佛山品牌网站建设报价腾讯企业邮箱扫码登录
  • 铜川市新区建设局网站搜索引擎网站建设
  • 青岛外贸网站推广广东外贸网站推广公司
  • 青海贸易网站建设公司做一个公司网页要多少钱
  • 湖北企业网站建设多少钱网站建设的目标与思路
  • 沈阳模板建站软件如何免费学校建网站
  • 宁波网站建设流程有哪些北京竞价托管代运营
  • 南昌网站建设开发团队灌南网站建设