当前位置: 首页 > news >正文

山东网站营销推广费用晋城市公用事业建设局网站

山东网站营销推广费用,晋城市公用事业建设局网站,佛山市和城乡建设局网站,荥阳在线Spark 磁盘作用磁盘作用性能价值失败重试ReuseExchangeSpark 导航 磁盘作用 临时文件、中间文件、缓存数据,都会存储到 spark.local.dir 中 在 Shuffle Map 时, 当内存空间不足,就会溢出临时文件存储到磁盘上溢出的临时文件一起做归并计算…

Spark 磁盘作用

  • 磁盘作用
  • 性能价值
    • 失败重试
    • ReuseExchange

Spark 导航

磁盘作用

临时文件、中间文件、缓存数据,都会存储到 spark.local.dir

  • 在 Shuffle Map 时, 当内存空间不足,就会溢出临时文件存储到磁盘上
  • 溢出的临时文件一起做归并计算,得到 Shuffle 中间文件存储到磁盘上
  • 缓存分布式数据集 : DISK 的存储模式,会把内存中放不下的数据缓存到磁盘

在这里插入图片描述

性能价值

spark.local.dir 配置到 SDD 或访问高效的存储系统

磁盘复用 :

  • 给执行性能带来更好的提升
  • 磁盘复用 : Shuffle Write 产生的中间文件被多次利用

失败重试

一旦某个计算环节出错,就会触发失败重试。失败重试的触发点是距离最新的 Shuffle 的中间文件

当 RDD4 的计算任务失败时,会从 RDD4 向前回溯,回溯到 RDD3 (RDD2 输出的中间文件 ) ,并重新开始计算

在这里插入图片描述

ReuseExchange

ReuseExchange 是 Spark SQL 优化一种 : 相同或相似的物理计划能共享 Shuffle 中间文件

ReuseExchange 机制的触发条件:

  • 多个查询所依赖的分区规则要与 Shuffle 中间数据的分区规则保持一致
  • 多个查询所涉及的字段(Attributes)要保持一致

在这里插入图片描述

统计不同用户的 PV(Page Views,页面浏览量)、UV(Unique Views,网站独立访客),并把两项统计结果合并:

//版本1:分别计算PV、UV,然后合并
// Data schema (userId: String, accessTime: Timestamp, page: String)
val filePath: String = _
val df: DataFrame = spark.read.parquet(filePath)val dfPV: DataFrame = df.groupBy("userId").agg(count("page").alias("value"))
val dfUV: DataFrame = df.groupBy("userId").agg(countDistinct("page").alias("value"))val resultDF: DataFrame = dfPV.Union(dfUV)
// Result样例
| userId | metrics | value |
| user0 | PV | 25 |
| user0 | UV | 12 |

文件扫描/Shuffle 两次 :

在这里插入图片描述

以 userId 为分区 ,调用 repartition :

//版本2:分别计算PV、UV,然后合并
// Data schema (userId: String, accessTime: Timestamp, page: String)
val filePath: String = _
val df: DataFrame = spark.read.parquet(filePath).repartition($"userId")val dfPV: DataFrame = df.groupBy("userId").agg(count("page").alias("value"))
val dfUV: DataFrame = df.groupBy("userId").agg(countDistinct("page").alias("value"))val resultDF: DataFrame = dfPV.Union(dfUV)
// Result样例
| userId | metrics | value |
| user0 | PV | 25 |
| user0 | UV | 12 |

ReuseExchange :

  • 数据源只需扫描一遍
  • Shuffle 也只发生一次

在这里插入图片描述

http://www.yayakq.cn/news/593035/

相关文章:

  • 中英企业网站网站运营前期中期后期
  • 常用的网站推广wordpress中博客砌体 网格
  • 青岛企业建设网站企业wordpress服务器如何使用
  • 在招聘网站做销售新手学做网站
  • 宣城市建设监督管理局网站怎样免费设计网站建设
  • 网站建设 运维 管理包括哪些专注徐州网站开发
  • 网站开发开票交税12380网站建设情况报告
  • 为什么要建手机网站模板网站做外贸好不好
  • 南京网站微信建设seo搜索引擎优化视频
  • 大连网站平台研发哪些网站做的好看的图片
  • 建凡网站网络项目免费的资源网
  • 网站建设qq群奉贤北京网站建设
  • 网站数据泄露我们应该怎么做做外贸的网站看啥书
  • 网站套餐外贸soho建网站
  • 河南中原建设网站微信群wordpress打不开自定义
  • 新手怎么做企业网站dw制作旅游网站教程
  • 网站建设流程总结wordpress 插件 扫描
  • 美工做图片网站广州市口碑全网推广报价
  • 学校网站建设工作内容2017网站设计尺寸
  • 企业门户网站源码下载站酷网海报素材图片
  • 怎样上传图片到自己公司网站闵行区学生成长空间
  • 安徽禹尧工程建设有限公司网站网站的站外推广手段
  • 网站后台设置网站地图网站商城的建设
  • 如何做自己的公司网站三维免费网站
  • 如何做地方门户网站做网站开发用哪种语言好
  • 事业单位可以建设网站吗中山移动网站建设公司
  • 网站建设课的感想自己的网站如何让百度收录
  • 做网站是什么海淀网站建设多少钱
  • 装修公司网站模版河南建筑业城乡建设网站查询
  • 样本之家登录网站ios 软件开发