当前位置: 首页 > news >正文

网站建设与管理学习收获wordpress博客发布软件

网站建设与管理学习收获,wordpress博客发布软件,上海企业制作网站有哪些内容,优秀网站建设最新报价Spark 磁盘作用磁盘作用性能价值失败重试ReuseExchangeSpark 导航 磁盘作用 临时文件、中间文件、缓存数据,都会存储到 spark.local.dir 中 在 Shuffle Map 时, 当内存空间不足,就会溢出临时文件存储到磁盘上溢出的临时文件一起做归并计算…

Spark 磁盘作用

  • 磁盘作用
  • 性能价值
    • 失败重试
    • ReuseExchange

Spark 导航

磁盘作用

临时文件、中间文件、缓存数据,都会存储到 spark.local.dir

  • 在 Shuffle Map 时, 当内存空间不足,就会溢出临时文件存储到磁盘上
  • 溢出的临时文件一起做归并计算,得到 Shuffle 中间文件存储到磁盘上
  • 缓存分布式数据集 : DISK 的存储模式,会把内存中放不下的数据缓存到磁盘

在这里插入图片描述

性能价值

spark.local.dir 配置到 SDD 或访问高效的存储系统

磁盘复用 :

  • 给执行性能带来更好的提升
  • 磁盘复用 : Shuffle Write 产生的中间文件被多次利用

失败重试

一旦某个计算环节出错,就会触发失败重试。失败重试的触发点是距离最新的 Shuffle 的中间文件

当 RDD4 的计算任务失败时,会从 RDD4 向前回溯,回溯到 RDD3 (RDD2 输出的中间文件 ) ,并重新开始计算

在这里插入图片描述

ReuseExchange

ReuseExchange 是 Spark SQL 优化一种 : 相同或相似的物理计划能共享 Shuffle 中间文件

ReuseExchange 机制的触发条件:

  • 多个查询所依赖的分区规则要与 Shuffle 中间数据的分区规则保持一致
  • 多个查询所涉及的字段(Attributes)要保持一致

在这里插入图片描述

统计不同用户的 PV(Page Views,页面浏览量)、UV(Unique Views,网站独立访客),并把两项统计结果合并:

//版本1:分别计算PV、UV,然后合并
// Data schema (userId: String, accessTime: Timestamp, page: String)
val filePath: String = _
val df: DataFrame = spark.read.parquet(filePath)val dfPV: DataFrame = df.groupBy("userId").agg(count("page").alias("value"))
val dfUV: DataFrame = df.groupBy("userId").agg(countDistinct("page").alias("value"))val resultDF: DataFrame = dfPV.Union(dfUV)
// Result样例
| userId | metrics | value |
| user0 | PV | 25 |
| user0 | UV | 12 |

文件扫描/Shuffle 两次 :

在这里插入图片描述

以 userId 为分区 ,调用 repartition :

//版本2:分别计算PV、UV,然后合并
// Data schema (userId: String, accessTime: Timestamp, page: String)
val filePath: String = _
val df: DataFrame = spark.read.parquet(filePath).repartition($"userId")val dfPV: DataFrame = df.groupBy("userId").agg(count("page").alias("value"))
val dfUV: DataFrame = df.groupBy("userId").agg(countDistinct("page").alias("value"))val resultDF: DataFrame = dfPV.Union(dfUV)
// Result样例
| userId | metrics | value |
| user0 | PV | 25 |
| user0 | UV | 12 |

ReuseExchange :

  • 数据源只需扫描一遍
  • Shuffle 也只发生一次

在这里插入图片描述

http://www.yayakq.cn/news/651361/

相关文章:

  • 手机网站源文件国外网站视频播放器
  • 广州自助网站制作网站建设包括哪些
  • 女生做网站编辑河北seo网站优化公司
  • php网站开发综合案例山西中交建设工程招标有限公司网站
  • 网站建设公司下载微信开发网站建设
  • 湛江网站开发哪家专业wordpress the id
  • 网站的模板怎么做网站数据库设计模板
  • 建站平台在线提交表格功能东风地区网站建设
  • 吐鲁番市建设局网站wordpress的wp_list_cats
  • 水利建设工程网站将html和wordpress分开
  • 网站建设和维护哪个好寺院的网站怎么做
  • 正规的佛山网站建设价格看济南新闻
  • 小型企业做网站的价格电子公司网站设计
  • 个人介绍网站内容长沙旅游景点大全排名
  • 任务网站开发凡科网多页网站怎样做
  • 建设网站合同范本北京品牌设计公司排名前十强
  • 医疗网站建设平台北京提供24小时医疗服务
  • 公司网站招聘的作用网站制作 长沙
  • 公司网站管理维护中铁十六局集团门户登录
  • 找人做网站应该注意什么郑州微信网站建设
  • 佛山网站优化怎么做网站建设公司如何开拓客户
  • 环保企业网站模板天津网站建设推荐安徽秒搜科技
  • 懒人学做网站网站开发过程中出现的问题
  • 长沙网站开发微联讯点不错网站 方案
  • 优化网站推广排名合肥做网站的的公司
  • 枣庄三合一网站建设公司做网站后台的时候要注意什么
  • 青岛开发区网站建设服务四川设计院排名
  • 受欢迎的锦州网站建设yandex搜索入口
  • 泸州做网站的公司有哪些动画视频模板网站
  • 网站开发游戏程序开发企业所得税优惠政策最新2024