当前位置: 首页 > news >正文

国外工会网站建设中国建设工程招聘信息网站

国外工会网站建设,中国建设工程招聘信息网站,seo1网站查询,上海哪里有网站建设#1.数据倾斜 什么是数据倾斜? 一部分数据多 一部分数据少 造成的结果: MR运行过慢 主要是shuffle和reduce过程慢 分组聚合导致数据倾斜 Hive未优化的分组聚合 方法1:在MAP端直接聚合(分组聚合优化),减少…

#1.数据倾斜
什么是数据倾斜?
一部分数据多
一部分数据少
造成的结果: MR运行过慢 主要是shuffle和reduce过程慢

分组聚合导致数据倾斜

Hive未优化的分组聚合
在这里插入图片描述
方法1:在MAP端直接聚合(分组聚合优化),减少Key
MR失败

方法2:随机数,按随机数放入reduce中 解决数据倾斜 第二个Jobs按分组字段分区
因为生成随机了,所以按

方法1和方法2 一起用是不影响的
先进行聚合 然后按随机数分配reduce 再启动一个job dierge job 按分组字段分区

join的数据倾斜
最后根据KEY进行分组
在这里插入图片描述
这里的数据倾斜的现象和影响是什么呢?
1.map join
2. skew join
牺牲一个job为代价解决
将产生数据倾斜的Key去单独跑一个job
其实就是啥, map将大K提出来重新一个job ,剩下的直接生成结果集,然后job2的结果最后也注入结果集
根据参数判断
在这里插入图片描述
这里晚点多看一下
大表Join 对倾斜Key的表的key打散,对关联的另一张表的key扩容
为什么????

reduce 并行度
可以指定并行度,也可以自动
可以设置最大值
为什么最大默认1009
在这里插入图片描述

可以设置reduce task数据量 估算Reduce并行度

reduce task量与数据量相关合理么?
不合理,因为收到的是map处理后的数据,有可能已经变小很多了,在reduce端小文件
但是无法获取map的数据量

在这里插入图片描述
3表join OBC如何优化?
在这里插入图片描述
在这里插入图片描述
优化后: 先进行小表合并,

谓词下推
谓词下推(predicate pushdown)是指,尽量将过滤操作前移,以减少后续计算步骤的数据量。
CBO优化也会完成一部分的谓词下推优化工作,因为在执行计划中,谓词越靠前,整个计划的计算成本就会越低。
–是否启动谓词下推(predicate pushdown)优化
set hive.optimize.ppd = true;
白话:
在这里插入图片描述
谓词下推:先执行过滤条件再执行join

在这里插入图片描述

hive本地模式
在这里插入图片描述
开启自动转换模式
符合条件用本地 不符合条件用集群
与直接设置HADOOP参数语句的不同
一个自动,一个主动。

set mapreduce.framework.name=local;
http://www.yayakq.cn/news/443227/

相关文章:

  • 艾特软件 网站建设wordpress下滑显示导航
  • 域名网站做优化外链企业品牌推广方案范文
  • 专做logo网站叫什么地方做交通招聘的网站
  • 双鸭山市建设局网站做外国网站
  • 怎样做个网站蜜雪冰城网页设计素材
  • php网站开发核心技术封面型网站首页怎么做
  • 郑州网站制作公司怎么样rp网站做多大
  • 网站建设哪个公司好知乎分类目录检索
  • 网站建设公司不给ftp广东网站建设案例
  • 响水专业做网站的公司全面的苏州网站建设
  • 朱子网站建设开发公司装饰装修合同范本简单
  • 网站建设背景是什么高端商城网站建设
  • 网站举报入口做外贸 用国内空间做网站
  • 网站建设需要注意什么哪些做资源的教育类网站或公司
  • 赤峰网站建设建站公司龙华新区城市建设局网站
  • 东莞网站建设设计公司哪家好网站建设基于
  • 中企潍坊分公司网站wordpress进入
  • 电子商务网站建设主管的策划书宣城做网站公司
  • 微信对接网站惠州博罗建设局网站
  • 网站建设费怎么入分录手机微网站价
  • 辽宁品质网站建设价格实惠怎么做淘宝网站赚钱
  • 论坛网站怎么建设哈尔滨市学府头道街52号
  • 一家专做二手手机的网站叫什么手机wordpress主题怎么破解
  • 网站工作状态建设响应式网站设计
  • 厦门网站建设模拟wordpress招聘
  • 杭州哪家做网站广州网站优化渠道
  • 手表网站模版动态ip网站如何备案
  • 苏州网站建设 江苏千渡有哪个网站可以做ppt赚钱
  • 坪山网站建设策划网站企业制作
  • 网站建设外包 源代码wordpress node.js