当前位置: 首页 > news >正文

浙江常升建设有限公司网站德国室内设计联盟

浙江常升建设有限公司网站,德国室内设计联盟,柯林wap建站,自己建设自己的网站Flink 物理分区算子(Physical Partitioning) 在Flink中,常见的物理分区策略有:随机分配(Random)、轮询分配(Round-Robin)、重缩放(Rescale)和广播(Broadcast)。 接下来,我们通过源码和Demo分别了解每种物理分区算子的作用和区别。 (1) 随机…

Flink 物理分区算子(Physical Partitioning)

在Flink中,常见的物理分区策略有:随机分配(Random)、轮询分配(Round-Robin)、重缩放(Rescale)和广播(Broadcast)。
接下来,我们通过源码和Demo分别了解每种物理分区算子的作用和区别。

(1) 随机分区(shuffle)
最简单的重分区方式就是直接“洗牌”。通过调用 DataStream 的.shuffle()方法,将数据随机地分配到下游算子的并行任务中去。
随机分区服从均匀分布(uniform distribution),所以可以把流中的数据随机打乱,均匀地传递到下游任务分区。因为是完全随机的,所以对于同样的输入数据, 每次执行得到的结果也不会相同。

在这里插入图片描述

在这里插入图片描述
经过随机分区之后,得到的依然是一个 DataStream。
我们可以做个简单测试:将数据读入之后直接打印到控制台,将输出的并行度设置为 2,
中间经历一次 shuffle。执行多次,观察结果是否相同。

package com.flink.DataStream.PhysicalPartitioning;import org.apache.flink.streaming.api.datastream.DataStreamSource;
import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment;/*** flink 常用物理分区算子-shuffle:随机分区-洗牌*/
public class flinkShuffle {public static void main(String[] args) throws Exception {StreamExecutionEnvironment streamExecutionEnvironment = StreamExecutionEnvironment.getExecutionEnvironment();streamExecutionEnvironment.setParallelism(2);DataStreamSource<String> socketDataStreamSource = streamExecutionEnvironment.socketTextStream("localhost", 8888);// TODO 随机分区socketDataStreamSource.shuffle().print();// TODO 轮询分区//socketDataStreamSource.rebalance().print();// TODO 重缩放分区//socketDataStreamSource.rescale().print();// TODO 广播//socketDataStreamSource.broadcast().print();// TODO 全局分区//socketDataStreamSource.global().print();streamExecutionEnvironment.execute();}
}

查看执行结果

  2> 12> 21> 31> 11> 22> 3

在上述实验中,我们设置全局env的并行度为2,尝试执行2次job,发现2次执行的结果不一致,因为shuffle的完全随机性,将输入流分配到不同的分区中,且每次分配可能不一样。

(2) 轮询分区(Round-Robin)
轮询,简单来说就是“发牌”,按照先后顺序将数据做依次分发。通过调用 DataStream的.rebalance()方法,就可以实现轮询重分区。
rebalance 使用的是 Round-Robin 负载均衡算法,可以将输入流数据平均分配到下游的并行任务中去。

stream.reblance()
设置全局env的并行度为2,尝试执行3次job,发现3次执行的结果一致
1> 1
2> 21> 1
2> 21> 1
2> 21> 1
2> 2

(3) 重缩放分区(rescale)
重缩放分区和轮询分区非常相似。当调用 rescale()方法时,其实底层也是使用 Round-Robin 算法进行轮询,但是只会将数据轮询发送到下游并行任务的一部分中。
rescale 的做法是分成小团体,发牌人只给自己团体内的所有人轮流发牌。

stream.rescale()
设置全局env的并行度为2,尝试执行3次job,发现3次执行的结果一致
1> 1
2> 21> 1
2> 21> 1
2> 21> 1
2> 2

(4) 广播(broadcast)
这种方式其实不应该叫做“重分区”,因为经过广播之后,数据会在不同的分区都保留一份,可能进行重复处理。
可以通过调用 DataStream 的 broadcast()方法,将输入数据复制并发送到下游算子的所有并行任务中去。

stream.broadcast()
将输入数据复制并发送到下游算子的所有并行任务中去
2> 1
1> 12> 2
1> 2

(5) 全局分区(global)
全局分区也是一种特殊的分区方式。这种做法非常极端,通过调用.global()方法,会将所有的输入流数据都发送到下游算子的第一个并行子任务中去。
这就相当于强行让下游任务并行度变成了1,所以使用这个操作需要非常谨慎,可能对程序造成很大的压力。

stream.global()
将所有的输入流数据都发送到下游算子的第一个并行子任务中去
强行让下游任务并行度变成了1,即使你并行度设置为了2
1> 1
1> 21> 1
1> 21> 1
1> 2
http://www.yayakq.cn/news/813695/

相关文章:

  • 平凉城乡建设局网站seo深度优化服务
  • 成都网站制作工业外观设计
  • 南宁网站建设nnxun公司一定建设网站吗
  • 网站建设之网页制作语言基础阿里云 建网站
  • 网站建设费用报价单想做个网站都需要什么
  • 迅睿cms建站公司注册核名
  • 找网站公司做网站的陷阱万网有跟企业做网站吗
  • 做app的网站有哪些功能吗php网站开发工具
  • zencart网站管理 1.5线上平台建设计划书怎么写
  • 制作公司网站的规划上海嘉定区网站建设公司
  • wordpress 搜索乱码青岛网站关键字优化
  • 网站制作公司怎么运营做网站sqlserver排序
  • 江门网站建设易搜互联佛山网站建设服务器
  • 怎么做网站注册推广300m空间够用吗 wordpress
  • 建设银行官方网站购房贷款利率如何让网站快速收录
  • 宁波住房建设局网站福州网站模板建站
  • 公司网站一般用什么软件做重庆网站设计排名
  • 企业模板网站怎么做航空网站建设
  • 在手机上开发app短视频关键词seo优化
  • 山东德州网站建设wordpress一键生成app
  • 河南省网站备案英语培训网站建设
  • 网站集群建设必要性济南建设信息网站
  • 门户做网站微网站怎样做
  • 北京专业网站设计推荐个人网页设计教程大全
  • 怎样修改网站模板科技公司的网站
  • 电商网站前端页面响应式设计wordpress新浪图
  • 网站建设需准备什么软件怎么看网站什么时候做的
  • html5 微网站 源码获取网站访问量
  • 网站资讯板块的搭建网站建设公司项目介绍
  • 用照片做模板下载网站制作高端app开发公司