当前位置：首页 > news >正文

智慧景区网站服务建设图书网站建设实训总结

news 2025/11/9 3:26:17

智慧景区网站服务建设,图书网站建设实训总结,网站开发面试问题以及回答,网站怎样做域名绑定分析&回答根据我们业务对维表数据关联的时效性要求，有以下几种解决方案： 1、实时查询维表实时查询维表是指用户在Flink 的Map算子中直接访问外部数据库，比如用 MySQL 来进行关联，这种方式是同步方式，数据保证是…

分析&回答

根据我们业务对维表数据关联的时效性要求，有以下几种解决方案：

1、实时查询维表

实时查询维表是指用户在Flink 的Map算子中直接访问外部数据库，比如用 MySQL 来进行关联，这种方式是同步方式，数据保证是最新的。最后，为了保证连接及时关闭和释放，一定要在最后的 close 方式释放连接，否则会将 MySQL 的连接数打满导致任务失败。

一般我们在查询小数据量的维表情况下才使用这种方式，并且要妥善处理连接外部系统的线程，一般还会用到线程池。

2、预加载全量数据

当我们的系统启动时，就将维度表数据全部加载到内存中，然后数据在内存中进行关联，不需要直接访问外部数据库。一旦维表数据发生更新，Flink 任务是无法感知,可以采取定时拉取维表数据
对计算节点的内存消耗很高，所以不能适用于数量很大的维度表

适用于那些实时场景不是很高，维表数据较小的场景

3、LRU 缓存(最近最少使用的数据则被淘汰)

如果维表的数据比较大，无法一次性全部加载到内存中，可以使用LRU策略加载维表数据。

利用 Flink 的 RichAsyncFunction 读取 Hbase 的数据到缓存中，我们在关联维度表时先去查询缓存，如果缓存中不存在这条数据，就利用客户端去查询 Hbase，然后插入到缓存中

4、将维表消息广播出去

//1：初始化数据
DataSet<Integer> toBroadcast = env.fromElements(1, 2, 3)//2：广播数据
.withBroadcastSet(toBroadcast, "broadcastSetName");//3：获取数据
Collection<Integer> broadcastSet = getRuntimeContext().getBroadcastVariable("broadcastSetName");
复制代码

反思&扩展

flink海量数据高效去重

①基于状态后端
②基于HyperLogLog：不是精准的去重
③基于布隆过滤器（BloomFilter）
快速判断一个key是否存在于某容器，不存在就直接返回。
④基于BitMap
用一个bit位来标记某个元素对应的Value，而Key即是该元素。由于采用了Bit为单位来存储数据，因此可以大大节省存储空间。
⑤基于外部数据库
选择使用Redis或者HBase存储数据，我们只需要设计好存储的Key即可，不需要关心Flink任务重启造成的状态丢失问题