当前位置: 首页 > news >正文

营销型网站建设 合肥app产品网站建设

营销型网站建设 合肥,app产品网站建设,阳江网络问政平台电话,萧山城市建设网站前言 随着大数据技术的普及,数据仓库的部署方式也在发生着改变,之前在部署数据仓库项目时,首先想到的是选择国外哪家公司的产品,比如:数据存储会从Oracle、SqlServer中或者Mysql中选择,ETL工具会从Informa…

前言

随着大数据技术的普及,数据仓库的部署方式也在发生着改变,之前在部署数据仓库项目时,首先想到的是选择国外哪家公司的产品,比如:数据存储会从Oracle、SqlServer中或者Mysql中选择,ETL工具会从Informatica、DataStage或者Kettle中选择,BI报表工具会从IBM cognos、Sap Bo或者帆软中选择,基本上使用的产品组合都类似,但随着数据量的激增,之前的部署方式已经越来越不能满足业务场景,例如:不同格式的数据存储,传出的数据库无法存储,而且随着数量的增多,数据库的响应速度就会下降,并且数据大都是T+1的,往往从业务需求的提交到BI报表开发都需要一段时间,等BI报表开发后,数据的时效性大大降低,无法为业务的决策及时性提供帮助,后来随着hadoop的流行,数据仓库慢慢的就演变为以hadoop为基础存储的大数据仓库,并解决了传统数仓无法承载激增数据量的问题,并且随着计算引擎的迭代更新,现在也能实现数据的实时性和事务性,本篇就以新起之秀的数据存储方式来展开介绍。


提示:以下案例仅供参考

一、paimon是什么?

paimon是一种基于LSM形式的数据湖存储格式,与hudi、iceberg定位相同,都是一种基于对hdfs文件存储管理的技术,flink与hudi和iceberg都有做过集成,但hudi和iceberg相当于spark的功能更为完善,这些数据湖格式也都更偏向于批处理,而相对于flink来说,提供的功能相较于spark来说,没有那么完善,虽然flink针对这些方面有做过努力尝试,但结果都不太理想,于是,flink基于前者的有点,自己创造一种数据湖存储格式,其基于flink table store的基础,在结合其他开源数据湖格式的特点加以改进,于是一种新的数据湖格式paimon就诞生了,本人也是最近才开始尝试这种新的数据湖格式的一些功能,下面是基于sql api编写的一个简单的例子。

二、Fink SQL API方式编程

1.创建kafka流标

我这边是以yarn-session的方式执行的,所以首先启动的session,cd $FLINK_HOME,执行bin/yarn-session -d -nm test创建一个名称为test的session会话,随后执行bin/sql-client -s yarn-session进入sql客户端,直接使用默认的catalog和database,执行下面的DDL语句,就会在default_catalog.default_database下创建一个kafka_table表

create temporary table `kafka_table`(
`distinct_id` string,
`login_id` string,
`anonymous_id` string,
`type` string,
`event` string,
`_track_id` string,
`time` string,
`_flush_time` string,
`device_id` string,
`project_id` string,
`map_id` string,
`user_id` string,
`recv_time` string) with('connector'='kafka','topic'='event_topic','properties.group.id'='testgroup','properties.bootstrap.servers'='cdp1:9092','scan.startup.mode'='latest-offset','format'='json');

2.创建paimon append表

接着执行如下DDL语句

CREATE TABLE paimon_append (
`distinct_id` string,
`login_id` string,
`anonymous_id` string,
`type` string,
`event` string,
`_track_id` string,
`time` string,
`_flush_time` string,
`device_id` string,
`project_id` string,
`map_id` string,
`user_id` string,
`recv_time` string
) PARTITIONED BY (`distinct_id`)
WITH (
'bucket' = '-1'
);

3.数据导入

SET ‘execution.checkpointing.interval’ = ‘1 min’;
INSERT INTO paimon_append SELECT * FROM kafka_table;


总结

以上就是一个消费kafka主题数据,并每隔一定的间接直接,写入到paimon表中,paimon会对小文件数据量达到一定程度后,对文件进行压缩合并,并且paimon也支持merge into、update、以及schema evolution等功能,由于时间有限,这里就不仔细展开了,有兴趣的朋友,可以亲自尝试下,版本目标已经更新到0.7,为flink的生态状态又增加了一环,目前flink cdc 、paimon的加持、能很好的解决lamda架构数据不一致,以及kappa架构数据追溯的问题,相信随着后续版本的迭代更多强大的功能也会推出。

http://www.yayakq.cn/news/711578/

相关文章:

  • 无锡市滨湖区建设局网站万网 填写网站备案信息
  • 山西网站建设多少钱装修全包报价明细表2021
  • 湖北建设人力资源网站wordpress指定分类
  • 如何找做网站的公司seo推广公司哪家好
  • 用表格做网站教程恐龙网站建设
  • 新公司需要做网站效果图
  • 岳阳市交通建设投资公司门户网站怎么线上推广自己的产品
  • 石龙镇网站仿做男的做直播哪个网站好
  • 房产网站开发方案15个国内互动网站设计欣赏
  • 网站页面架构学院网站建设的特色
  • 找做网站的wordpress 制作portfolio
  • 网站备案需要准备什么材料做网站一般图片多大
  • 用dw做网站怎么上传到网站上网页界面设计首页
  • 百事可乐网站建设优缺点网站资讯板块的搭建
  • 江西新农村建设权威网站旺道智能seo系统
  • 扫二维码进入个人的购物网站如何做关键词排名优化怎么做
  • 网站备案字号自适应网站怎么做m站
  • 焦作网站开发网站网页设计公司
  • 山西路桥建设集团有限公司网站石家庄外贸网站制作
  • 做化工贸易要用那些网站推广建设读书网站的意义
  • 做自动采集电影网站有什么处罚龙华和龙岗哪个繁华
  • 商务网站开发实验报告网站数据比较
  • 四川网站备案咨询网什么程序做的网站没有index页面
  • 怎么利用360域名做网站阿里网站建设
  • 怎么做个手机版的网站毕业设计代做网站都有哪些
  • 网站建设一点通广州市又恢复48小时核酸检测
  • 广东省住房和建设网站聊城建设工程质量信息网站
  • div网站模板关键词优化 搜索引擎
  • 网站后台首页阿里云Windows建立WordPress
  • 设计师网站赚钱网站建设交印花税嘛