当前位置: 首页 > news >正文

孝感织云网站建设百度经验app下载

孝感织云网站建设,百度经验app下载,广州网站优化快速获取排名,自己做的网站能放到网上么Debezium系列之:记录一次数据库某张表部分数据未同步到hive表的原因 一、背景二、查找数据丢失流程三、数据丢失原因四、解决方法一、背景 反馈mysql数据库中某张表的数据没有同步到hive中,现在需要排查定位下原因数据丢失一般常见需求排查的方向: 数据是否采集到hdfs上采集…

Debezium系列之:记录一次数据库某张表部分数据未同步到hive表的原因

  • 一、背景
  • 二、查找数据丢失流程
  • 三、数据丢失原因
  • 四、解决方法

一、背景

  • 反馈mysql数据库中某张表的数据没有同步到hive中,现在需要排查定位下原因

数据丢失一般常见需求排查的方向:

  • 数据是否采集到hdfs上
  • 采集到hdfs的话,进一步去确认数据是否是因为Spark任务资源不够导致没有加载到hive表中
  • 数据没有采集到的话,进一步定位分析没有采集到的原因,目前比较常见的是数据库原因导致、业务场景导致

二、查找数据丢失流程

  • 首先拿一条丢失数据的id,去确认这条数据是否采集到hdfs上,发现成功采集到了hdfs上
  • 观察hdfs文件生成时间,发现这张表的数据文件生成时间比较晚
    • 初步判断出现了数据库主从延迟或者采集延迟,但是spark任务会等到主从延迟或者采集延迟结束才会执行,这样应该能确保不会遗漏数据,进一步确认任务执行情况
    • 发现spark任务并没有出现延迟执行的情况,因此就出现了特殊情况
  • 再去查看数据库中其他表的采集情况,发现其他表的hdfs数据文件生成并没有延迟,这就说明只有这张数据丢失的表产生了采集延迟,进一步排查分析这张表
  • 发现丢失数据这张表近一天的hdfs文件生成时间是在同一时间点生成的,这表明近一天的数据是在同一时间采集到了hdfs
  • 查看这张数据丢失表数据情况,发现这张表在不同小时的数据工用了相同的gtid,这表明这些数据来自同一个事件
  • 进一步查看数据库其他表在不同小时gtid的情况,通过比较gtid,发现丢失数据这张表使用的gtid符合递增情况
  • 至此,基本找到数据没有加载到hive的原因
  • <
http://www.yayakq.cn/news/443848/

相关文章:

  • 番禺网站建设wwiw商城的网站统计如何做
  • 企业网站建设的推广方式怎么去创立一个网站
  • wordpress网站搭建社区电商小程序模板包含哪些
  • 徐水住房建设局网站知末网官网
  • 株洲网站建设工作室大收录量的网站怎么做
  • 国外做糖网站杭州高端网站建设排名
  • 河北网络公司网站建设上海网站开发工程师招聘网
  • 忘记网站后台admin密码上海网站建设聚众网络
  • 在线做拓扑图的网站wordpress加标注插件
  • 建设银行网网站友情链接网
  • 网站兼容性怎么解决国外手机设计网站推荐
  • 论文 网站建设可行性网站地图怎么生成
  • 男生做污污的网站wordpress 博客主题 seo
  • 手机网站成功案例网站备案名称查询
  • 慈溪企业网站建设网站开发需要什么软件
  • 网站建设入门西峡县住房和城乡建设局网站
  • 临汾花果街网站建设电话交换机ip地址
  • 优秀的设计网站有哪些怎么创建网页活动
  • 海外网站加速垂直电商网站如何做内容运营
  • 建设域名网站整页型网站
  • 腾讯云学生机做网站河北建设厅注册中心网站
  • 网站模糊设计html编写新闻页面
  • 网站开发项目需求分析邯郸logo设计
  • 黄河道网站建设网站网页怎么做
  • 下列关于网站开发中网站上传wordpress固定链接静态化后打不开
  • 极客联盟网站建设公司怎么样中介网站制度建设
  • 长春网络建站中山好的网站建设公司
  • c 手机网模板网站软文营销ppt
  • 空白网站怎么做怎么把php网页源码下载
  • 2021能看的网站不要app贴吧福州公司网站建设一定要用主流程序php语言