当前位置: 首页 > news >正文

长沙教育类网站建设效果好的网站制作公司

长沙教育类网站建设,效果好的网站制作公司,心理 网站策划,app建站平台Debezium系列之:记录一次数据库某张表部分数据未同步到hive表的原因 一、背景二、查找数据丢失流程三、数据丢失原因四、解决方法一、背景 反馈mysql数据库中某张表的数据没有同步到hive中,现在需要排查定位下原因数据丢失一般常见需求排查的方向: 数据是否采集到hdfs上采集…

Debezium系列之:记录一次数据库某张表部分数据未同步到hive表的原因

  • 一、背景
  • 二、查找数据丢失流程
  • 三、数据丢失原因
  • 四、解决方法

一、背景

  • 反馈mysql数据库中某张表的数据没有同步到hive中,现在需要排查定位下原因

数据丢失一般常见需求排查的方向:

  • 数据是否采集到hdfs上
  • 采集到hdfs的话,进一步去确认数据是否是因为Spark任务资源不够导致没有加载到hive表中
  • 数据没有采集到的话,进一步定位分析没有采集到的原因,目前比较常见的是数据库原因导致、业务场景导致

二、查找数据丢失流程

  • 首先拿一条丢失数据的id,去确认这条数据是否采集到hdfs上,发现成功采集到了hdfs上
  • 观察hdfs文件生成时间,发现这张表的数据文件生成时间比较晚
    • 初步判断出现了数据库主从延迟或者采集延迟,但是spark任务会等到主从延迟或者采集延迟结束才会执行,这样应该能确保不会遗漏数据,进一步确认任务执行情况
    • 发现spark任务并没有出现延迟执行的情况,因此就出现了特殊情况
  • 再去查看数据库中其他表的采集情况,发现其他表的hdfs数据文件生成并没有延迟,这就说明只有这张数据丢失的表产生了采集延迟,进一步排查分析这张表
  • 发现丢失数据这张表近一天的hdfs文件生成时间是在同一时间点生成的,这表明近一天的数据是在同一时间采集到了hdfs
  • 查看这张数据丢失表数据情况,发现这张表在不同小时的数据工用了相同的gtid,这表明这些数据来自同一个事件
  • 进一步查看数据库其他表在不同小时gtid的情况,通过比较gtid,发现丢失数据这张表使用的gtid符合递增情况
  • 至此,基本找到数据没有加载到hive的原因
  • <
http://www.yayakq.cn/news/642353/

相关文章:

  • 软件网站是怎么做的吗asp网站怎么做404页面
  • 网站开发移动端网站大连建站公司
  • 宁夏成城建设集团网站河南建设政务网
  • 想找个人建网站智能音箱功能ui设计效果图
  • 三木做网站网站开发过程中遇到的问题及解决办法
  • 网站死链处理ueditor 插件 wordpress
  • 职业学院网站建设方案中国贸易信息网
  • 网站的规划与建设做好门户网站建设
  • 公司网站可以自己做吗网络营销战略推广规划
  • 曰本免费网站电子商务网站开发与应用论文
  • 股权分配系统建设网站建设厅网站修改密码
  • 如何查看网站是否被k网页前端制作招聘
  • 那些网站是做生鲜的西安做网站培训
  • 没有注册公司可以做网站吗一级a做爰片51网站
  • wordpress的加密算法合肥seo推广公司
  • 北京网站建设公司哪个最好成都网站建设哪些公司好
  • 北京平台网站建设方案艺术字体
  • 有网站后台衡阳网站开发有哪些公司
  • 如何给wordpress添加网站图标微网站怎么搭建
  • 做酱菜网站网站建设信用卡取消
  • 江宁区住房建设局网站wordpress关闭邮箱验证
  • 电工证如何做的相关网站能查到加工外包网
  • 免费不良正能量网站链接如何制作视频网站
  • 北京平台网站建设方案十大互联网装修平台
  • 建站超市WordPress快速入门视频
  • 湖南星大建设集团有限公司网站海外网络推广厂家
  • 如何自己开个网站平台苏州建设局网站首页
  • 网站怎么做首页比较好地产公司做网站维护写代码么6
  • 有哪些做微场景的没费网站山东省城乡建设厅官网
  • 苏州企业商务网站建设网页广告图