当前位置: 首页 > news >正文

wordpress tax麒麟seo软件

wordpress tax,麒麟seo软件,如何做网站淘客推广,wordpress插件手动升级Debezium系列之:记录一次数据库某张表部分数据未同步到hive表的原因 一、背景二、查找数据丢失流程三、数据丢失原因四、解决方法一、背景 反馈mysql数据库中某张表的数据没有同步到hive中,现在需要排查定位下原因数据丢失一般常见需求排查的方向: 数据是否采集到hdfs上采集…

Debezium系列之:记录一次数据库某张表部分数据未同步到hive表的原因

  • 一、背景
  • 二、查找数据丢失流程
  • 三、数据丢失原因
  • 四、解决方法

一、背景

  • 反馈mysql数据库中某张表的数据没有同步到hive中,现在需要排查定位下原因

数据丢失一般常见需求排查的方向:

  • 数据是否采集到hdfs上
  • 采集到hdfs的话,进一步去确认数据是否是因为Spark任务资源不够导致没有加载到hive表中
  • 数据没有采集到的话,进一步定位分析没有采集到的原因,目前比较常见的是数据库原因导致、业务场景导致

二、查找数据丢失流程

  • 首先拿一条丢失数据的id,去确认这条数据是否采集到hdfs上,发现成功采集到了hdfs上
  • 观察hdfs文件生成时间,发现这张表的数据文件生成时间比较晚
    • 初步判断出现了数据库主从延迟或者采集延迟,但是spark任务会等到主从延迟或者采集延迟结束才会执行,这样应该能确保不会遗漏数据,进一步确认任务执行情况
    • 发现spark任务并没有出现延迟执行的情况,因此就出现了特殊情况
  • 再去查看数据库中其他表的采集情况,发现其他表的hdfs数据文件生成并没有延迟,这就说明只有这张数据丢失的表产生了采集延迟,进一步排查分析这张表
  • 发现丢失数据这张表近一天的hdfs文件生成时间是在同一时间点生成的,这表明近一天的数据是在同一时间采集到了hdfs
  • 查看这张数据丢失表数据情况,发现这张表在不同小时的数据工用了相同的gtid,这表明这些数据来自同一个事件
  • 进一步查看数据库其他表在不同小时gtid的情况,通过比较gtid,发现丢失数据这张表使用的gtid符合递增情况
  • 至此,基本找到数据没有加载到hive的原因
  • <
http://www.yayakq.cn/news/389306/

相关文章:

  • 云主机建多个网站友情链接交换的作用在于
  • 成都网站建设案例单招网国外 素材 网站
  • 网站开发流行吗网站开发工程师职业
  • 找不同 网站开发厦门网站建设培训费用
  • 东莞建设网站制作网络优化的工作流程
  • 网站的类型大全如东县文化馆网站建设
  • 深圳网站开发哪个公司好医院构建网络平台你怎么准备
  • seo网站关键词优化方式局部改造家装公司
  • 中国农村建设网站网站备案 域名证书
  • 沈阳网站开发培训济南市建设工程招标网官网
  • 长沙高新区建设局网站婚庆公司
  • 广元网站建设wordpress自媒体主题免费下载
  • 自己开公司需要什么流程seo的基本内容
  • 网站开发的方案个人免费开发网站
  • 如需手机网站建设专业网站托管的公司
  • 建站属于什么行业网站搭建制作免费
  • 动易网站后台管理功能网站建设 检查 通报
  • 福田专业网站建设公司哪家好上海响应式网站建设企业
  • 谷歌seo优化推广专业网站优化方案
  • 微信公众号登录wordpress网站html5 服装网站
  • 电子商务网站建设方案书wordpress 购物 app
  • 开发一个网站需要的技术北京网站建设华大
  • 专业营销团队外包公司网站优化的方法有哪些
  • 北京手机网站建设哪家好软件开发工程师怎么考
  • 郑州pc网站开发手机无法访问wordpress
  • 番禺网站建设设计丽水市莲都建设分局网站
  • 创业优化网站性能
  • asp.net mvc6电商网站开发实践wordpress 摄影工作室主题
  • 那些网站使用vue做的做的页面好看的网站
  • 抚顺地区网站建设河北省建设厅网站老版