当前位置: 首页 > news >正文

顶呱呱做网站吗金蝶直播

顶呱呱做网站吗,金蝶直播,布谷海南网站建设,seo快速排名工具作者:UC 浏览器后端工程师,梁若羽 传统 ELK 方案 众所周知,ELK 中的 E 指的是 ElasticSearch,L 指的是 Logstash,K 指的是 Kibana。Logstash 是功能强大的数据处理管道,提供了复杂的数据转换、过滤和丰富…

作者:UC 浏览器后端工程师,梁若羽

传统 ELK 方案

众所周知,ELK 中的 E 指的是 ElasticSearch,L 指的是 Logstash,K 指的是 Kibana。Logstash 是功能强大的数据处理管道,提供了复杂的数据转换、过滤和丰富的数据输入输出支持。Filebeat 是师出同门的轻量级日志文件收集器,在处理大量日志文件、需要低资源消耗时,它们通常被一起使用。其经典使用场景如下图,Filebeat 将日志文件从各个服务器发送到 Kafka 解耦,然后 Logstash 消费日志数据,并且对数据进行处理,最终传输到 ElasticSearch,由 Kibana 负责可视化。这种架构兼顾了效率和功能。

iLogtail 的优势

请注意,iLogtail 也是轻量级、高性能的数据采集工具,也有不俗的处理能力,重要的是,压测显示,iLogtail 性能比 Filebeat 领先太多。究其原理,Polling + inotify 机制可能是 iLogtail 性能如此优秀的最重要原因。这方面,社区已经有详尽的文档,这里就不深入了。

让我们关注性能测试结果,实际的业务场景,比较贴近下面表格第四行“容器文件采集多配置”一项,可以看到,同流量输入下,随着采集配置增加,filebeat CPU 增加量是 iLogtail CPU 增加量的两倍。其它场景,iLogtail 在 CPU 方面的优势也是遥遥领先,有五倍的、有十倍的,具体数值可以参考下面的链接。

《容器场景 iLogtail 与 Filebeat 性能对比测试》:

https://ilogtail.gitbook.io/ilogtail-docs/benchmark/performance-compare-with-filebeat#dui-bi-zong-jie

《Logtail 技术分享(一) : Polling + Inotify 组合下的日志保序采集方案》:

https://zhuanlan.zhihu.com/p/29303600

iLogtail 替换 Logstash 可行性分析(What to do)

那么,iLogtail 能够在生产环境中替换 Filebeat 和 Logstash,直接采集日志到 ElasticSearch 呢?

如果是过去,答案是不能。主要有四个方面的原因。

  1. 插件性能。
  2. 配置管理。
  3. 容灾。
  4. 自身状态监控。

现在逐一分析一下。

插件性能

虽然 iLogtail 核心部分性能突出,但是它原先的 elasticsearch flusher 插件存在短板。

配置管理

  • 我们生产环境有很多采集实例,缺少一个前端页面,供管理员白屏化维护采集配置。因为 Config Server 已经提供了 API 接口,所以这也是最容易实现的。
  • iLogtail Agent 缺少生命周期管理,当 Agent 进程退出后,该 Agent 对应的心跳信息长期保留在 Config Server 数据库中,而且没有存活状态,即使是想清理也不知道应该清理哪些记录。
  • 我们上千个应用实例是分组部署的,每个组的采集配置可能不一样,所以 Config Server 也要支持按照标签,对各个 Agent 进行分组管理。

容灾

生产环境所有节点都要求多实例部署,Config Server 也一样,而现在的 leveldb 存储方案使得它是有状态的,需要替换为 MySQL 等具有成熟容灾方案的关系数据库。

自身状态监控

在 Agent 运行过程中,需要以合适的方式上报 CPU 使用率、内存占用等信息给 Config Server,方便管理员掌握其负载状况。

目标:iLogtail 替换 Logstash(How to do)

除去 Config Server 前端页面,针对以上四个方面留存的五大问题,我们在过去一段时间做了全面优化提升,最终实现了目标。下面,参考 OKR 工作法,介绍这五大问题的解决方案。当然,留意到现在社区开始讨论 Config Server 的通信协议修改,我们的方案是在前一段时间的基础上实现的,可能与最终方案有所不同。

KR1:解决 elasticsearch flusher 性能瓶颈

方案分为三部分,分别如下:

  • 使用 esapi 的 BulkRequest 接口批量向后端发送日志数据。批量之后,一个请求可以发送几百上千条日志,请求次数直接降低两三个数量级。
  • Agent 在 flush 阶段之前,有聚合的过程,会自动生成一个随机的 pack id,以它作为 routing 参数,把同一批次的日志数据路由到同一个分片上,以免 ElasticSearch 按照自动生成的文档 ID 作为分片字段,减少不必要的计算和 IO 操作,降低负载,提高吞吐量。
  • 启用 go routine 池,并发向后端发送日志数据。

KR2:解决 Agent 生命周期管理与存活状态判断

方案参考 HAProxy 的实现,尽量避免网络抖动带来的影响。

  • Config Server 只有收到连续指定次数的心跳,才会认为该 Agent 在线。
  • 只有连续指定次数的周期内都没有收到心跳,才会认为该 Agent 离线。
  • Agent 离线达到一定时长后,即可自动清理该 Agent 的残余心跳信息。

KR3:解决 Agent 按标签分组

这个方案需要修改一下通信协议。原协议的相关部分如下:

message AgentGroupTag {string name = 1;string value = 2;
}message AgentGroup {string group_name = 1;...repeated AgentGroupTag tags = 3;
}message Agent {string agent_id = 1;...repeated string tags = 4;...
}

可以看到,iLogtail 的 Agent Group 和 Agent 均已经带有标签属性(tags),但两者的数据结构并不一致,Agent Group 是 Name-Value 数组,Agent 是字符串数组。

方案把它们都统一为 Name-Value 数组,并在 Agent Group 加上运算符,表达两种语义:“与”、“或”。这样,Agent Group 就拥有一个由标签和运算符组成的“表达式”,如果该表达式能够和 Agent 持有的标签匹配上,那么即可认为该 Agent 属于该分组。例如:

  • 如果某个 Agent Group 的标签定义为 cluster: A 和 cluster: B,运算符定义为“或”,那么,所有持有 cluster: A 标签或者 cluster: B 标签其中之一的 Agent 都属于该分组。
  • 如果某个 Agent Group 的标签定义为 cluster: A 和 group: B,运算符定义为“与”,那么,所有同时持有 cluster: A 标签和 group: B 标签的 Agent 才属于该分组。

KR4:解决 Config Server 容灾

Config Server 已经提供一套 Database 存储接口,只要实现了该接口的全部方法,即完成了持久化,leveldb 存储方案给了一个很好的示范。

type Database interface {Connect() errorGetMode() string // store modeClose() errorGet(table string, entityKey string) (interface{}, error)Add(table string, entityKey string, entity interface{}) errorUpdate(table string, entityKey string, entity interface{}) errorHas(table string, entityKey string) (bool, error)Delete(table string, entityKey string) errorGetAll(table string) ([ ]interface{}, error)GetWithField(table string, pairs ...interface{}) ([ ]interface{}, error)Count(table string) (int, error)WriteBatch(batch *Batch) error
}

于是,我们依次实现该接口的所有方法,每个方法,基本都是通过反射获得表的实体和主键,再调用 gorm 的 Create、Save、Delete、Count、Find 等方法,即完成了 gorm 的 CRUD 操作,也就是实现了持久化到 MySQL、Postgre、Sqlite、SQLServer,也实现了从数据库读取数据。

这里有一个细节,Database 接口定义了 WriteBatch 方法,本意是批量处理心跳请求,提高数据库写入的能力。如果是 MySQL,与之相应的处理办法是数据库事务。但是,在实践过程中,DBA 发现在事务中更新一批心跳数据,事务可能会变得过大,非常容易导致数据库死锁,放弃使用 WriteBatch 就恢复正常。由于心跳间隔默认 10 秒,即使一个心跳请求进行一次写入操作,在 Agent 数量上千个的规模下,那么,TPS 每秒也就上百,数据库压力并不算特别大。

KR5:iLogtail 自身状态监控

该方案可能最简单直接,在心跳请求的 extras 字段中上报 Agent 进程的 CPU 使用率和内存占用字节数。Config Server 最终会把这些信息保存到 MySQL 数据库,另外再安排一个定时任务做快照,多个快照按照时间序列形成趋势,再进行可视化分析,协助定位解决问题。

日志查询服务

上面解决了怎样把大量日志存储到 ElasticSearch 中,用户需求解决了一半。剩下一半,就是对用户提供查询服务,还需要一个界面。

理论上,Kibana 可以提供数据展示功能,但它主要面向管理员,而且是通用设计,不是面向日志服务,对于一些企业核心需求,例如:内部系统集成、多用户角色权限控制、日志库配置、多 ElasticSearch 集群管理,均无能为力,只适合在小团队、单集群使用。因此,要实现公司级别的统一界面,还需要自研一个最简版日志查询平台,才能与日志采集形成一个大的闭环,提供一个完整的解决方案。不过这一部分,基本上和 iLogtail 关系不大,暂且略过。

日志采集实践总结

逐一解决 iLogtail 替换 Logstash 的五大问题后,我们可以从容地说,iLogtail 在配置管理、采集、反馈等方面初步形成了一个小的闭环,无需过多依赖于其它工具,在技术上,是 Filebeat、Logstash 的最佳替代者。

我们使用的 iLogtail 是基于开源版 1.8.0 开发的,从 2024 年 2 月底正式上线至今,已稳定运行超过三个月,高峰期每小时采集日志超过百亿条,数据量是 TB 级别,服务业务应用 pod 上千个,ElasticSearch 存储节点数量上百个。

目前这些代码变更,在部分实现细节上,涉及到通信协议的修改,需要继续与社区负责人沟通,希望不久之后部分变更能够合并到 iLogtail 的主干分支。

以上五大问题,除了第一个 elasticsearch flusher,其它四个都与 Config Server 息息相关。因此,我曾经在社区钉钉群里说过:“Config Server 是皇冠上的明珠”,意思是它具有很高的用户价值,希望社区同学在这方面共同努力。

iLogtail 两周年系列宣传文章:

iLogtail 开源两周年:感恩遇见,畅想未来

iLogtail 进化论:重塑可观测采集的技术边界

http://www.yayakq.cn/news/485399/

相关文章:

  • 网站建设管理ppt建站网站模板
  • 做网咖的网站地方商城网站
  • 网站关键字及说明南宁网站建设报价
  • 网站建设与管理是什么海口手机网站建设
  • 网站建设课程h5网站开发模板
  • 优秀网站推荐金溪县建设局网站
  • 中山建网站多少钱南京seo优化
  • 手机如何创建个人网站建站公司建的网站能改动吗
  • 帮网站做代理简述织梦网站上传步骤
  • 为何要网站优化河源建设用地竞拍网站
  • 行业做门户网站挣钱吗太原百度seo排名软件
  • 怎么做网站程序企业建站公司排名为什么不好做
  • 网站开发技术课程设计说明书网站图片广告代码
  • 企业做网站有哪些好处开发定制软件公司
  • 马鞍山市网站建设中小学网站建设排行2017
  • 建设网站的运行费包括什么wordpress模板QQ评论
  • 婚礼婚庆网站建设需求分析营销策划公司 品牌策划公司
  • 天津企业网站专业订制wordpress用户密码 破解
  • 贵州两学一做教育网站dede减肥网站模板
  • 芜湖企业做网站网页设计是做什么
  • 佛山高端网站开发公司wordpress 中文官网
  • 用凡科做的手机网站版高端网站建设推来客网络
  • jsp ajax网站开发典型实例 pdf百度图片识别在线识图
  • 新网站上线怎么做seo学编程的步骤
  • 长沙做一个网站要多少钱品牌建设的阶段和步骤是什么
  • 导航网址网站怎么做wordpress被改密码
  • 网站建设咋打开自己网站主页网址设计学校网站模板免费下载
  • 门户网站标题居中加大软件外包公司容易进吗
  • 备案时的网站名称国外网站建设平台
  • 男做女爱网站正规的营销型网站建设