监控告警

总述:监控告警简介

为了避免重复工作,平台需要提供告警接收人的配置管理功能,并支持多种推送渠道。集中告警平台(Alert),面向运维中最关键的日常值班与故障处理场景,对接集中监控平台,将不同类别的监控告警数据标准化,结合精准定位的规则和局部探索的算法,实现跨平台集中告警管理、可视、分析、处置与知识沉淀。

统一管理企业IT告警,及时精准地通知管理员,并自动整合资产/监控/日志等平台数据协助高效处理故障

  • 统一管理:集成各种告警源,并进行告警降噪和自动处理
  • 整合数据:告警展示整合资产/监控/日志等平台数据
  • 精准通知:支持设置邮件、短信、微信、电话等通知方式

入门篇:主机监控告警配置

在操作系统监控中,关注的主要是操作系统的性能和稳定性,以及当出现问题时进行及时的问题诊断和排查。下面是一些监控场景

操作系统监控的场景

  1. 性能监控:监视操作系统性能以确保可以正常运行应用程序和服务。
  2. 故障诊断:当用户或应用程序报告问题时,可以迅速确定问题的根源。
  3. 容量规划:通过长期收集和分析性能数据,可以预测未来设备升级或加强的可能需求。

入门篇:数据库/中间件监控告警配置

需要的数据库/中间件的实例已经新建完成,并且与对应主机已经建立了关联,现需要对该实例进行监控采集和监控策略的设置。(这里以oracle为例进行介绍。)

入门篇:网站监控告警配置

随着互联网的发展,网站已成为企业和组织重要的业务入口,因此网站的稳定性、可用性和性能变得至关重要。网站拨测通过定期监测网站的响应时间、可达性、页面加载速度等关键指标,帮助企业发现和诊断性能问题、故障、网络延迟等,从而及时采取相应措施提升用户体验和商业竞争力。

入门篇:主机进程监控告警配置

监控特定主机上运行的进程可以帮助系统管理员理解系统的健康状况,发现可能的问题,并做出响应的调整

  1. 性能监控:跟踪特定进程的运行状况,以确定其是否在运行过程中出现瓶颈或资源浪费。
  2. 问题诊断:如果系统出现性能问题或者问题时,通过进程监控可以帮助找出负责的进程。

入门篇:K8S监控告警配置

需要将K8S集群中的pod/node纳入监控中,并配置相应的监控策略。

入门篇:监控仪表盘的配置

监控仪表盘提供了一个集中、可视化和实时的监控视图,帮助管理员迅速获取关键指标和系统状态的全貌,可以进行快捷简单的监控视图配置,支持“仪表盘”、“折线图”、“柱状图”、“饼形图”、“单值”等图表,可展示多项资产监控信息。在现代运维环境中,实时监控和快速响应是确保系统稳定运行的关键。然而,面对复杂的监控数据和告警信息,运维人员往往需要在页面之间频繁切换,导致效率低下。对象仪表盘将告警处理需要用到的关键监控数据、资产数据、日志数据等信息配置为对象仪表盘,并支持一键跳转查看,方便进行运维分析和判断。

入门篇:网络设备监控告警配置

需要将网络设备纳入监控中,并配置相应的监控策略,前提是已经将网络设备手动/自动发现纳入到资产中了

入门篇:云平台监控告警配置(腾讯云)

需要将云平台纳入监控数据采集中,包括VMware、腾讯云和阿里云等,并设置对应监控策略。

入门篇:监控告警移动端的使用

WeOps提供监控告警的移动端,满足多种场景的告警信息查看处理、监控信息查看的需求,包括告警、仪表盘、监控三个大模块。

入门篇:自定义拓扑图的配置和使用

拓扑图支持对需要展示的资产对象进行自定义拓扑,绘制应用、资产等对象的关联关系,并展示告警信息,呈现告警关联链路。

进阶篇:告警配置-抑制策略

告警可以将来自多个告警源的大量原始告警事件进行收敛降噪,设定合适的告警抑制策略和屏蔽策略,就可以让运维人员专注于有效告警事件。原始告警被压缩为少量有效告警之后,WeOps支持对告警事件自动处理,通过配置相应策略,告警事件可以直接实现自动关闭、故障自愈、自动转工单或者自动分派。

进阶篇:告警配置-屏蔽策略

进阶篇:告警配置-处理策略

进阶篇:告警配置-分派策略

进阶篇:告警配置-通知配置

进阶篇:监控指标配置

 在指标管理页面,用户可以对已有的指标进行管理,如调整指标名称、指标分组、指标名称等。用户也可以根据业务需要创建新的监控模版,例如自定义脚本模版、自定义SNMP模版,以满足企业各类应用和IT组件的监控。

进阶篇:自定义监控插件

进阶篇:网络设备自定义插件

进阶篇:自定义SQL监控插件

暂无评论

发送评论 编辑评论


				
上一篇
下一篇