WeOps-X 监控功能介绍文档

快速入门

如何快速掌握WeOps-X监控平台的使用

背景说明

面向运维中最关键的日常值班与故障处理场景,实现跨平台集中告警管理、可视、分析、处置与知识沉淀。快速入门掌握资产指标查询,精准获取资产当前状态;设置监控报警策略,实现自动监控。

配置资产信息

选择要配置的资产

本平台已内置数据库、中间件、操作系统网络设备等资产分组,选择分组下的插件,对公司内要监控的资产进行配置。在“集成-集成”中支持对指标分组、分组内部指标进行排序。

配置资产信息支持手动配置和自动配置,推荐使用自动配置,完成信息录入后自动完成配置。

资产指标编制

针对各项资产,本平台已提前内置好需要重点关注的指标信息。如若觉得指标过多可以自行删除;觉得不够的情况下支持自定义指标:添加指标所属分组后,添加要监控的指标,设计要监控的数据内容,填写查询语句等。

快速搜索查询指标

在左侧栏选择要查看的资产后,在主视图设置过滤器条件快速精确查询资产指标情况,在右上角选择查看什么时间段内的指标数据。

查看资产指标情况

在视图功能中,选择具体资产后可进行“视图”——侧边抽屉快速查看指标折线图;“详情”——跳转到资产图表详情页查看。两种方式都支持选择时间跨度、选择具体指标。

资产监控告警

告警策略设定

策略设定支持自定义以及从模板新建。

  • 自定义:在“策略”tab下选择“添加”后进入策略配置页,完成基本信息、定义指标(策略针对什么指标、采用什么监控方法、监控频率)、设置告警条件(告警阈值、告警恢复条件)、配置通知(此告警是否发送通知)
  • 策略模板:在“事件”——“模板”下选择资产,本平台针对各资产重要指标内置告警策略模板,直接点击进入,可选择进一步编辑或直接应用该策略。

仪表盘——告警事件监管

  • 默认情况下展示活跃告警的总分步情况,不区分资产;
  • 支持在左侧过滤项中对告警级别、告警状态、资产进行精确定位查看告警状况;
  • 在告警事件详情中可查看告警具体情况,在详情页中可直接看到相关指标数据变化,支持手动关闭告警。

功能介绍

集成模块

资产信息配置——添加要监控的资产

  • 本平台已内置数据库、中间件、操作系统、网络设备、K8S、硬件设备等资产分组,选择分组下的插件,可对公司内要监控的资产进行配置。
  • 在“集成-集成”的左侧边栏中,支持对指标分组、分组内部指标进行排序,调整成功后此排序会同步到所有模块。
  • 配置资产信息支持手动配置和自动配置
    • 自动配置(推荐使用):录入基本信息,设置采集频率,选择节点并填入服务器地址,提交配置后可自动完成配置。
    • 手动配置:录入基本信息和密码后,生成配置,需要到监控对象上粘贴配置。

自动配置

手动配置

资产指标编制

  • 针对各项资产,本平台提供内置好的需要重点关注的指标信息;
  • 支持对已有指标的编辑、删除;
  • 支持自定义指标:添加指标所属分组后,添加要监控的指标,设计要监控的数据内容,填写查询语句等。
  • 编辑指标字段说明:
    • ID:在数据库中储存、标识该指标,采用下划线界开单词的命名格式;
    • 名称:对该指标的定义命名;
    • 组:为该指标分组,如:监控内存已使用量、剩余量等指标分配在内存组别下。建议先行检查是否存在要分配的组别,不存在的情况下,先添加组;
    • 唯一ID:用于区分识别各设备的字段,如:instance_id。可同时有多个;
    • 维度:用于区分同一资产内的不同监控对象,比如:交换器的各接口操作状态指标,用ifDescr作为维度。可同时有多个维度,非必填;
    • 数据类型:数据(数量、百分比、KB等等)或枚举型(状态说明,如:1=正常,2=不不正常);
    • 单位:监控指标的单位,可参考以下单位表
单位类型名称单位名称单位ID换算展示
Miscnonenone
shortshort1000[”, ‘ K’, ‘ Mil’, ‘ Bil’, ‘ Tri’, ‘ Quadr’, ‘ Quint’, ‘ Sext’, ‘ Sept’]
percent (0-100)percent%
percent (0.0-1.0)percentunit%
Data (IEC)bitsbitsb
bytesbytesB
kibibyteskibibytes1024 bytesKiB
mebibytesmebibytes1024 kibibytesMiB
gibibytesgibibytes1024 mebibytesGiB
tebibytestebibytes1024 gibibytesTiB
pebibytespebibytes1024 tebibytesPiB
Data (Metric)bitsdecbitsb
bytesdecbytesB
kibibytesdeckbytes1000 decbytesKB
mebibytesdecmbytes1000 deckbytesMB
gibibytesdecgbytes1000 decmbytesGB
tebibytesdectbytes1000 decgbytesTB
pebibytesdecpbytes1000 dectbytesPB
Data Ratepackets/secppsp/s
bits/secbpsb/s
bytes/minbytes/minB/min
bytes/secBpsB/s
kilobytes/secKBsKB/s
kilobits/secKbitsKb/s
megabytes/secMBsMB/s
megabits/secMbitsMb/s
gigabytes/secGBsGB/s
gigabits/secGbitsGb/s
terabytes/secTBsTB/s
terabits/secTbitsTb/s
petabytes/secPBsPB/s
petabits/secPbitsPb/s
TemperatureCelsius (°C)celsius°C
Fahrenheit (°F)fahrenheit°F
Kelvin (K)kelvinK
TimeHertz (1/s)hertz
nanoseconds (ns)nsns
microseconds (µs)µsµs
milliseconds (ms)msms
centisecond (cs)cscs
seconds (s)ss
minutes (m)mmin
hours (h)hhour
days (d)dday
Throughputcounts/sec (cps)cpscps
ops/sec (ops)opsops
requests/sec (rps)reqpsreqps
reads/sec (rps)rpsrps
writes/sec (wps)wpswps
I/O ops/sec (iops)iopsiops
counts/min (cpm)cpmcpm
ops/min (opm)opmopm
reads/min (rpm)rpmrpm
writes/min (wpm)wpmwpm
OtherWatts (W)wattsW
Volts (V)voltsV

资产查看

  • 在“集成”模块内的“资产”tab,可以查看各资产类型下处于可监控状态的资产实体;
  • 在右侧的“规则”中,可以设置访问资产所有权组织的规则,对于每个资产模型是唯一的

搜索模块——快速精确查询资产指标

  • 在左侧栏选择要查看的资产后,在主视图设置过滤器条件快速精确查询资产指标情况
    • 数据时间段:在右上角选择查看什么时间段内的指标数据;
    • 自动刷新:点击刷新按钮手动刷新,A字下拉框中选择数据自动刷新的时间间隔(1分组、5分钟或者10分钟)
    • 来源:在集成中配置时为资产的节点;
    • 指标:该资产下的所有指标;
    • 过滤器+:可添加查询多个指标;
    • 视图切换:支持查看折线图或表格数据。

视图模块

  • 在视图功能中,选择具体资产后可查看各指标数据变化的折线图
    • “视图”——侧边抽屉快速查看指标折线图
    • “详情”——跳转到资产图表详情页查看。
    • 两种方式都支持选择时间跨度、选择具体指标。

资产监控告警

事件模块——告警查看及策略设定

策略设定

告警策略支持自定义以及从模板新建。

  • 自定义:在“策略”tab下选择“添加”后进入策略配置页,完成基本信息、定义指标(策略针对什么指标、采用什么监控方法、监控频率)、设置告警条件(告警阈值、告警恢复条件)、配置通知(此告警是否发送通知)。字段说明同策略模板。
  • 策略模板:在“事件”——“模板”下选择资产,本平台针对各资产重要指标内置告警策略模板,直接点击进入,可选择进一步编辑或直接应用该策略。
  • 字段说明如下:
    • 策略名称:用于标识和描述该监控策略的主要内容。
    • 告警名称:可以引用指标名称或者维度名作为变量,参考格式为${metric.name}。例如,可以设置为“交换机{metric_instance_id} 接口 {metric_ifC}”。使用此格式可以在告警时注明是哪个实体出现问题。
    • 组织:用于将该监控策略归类到特定的组织或部门。
    • 来源:选择监控数据的来源,可选择性地监控同一资产类型下的不同资产实体。
    • 指标:设置需要监控的指标,可以通过各种维度过滤指标。
    • 方法:选择检测方法。每个选择方法,选择之后会有使用说明。如:last_over time表示选定时间范围中,每个维度中最后一个数据点的值。last_over time函数用于取出每条时间序列在指定时间范围内的最后一个采样值,适用于获取状态变化监控或关键时间点的指标快照。例如可以用来获取某些端口或实例在最近查询范围中的最后状态值。
    • 检测频率:指示多长时间收集一次监控数据。
    • 检测周期:用于测量收集监控数据的时间范围。
  • 字段说明2:
    • 算法:选择告警的监控方法,目前支持阈值报警;
    • 阈值告警级别设置:设置当采集到的数据处于什么情况时告警,为数值告警划分三个级别,标识问题严重程度;
    • 自动恢复:有些异常资产可以自我恢复,设置在不处理的情况下,监测到多少个周期不满足阈值时,则告警自动恢复。即当满足条件时,生成的告警将自动解决。
    • 无数据:是否将无数据视为异常。打开后,设置在采集时没有数据报告连续xx分钟,将生成“无数据”告警,级别为xx。当数据报告在xx分钟内恢复正常时,“无数据告警” 将自动恢复。
    • 通知:设置此策略下的告警要不要发送通知,选择发送渠道、通知谁。

仪表盘——告警事件监管

  • 默认情况下展示活跃告警的总分步情况,不区分资产;
  • 支持在左侧过滤项中对告警级别、告警状态、资产进行精确定位查看告警状况;
    • 告警级别:具体配置在策略设定中
    • 状态:“新”——刚刚出现,未作任何操作的告警;“自动恢复”——在策略中设定,资产自动恢复;“资产”——选择要监控的资产进行重点查看。
  • 在告警事件详情中可查看告警具体情况,在详情页中可直接看到相关指标数据变化,支持手动关闭告警。
暂无评论

发送评论 编辑评论


				
上一篇