快速入门
如何快速掌握WeOps-X监控平台的使用
背景说明
面向运维中最关键的日常值班与故障处理场景,实现跨平台集中告警管理、可视、分析、处置与知识沉淀。快速入门掌握资产指标查询,精准获取资产当前状态;设置监控报警策略,实现自动监控。
配置资产信息
选择要配置的资产
本平台已内置数据库、中间件、操作系统网络设备等资产分组,选择分组下的插件,对公司内要监控的资产进行配置。在“集成-集成”中支持对指标分组、分组内部指标进行排序。
配置资产信息支持手动配置和自动配置,推荐使用自动配置,完成信息录入后自动完成配置。
资产指标编制
针对各项资产,本平台已提前内置好需要重点关注的指标信息。如若觉得指标过多可以自行删除;觉得不够的情况下支持自定义指标:添加指标所属分组后,添加要监控的指标,设计要监控的数据内容,填写查询语句等。
快速搜索查询指标
在左侧栏选择要查看的资产后,在主视图设置过滤器条件快速精确查询资产指标情况,在右上角选择查看什么时间段内的指标数据。
查看资产指标情况
在视图功能中,选择具体资产后可进行“视图”——侧边抽屉快速查看指标折线图;“详情”——跳转到资产图表详情页查看。两种方式都支持选择时间跨度、选择具体指标。
资产监控告警
告警策略设定
策略设定支持自定义以及从模板新建。
- 自定义:在“策略”tab下选择“添加”后进入策略配置页,完成基本信息、定义指标(策略针对什么指标、采用什么监控方法、监控频率)、设置告警条件(告警阈值、告警恢复条件)、配置通知(此告警是否发送通知)
- 策略模板:在“事件”——“模板”下选择资产,本平台针对各资产重要指标内置告警策略模板,直接点击进入,可选择进一步编辑或直接应用该策略。
仪表盘——告警事件监管
- 默认情况下展示活跃告警的总分步情况,不区分资产;
- 支持在左侧过滤项中对告警级别、告警状态、资产进行精确定位查看告警状况;
- 在告警事件详情中可查看告警具体情况,在详情页中可直接看到相关指标数据变化,支持手动关闭告警。
功能介绍
集成模块
资产信息配置——添加要监控的资产
- 本平台已内置数据库、中间件、操作系统、网络设备、K8S、硬件设备等资产分组,选择分组下的插件,可对公司内要监控的资产进行配置。
- 在“集成-集成”的左侧边栏中,支持对指标分组、分组内部指标进行排序,调整成功后此排序会同步到所有模块。
- 配置资产信息支持手动配置和自动配置
- 自动配置(推荐使用):录入基本信息,设置采集频率,选择节点并填入服务器地址,提交配置后可自动完成配置。
- 手动配置:录入基本信息和密码后,生成配置,需要到监控对象上粘贴配置。
自动配置
手动配置
资产指标编制
- 针对各项资产,本平台提供内置好的需要重点关注的指标信息;
- 支持对已有指标的编辑、删除;
- 支持自定义指标:添加指标所属分组后,添加要监控的指标,设计要监控的数据内容,填写查询语句等。
- 编辑指标字段说明:
- ID:在数据库中储存、标识该指标,采用下划线界开单词的命名格式;
- 名称:对该指标的定义命名;
- 组:为该指标分组,如:监控内存已使用量、剩余量等指标分配在内存组别下。建议先行检查是否存在要分配的组别,不存在的情况下,先添加组;
- 唯一ID:用于区分识别各设备的字段,如:instance_id。可同时有多个;
- 维度:用于区分同一资产内的不同监控对象,比如:交换器的各接口操作状态指标,用ifDescr作为维度。可同时有多个维度,非必填;
- 数据类型:数据(数量、百分比、KB等等)或枚举型(状态说明,如:1=正常,2=不不正常);
- 单位:监控指标的单位,可参考以下单位表
单位类型名称 | 单位名称 | 单位ID | 换算 | 展示 |
Misc | none | none | ||
short | short | 1000 | [”, ‘ K’, ‘ Mil’, ‘ Bil’, ‘ Tri’, ‘ Quadr’, ‘ Quint’, ‘ Sext’, ‘ Sept’] | |
percent (0-100) | percent | % | ||
percent (0.0-1.0) | percentunit | % | ||
Data (IEC) | bits | bits | b | |
bytes | bytes | B | ||
kibibytes | kibibytes | 1024 bytes | KiB | |
mebibytes | mebibytes | 1024 kibibytes | MiB | |
gibibytes | gibibytes | 1024 mebibytes | GiB | |
tebibytes | tebibytes | 1024 gibibytes | TiB | |
pebibytes | pebibytes | 1024 tebibytes | PiB | |
Data (Metric) | bits | decbits | b | |
bytes | decbytes | B | ||
kibibytes | deckbytes | 1000 decbytes | KB | |
mebibytes | decmbytes | 1000 deckbytes | MB | |
gibibytes | decgbytes | 1000 decmbytes | GB | |
tebibytes | dectbytes | 1000 decgbytes | TB | |
pebibytes | decpbytes | 1000 dectbytes | PB | |
Data Rate | packets/sec | pps | p/s | |
bits/sec | bps | b/s | ||
bytes/min | bytes/min | B/min | ||
bytes/sec | Bps | B/s | ||
kilobytes/sec | KBs | KB/s | ||
kilobits/sec | Kbits | Kb/s | ||
megabytes/sec | MBs | MB/s | ||
megabits/sec | Mbits | Mb/s | ||
gigabytes/sec | GBs | GB/s | ||
gigabits/sec | Gbits | Gb/s | ||
terabytes/sec | TBs | TB/s | ||
terabits/sec | Tbits | Tb/s | ||
petabytes/sec | PBs | PB/s | ||
petabits/sec | Pbits | Pb/s | ||
Temperature | Celsius (°C) | celsius | °C | |
Fahrenheit (°F) | fahrenheit | °F | ||
Kelvin (K) | kelvin | K | ||
Time | Hertz (1/s) | hertz | ||
nanoseconds (ns) | ns | ns | ||
microseconds (µs) | µs | µs | ||
milliseconds (ms) | ms | ms | ||
centisecond (cs) | cs | cs | ||
seconds (s) | s | s | ||
minutes (m) | m | min | ||
hours (h) | h | hour | ||
days (d) | d | day | ||
Throughput | counts/sec (cps) | cps | cps | |
ops/sec (ops) | ops | ops | ||
requests/sec (rps) | reqps | reqps | ||
reads/sec (rps) | rps | rps | ||
writes/sec (wps) | wps | wps | ||
I/O ops/sec (iops) | iops | iops | ||
counts/min (cpm) | cpm | cpm | ||
ops/min (opm) | opm | opm | ||
reads/min (rpm) | rpm | rpm | ||
writes/min (wpm) | wpm | wpm | ||
Other | Watts (W) | watts | W | |
Volts (V) | volts | V |
资产查看
- 在“集成”模块内的“资产”tab,可以查看各资产类型下处于可监控状态的资产实体;
- 在右侧的“规则”中,可以设置访问资产所有权组织的规则,对于每个资产模型是唯一的
搜索模块——快速精确查询资产指标
- 在左侧栏选择要查看的资产后,在主视图设置过滤器条件快速精确查询资产指标情况
- 数据时间段:在右上角选择查看什么时间段内的指标数据;
- 自动刷新:点击刷新按钮手动刷新,A字下拉框中选择数据自动刷新的时间间隔(1分组、5分钟或者10分钟)
- 来源:在集成中配置时为资产的节点;
- 指标:该资产下的所有指标;
- 过滤器+:可添加查询多个指标;
- 视图切换:支持查看折线图或表格数据。
视图模块
- 在视图功能中,选择具体资产后可查看各指标数据变化的折线图
- “视图”——侧边抽屉快速查看指标折线图
- “详情”——跳转到资产图表详情页查看。
- 两种方式都支持选择时间跨度、选择具体指标。
资产监控告警
事件模块——告警查看及策略设定
策略设定
告警策略支持自定义以及从模板新建。
- 自定义:在“策略”tab下选择“添加”后进入策略配置页,完成基本信息、定义指标(策略针对什么指标、采用什么监控方法、监控频率)、设置告警条件(告警阈值、告警恢复条件)、配置通知(此告警是否发送通知)。字段说明同策略模板。
- 策略模板:在“事件”——“模板”下选择资产,本平台针对各资产重要指标内置告警策略模板,直接点击进入,可选择进一步编辑或直接应用该策略。
- 字段说明如下:
- 策略名称:用于标识和描述该监控策略的主要内容。
- 告警名称:可以引用指标名称或者维度名作为变量,参考格式为
${metric.name}
。例如,可以设置为“交换机{metric_instance_id} 接口 {metric_ifC}”。使用此格式可以在告警时注明是哪个实体出现问题。 - 组织:用于将该监控策略归类到特定的组织或部门。
- 来源:选择监控数据的来源,可选择性地监控同一资产类型下的不同资产实体。
- 指标:设置需要监控的指标,可以通过各种维度过滤指标。
- 方法:选择检测方法。每个选择方法,选择之后会有使用说明。如:last_over time表示选定时间范围中,每个维度中最后一个数据点的值。last_over time函数用于取出每条时间序列在指定时间范围内的最后一个采样值,适用于获取状态变化监控或关键时间点的指标快照。例如可以用来获取某些端口或实例在最近查询范围中的最后状态值。
- 检测频率:指示多长时间收集一次监控数据。
- 检测周期:用于测量收集监控数据的时间范围。
- 字段说明2:
- 算法:选择告警的监控方法,目前支持阈值报警;
- 阈值告警级别设置:设置当采集到的数据处于什么情况时告警,为数值告警划分三个级别,标识问题严重程度;
- 自动恢复:有些异常资产可以自我恢复,设置在不处理的情况下,监测到多少个周期不满足阈值时,则告警自动恢复。即当满足条件时,生成的告警将自动解决。
- 无数据:是否将无数据视为异常。打开后,设置在采集时没有数据报告连续xx分钟,将生成“无数据”告警,级别为xx。当数据报告在xx分钟内恢复正常时,“无数据告警” 将自动恢复。
- 通知:设置此策略下的告警要不要发送通知,选择发送渠道、通知谁。
仪表盘——告警事件监管
- 默认情况下展示活跃告警的总分步情况,不区分资产;
- 支持在左侧过滤项中对告警级别、告警状态、资产进行精确定位查看告警状况;
- 告警级别:具体配置在策略设定中
- 状态:“新”——刚刚出现,未作任何操作的告警;“自动恢复”——在策略中设定,资产自动恢复;“资产”——选择要监控的资产进行重点查看。
- 在告警事件详情中可查看告警具体情况,在详情页中可直接看到相关指标数据变化,支持手动关闭告警。