以下指标均以业务单元(business unit)为前提。
整体健康度 #
数据处理 #
指标 | 统计频率 | 统计口径 | |
---|---|---|---|
健康度 | 每小时整点更新 | 100 – [50 × 任务失败占比 + 30 × 每百万条数据处理平均时长(过去1小时) / 每百万条数据处理平均时长(过去30天) + 20 × 每百万条数据排队平均时长(过去1小时) / 每百万条数据排队平均时长(过去30天) ] | finished_at(timestamp), created_at(timestamp), status(string) |
提交任务数 | 每小时整点更新 | 创建的任务数量总和 | created_at(timestamp) |
每万条数据处理时间 | 每小时整点更新 | 任务处理时间总和 / 任务数据量总和 × 10000 | 处理时间 = finished_at(timestamp) – created_at(timestamp), 数据量总和 = sum data_rows(bigint) |
任务失败占比 | 每小时整点更新 | 失败的任务数量总和 / 任务数量总和 | status(string), created_at(timestamp) |
每百万条数据处理时间 | 每小时整点更新 | 任务处理时间总和 / 任务数量总和 | status(string), created_at(timestamp) |
每百万条数据排队时间 | 每小时整点更新 | 任务排队时间总和 / 任务数量总和 | status(string), created_at(timestamp) |
基础资源 #
指标 | 统计频率 | 统计口径 | |
---|---|---|---|
ES集群状态 | 每分钟更新 | 当前集群状态 | value,1为正常,2为繁忙,3为异常 |
ES集群状态占比 | 每小时整点更新 | 过去30天,集群各状态比例 | value,1为正常,2为繁忙,3为异常 |