本页内容
故障定义 #
在日常运营中,无论什么原因,产品(应用)出现服务中断、服务品质下降,导致用户体验下降的情况,都称为故障(故障不包括用户方环境引发的场景)。
制定故障定义等级的原则 #
通过故障等级的定义,可分析出:故障等级定义的4个关键点。制定故障等级定义的原则主要围绕这4点。
基础:要以用户体验为核心
重要:就高原则共识、标准化、可落地运营
原则 | 详情 |
---|---|
高原则共识 | 影响多个产品线的故障采用就高原则;原则上故障定级需要与直接依赖业务方达成一致(无法达成一致的采用就高原则)。 |
标准化,用数据定级 | 业务模块全部可以被包括并定义,拆分到最细的功能模块;定级指标要量化,通过监控的实时数据来衡量,例如“P2故障, 首页访问成功率低于90%”。 |
可落地运营 | 上架应用须制定用户反馈的渠道,建立监控机制,可以发现未覆盖的故障;建立完善的故障恢复机制,在第一时间恢复,保证用户体验。 |