卓越运营设计评审清单

项目
2025-03-11

此清单提供了一组建议，可帮助你建立卓越运营文化。从 DevOps 方法开始，整合来自多个学科的专业技能。此方法创建严格的设计和开发实践。此方法会导致基础结构和代码的可重复、可靠和安全部署。

优先考虑人工干预从中受益的领域，并将自动化纳入其他领域。可观测性通过监测健康事件服务于运营卓越性，并且验证当前的工作负载设计和实现，以告知未来产品开发的改进方向。

如果不考虑卓越运营的利弊和建议，则工作负荷可能面临风险。仔细考虑以下清单中涵盖的要点，以增强对设计成功的信心。

清单

	代码	建议
☐	OE:01	定义用于开发和运营工作负荷的标准实践。培养一种无可指责的文化，强调持续学习，并优先考虑持续改进和优化。
☐	OE:02	规范执行常规、按需和紧急操作任务的方式。通过采用行业证明的做法和方法提高一致性和可预测性。
☐	OE:03	正式化软件理念和规划过程。借鉴团队通信、需求和设计文档以及软件开发流程的既定行业和组织标准。
☐	OE:04 OE:04 OE:04	通过实施行业标准做法增强软件开发和质量保证。通过标准化工具、源代码管理、设计模式、文档和样式指南，确保明确的角色定义和一致的流程。
☐	OE:05	使用标准化基础结构即代码（IaC）方法来准备资源和配置。使用 IaC 确保样式、模块化和质量保证一致。在实际情况下，首选声明性方法而不是命令性方法。
☐	OE:06	构建工作负载供应链，通过可预测的自动化管道推动更改。确保这些管道在所有环境和质量门控中测试和促进更改。整合全面的测试。
☐	OE:07 OE:07	设计和实现监视系统，以捕获和公开基础结构和代码中的遥测、指标和日志。使用此数据验证设计选择并指导未来的设计和业务决策。
☐	OE:08	建立稳健的紧急操作做法。创建事件响应计划，明确记录角色、职责以及所有紧急响应流程和过程。通过事后分析和事件报告总结经验，不断改进计划和工作负荷。
☐	OE:09	自动执行重复、过程化的任务，并提供明确的投资回报。首选现成的自动化工具而不是自定义解决方案。将 Well-Architected 框架支柱应用于所有自动化工作的设计和实现。
☐	OE:10	提前设计和实施自动化，以完成生命周期管理、引导和治理等任务。避免以后对现有系统进行自动化改造。通过采用平台原生自动化功能来简化设计。
☐	OE:11	明确定义工作负荷的安全部署做法。专注于具有质量关卡的小型增量发布。使用新式部署模式和渐进式暴露来管理风险。规划常规部署和紧急部署。
☐	OE:12	实施部署失败缓解策略在推出期间处理意外问题。使用回滚、功能禁用或您所用部署模式的内置功能等方法来快速恢复。

后续步骤

我们建议您审查卓越运营中的权衡，以探索其他概念。

卓越运营权衡因素

通过

卓越运营设计评审清单

清单

后续步骤

反馈

其他资源