此清单提供了一组建议,可帮助你建立卓越运营文化。 从 DevOps 方法开始,整合来自多个学科的专业技能。 此方法创建严格的设计和开发实践。 此方法会导致基础结构和代码的可重复、可靠和安全部署。
优先考虑人工干预从中受益的领域,并将自动化纳入其他领域。 可观测性通过监测健康事件服务于运营卓越性,并且验证当前的工作负载设计和实现,以告知未来产品开发的改进方向。
如果不考虑卓越运营的利弊和建议,则工作负荷可能面临风险。 仔细考虑以下清单中涵盖的要点,以增强对设计成功的信心。
清单
代码 | 建议 | |
---|---|---|
☐ | OE:01 | 定义用于开发和运营工作负荷的标准实践。 培养一种无可指责的文化,强调持续学习,并优先考虑持续改进和优化。 |
☐ | OE:02 | 规范执行常规、按需和紧急操作任务的方式。 通过采用行业证明的做法和方法提高一致性和可预测性。 |
☐ | OE:03 | 正式化软件理念和规划过程。 借鉴团队通信、需求和设计文档以及软件开发流程的既定行业和组织标准。 |
☐ | OE:04 OE:04 OE:04 |
通过实施行业标准做法增强软件开发和质量保证。 通过标准化工具、源代码管理、设计模式、文档和样式指南,确保明确的角色定义和一致的流程。 |
☐ | OE:05 | 使用标准化基础结构即代码 (IaC) 方法来准备资源和配置。 使用 IaC 确保样式、模块化和质量保证一致。 在实际情况下,首选声明性方法而不是命令性方法。 |
☐ | OE:06 | 构建工作负载供应链,通过可预测的自动化管道推动更改。 确保这些管道在所有环境和质量门控中测试和促进更改。 整合全面的测试。 |
☐ | OE:07 OE:07 |
设计和实现监视系统,以捕获和公开基础结构和代码中的遥测、指标和日志。 使用此数据验证设计选择并指导未来的设计和业务决策。 |
☐ | OE:08 | 建立稳健的紧急操作做法。 创建事件响应计划,明确记录角色、职责以及所有紧急响应流程和过程。 通过事后分析和事件报告总结经验,不断改进计划和工作负荷。 |
☐ | OE:09 | 自动执行重复、过程化的任务,并提供明确的投资回报。 首选现成的自动化工具而不是自定义解决方案。 将 Well-Architected 框架支柱应用于所有自动化工作的设计和实现。 |
☐ | OE:10 | 提前设计和实施自动化,以完成生命周期管理、引导和治理等任务。 避免以后对现有系统进行自动化改造。 通过采用平台原生自动化功能来简化设计。 |
☐ | OE:11 | 明确定义工作负荷的安全部署做法。 专注于具有质量关卡的小型增量发布。 使用新式部署模式和渐进式暴露来管理风险。 规划常规部署和紧急部署。 |
☐ | OE:12 | 实施部署失败缓解策略 在推出期间处理意外问题。 使用回滚、功能禁用或您所用部署模式的内置功能等方法来快速恢复。 |
后续步骤
我们建议您审查卓越运营中的权衡,以探索其他概念。