从 DevOps 到 AIOps：自动化到哪儿，责任停哪里

从 DevOps 到 AIOps：自动化到哪儿，责任停哪里
2025-08-26

在工程师最关心的“自动化到底能自动到哪儿”的困境里，很多人都会问：既然 AI 已经能写代码、能发版、能巡检，那是不是意味着未来连运维都可以彻底放手？知乎上有人高赞回答过：自动化可以铺到开发、测试、部署，但“最后一锤定音”的问责与审计，必须有人类签字。今天我就结合 DevOps 发展史、AIOps 的落地案例，还有合规与事故复盘的经验，告诉你背后的关键。

先讲第一层：管控链条。任何一次变更，从模型生成，到人工审查，到安全门验证，再到灰度发布，最后到回滚预案，缺一环都可能让风险指数级放大。正如 Gene Kim 在《凤凰项目》（The Phoenix Project, 2013）里强调的：IT 系统不是单点决策，而是一条约束链，任何一个环节的松动都会引爆全局。有家公司曾试过让 AI 直接合入代码，绕过人工 review，结果在高峰期触发了一个小 bug，直接拖垮了线上交易系统，损失几百万。事后复盘发现，真正致命的不是 bug 本身，而是他们跳过了“灰度+回滚”这两个安全阀。教训很清楚：如果你要做一件事，请先建立起“生成—审—测—灰度—回滚”的全链路，不要迷信一步到位。

第二层是可观测性前置。日志、指标、追踪，这些是传统 SRE 的三板斧。但在 AI 驱动的运维里，还必须加上“提示词与模型版本的可追溯”。因为一旦出事，你不能只看“错误日志”，你得能复盘出当时是哪个模型、用什么 prompt、触发了哪一段逻辑。Google 在《Site Reliability Engineering》一书里就写过：“事故不可避免，复盘是进步的唯一途径。”有个大型零售商的案例很典型，他们在黑五大促时，AI 系统推荐了错误的价格策略，导致商品亏本售卖。事后他们能迅速界定责任、避免公关危机，靠的就是完整的提示词与模型指纹日志。他们能拿出证据说：“这是模型 X 版本 + Prompt Y 的组合，不是人工 override。”所以，如果你要做一件事，先要求每次 AI 生成变更都有 SBOM（物料清单）、Prompt/模型指纹和审计记录。

第三层是运维的组织能力。很多人以为 AIOps 出来之后，运维工作会消失。但真实世界恰好相反。容量规划、故障演练、变更窗口、依赖治理，这些不是机器人就能解决的。Netflix 的 Chaos Engineering（混沌工程）就是最好例子：他们故意拉闸、制造故障，让团队在真实演练中积累肌肉记忆。因为即便 AI 能帮你发现问题，能帮你重启服务，但决定何时扩容、如何跨团队协调资源，仍然需要人类的经验和组织协调力。正如卡内基·梅隆大学的经典论文《Why Do Computers Stop and What Can Be Done About It?》（Gray, 1985）里说的：“故障恢复不仅是技术问题，更是组织问题。”所以，如果你要做一件事，请先设立清晰的值班制度、演练制度，而不是幻想 AI 替你背锅。

当然，也不是说自动化没有边界之外的例外场景。比如在纯实验环境、低风险的沙箱项目里，你完全可以让 AI 自主生成并部署，快速试错。这时候人工签字反而拖慢节奏。但一旦进入生产系统，涉及客户数据和交易，最后的问责权必须牢牢在人手里。这就是边界：低风险探索可以放手，高风险系统必须有人工兜底。

如果只做一件事，请先为 AI 生成的每次变更建立“全链路可追溯”的制度；想更进一步，再跑一次“端到端事故演练”，确保每个环节都能落地；最后再进一步，把人类责任点清晰写入制度，不让 AI 成为替罪羊。这样，你才能真正把 DevOps 推向 AIOps，而不至于把系统推向无人负责的深渊。

我想问你，你所在的团队，有没有真正做过“AI 变更+人工审签+全链路演练”的完整流程？你们的事故复盘，能不能追溯到具体的模型版本和 prompt？欢迎在评论里分享，也许能让更多团队少交学费。

合十，如夜话，至此。

无尘阁日记

无尘阁日记

从 DevOps 到 AIOps：自动化到哪儿，责任停哪里
2025-08-26

从 DevOps 到 AIOps：自动化到哪儿，责任停哪里 2025-08-26

从 DevOps 到 AIOps：自动化到哪儿，责任停哪里
2025-08-26