从 DevOps 到 AIOps:自动化到哪儿,责任停哪里
2025-08-26
在工程师最关心的“自动化到底能自动到哪儿”的困境里,很多人都会问:既然 AI 已经能写代码、能发版、能巡检,那是不是意味着未来连运维都可以彻底放手?知乎上有人高赞回答过:自动化可以铺到开发、测试、部署,但“最后一锤定音”的问责与审计,必须有人类签字。今天我就结合 DevOps 发展史、AIOps 的落地案例,还有合规与事故复盘的经验,告诉你背后的关键。
先讲第一层:管控链条。任何一次变更,从模型生成,到人工审查,到安全门验证,再到灰度发布,最后到回滚预案,缺一环都可能让风险指数级放大。正如 Gene Kim 在《凤凰项目》(The Phoenix Project, 2013)里强调的:IT 系统不是单点决策,而是一条约束链,任何一个环节的松动都会引爆全局。有家公司曾试过让 AI 直接合入代码,绕过人工 review,结果在高峰期触发了一个小 bug,直接拖垮了线上交易系统,损失几百万。事后复盘发现,真正致命的不是 bug 本身,而是他们跳过了“灰度+回滚”这两个安全阀。教训很清楚:如果你要做一件事,请先建立起“生成—审—测—灰度—回滚”的全链路,不要迷信一步到位。
第二层是可观测性前置。日志、指标、追踪,这些是传统 SRE 的三板斧。但在 AI 驱动的运维里,还必须加上“提示词与模型版本的可追溯”。因为一旦出事,你不能只看“错误日志”,你得能复盘出当时是哪个模型、用什么 prompt、触发了哪一段逻辑。Google 在《Site Reliability Engineering》一书里就写过:“事故不可避免,复盘是进步的唯一途径。”有个大型零售商的案例很典型,他们在黑五大促时,AI 系统推荐了错误的价格策略,导致商品亏本售卖。事后他们能迅速界定责任、避免公关危机,靠的就是完整的提示词与模型指纹日志。他们能拿出证据说:“这是模型 X 版本 + Prompt Y 的组合,不是人工 override。”所以,如果你要做一件事,先要求每次 AI 生成变更都有 SBOM(物料清单)、Prompt/模型指纹和审计记录。
第三层是运维的组织能力。很多人以为 AIOps 出来之后,运维工作会消失。但真实世界恰好相反。容量规划、故障演练、变更窗口、依赖治理,这些不是机器人就能解决的。Netflix 的 Chaos Engineering(混沌工程)就是最好例子:他们故意拉闸、制造故障,让团队在真实演练中积累肌肉记忆。因为即便 AI 能帮你发现问题,能帮你重启服务,但决定何时扩容、如何跨团队协调资源,仍然需要人类的经验和组织协调力。正如卡内基·梅隆大学的经典论文《Why Do Computers Stop and What Can Be Done About It?》(Gray, 1985)里说的:“故障恢复不仅是技术问题,更是组织问题。”所以,如果你要做一件事,请先设立清晰的值班制度、演练制度,而不是幻想 AI 替你背锅。
当然,也不是说自动化没有边界之外的例外场景。比如在纯实验环境、低风险的沙箱项目里,你完全可以让 AI 自主生成并部署,快速试错。这时候人工签字反而拖慢节奏。但一旦进入生产系统,涉及客户数据和交易,最后的问责权必须牢牢在人手里。这就是边界:低风险探索可以放手,高风险系统必须有人工兜底。
如果只做一件事,请先为 AI 生成的每次变更建立“全链路可追溯”的制度;想更进一步,再跑一次“端到端事故演练”,确保每个环节都能落地;最后再进一步,把人类责任点清晰写入制度,不让 AI 成为替罪羊。这样,你才能真正把 DevOps 推向 AIOps,而不至于把系统推向无人负责的深渊。
我想问你,你所在的团队,有没有真正做过“AI 变更+人工审签+全链路演练”的完整流程?你们的事故复盘,能不能追溯到具体的模型版本和 prompt?欢迎在评论里分享,也许能让更多团队少交学费。
合十,如夜话,至此。
发表评论: