Harness Engineering:构建 AI-Native 研发的确定性护栏与智能引擎
摘要:本课程旨在教授“Harness Engineering”方法论,构建一套连接非确定性大模型与确定性软件工程的桥梁系统。课程涵盖沙箱环境、知识索引、自动化评估与自愈闭环四大支柱,并通过多智能体并发编排、规格驱动开发等实战,训练学员将大模型(如Claude Code/Gemini)驯化为可靠的软件工程师,实现高吞吐量的AI-Native研发。
01
内容简介
在 GitHub Copilot 和 Cursor 完成了“代码补全”的市场教育后,软件研发正迎来从“AI 辅助”向“AI 驱动(Agentic Workflow)”跨越的临界点。然而,多数企业在尝试利用 AI 开发复杂系统时,仍受困于模型幻觉、存量代码鸿沟(AI 看不懂旧系统)以及大规模协作混乱。
大模型本质上是概率驱动的非确定性引擎,而软件工程要求绝对的确定性项。Harness Engineering(脚手架工程)正是连接这两者的桥梁。它通过构建包含物理沙箱、自动化评估(Evals)、受控工具链与自愈反馈循环的系统护栏,将 LLM 从“随机文本生成器”转化为“可靠的软件工程师”。在 AI 时代,工程师的终极形态将是 Harness Engineer(脚手架工程师) —— 负责设计 Agent 运行环境、知识索引与执行规则的总建筑师。
本课程深度对标 OpenAI 的 Harness Engineering(脚手架工程) 理念,旨在教授如何构建一套确定性的工程护栏,将非确定性的大模型驯服为可靠的软件工程师。课程不仅深度解构了顶尖 Agent(如 Claude Code/Gemini CLI)的系统内核,更重点推出“高吞吐量研发新范式:多智能体并发编排与控制”的规模化实战方案。
课程核心涵盖:
- Harness 架构深度设计:沙箱环境隔离、知识地图索引(Context Index)、自动化评估(Evals)与自愈反馈闭环。
- 规格驱动开发 (SDD):如何通过结构化 Markdown(FD)建立单一真相来源,消除人机沟通偏差。
- 高吞吐量并发实战:利用 Tmux、斜杠命令与物理空间管理,实现多智能体任务的高效调度与并行控制。
- 系统 Agent 友好化改造:通过模块化 MD 描述与架构即代码(Architecture as Code),让复杂的遗留系统具备“可被 AI 操控”的体质。
02
目标学员
- 资深开发工程师与架构师:希望从“手动编码”转向“Harness 编排”,掌握设计可被 Agent 高效理解与修改的模块化系统。
- 技术负责人与研发经理:关注研发范式变革,寻找将 AI 深度注入 CI/CD、构建企业级私有化 AI 研发工作流的决策者。
- 产品负责人与设计师:学习编写高质量的技术规格说明(Spec/FD),将其作为驱动 Agent 团队精准执行的“指挥棒”。
- DevOps 与质量专家:负责构建基于 Agent 的自动化评估闭环、实现生产环境故障“发现即自愈”的专家。
03
课程收益
- 掌握设计 Harness 确定性护栏的方法:通过构建沙箱、索引与 Evals,将非确定性模型转化为可靠的工程产出。
- 掌握多智能体高并发编排与控制的方法:利用极简工具栈实现复杂研发任务的规模化并发处理。
- 掌握软件系统“Agent 友好化”改造的方法:通过模块化 MD 描述与知识图谱构建,让 AI 深入处理大型遗留代码库。
- 获得基于规格驱动开发(SDD)的实战经验:建立从需求想法到结构化 FD 规格、再到全自动代码落地的标准化 SOP。
- 获得构建企业级自动化评估体系(Evals)的经验:实现基于反馈的 Agent 自动修复逻辑,大幅降低人工 Review 成本。
- 获得应对大规模研发 Scaling 挑战的治理经验:解决多智能体并发冲突、Token 极速消耗及危险指令拦截等深水区难题。
04
授课方式
- 深度演示:端到端展示从“模糊想法”到“多路并发执行”再到“自愈合流”的代际研发跃迁。
- 沙箱实操:在预配置的隔离研发环境中,动手搭建索引层、封装自定义 Skill 并编写 Eval 护栏。
- 挑战任务:在真实的 Tmux 布局下,模拟处理具备“全局冲突”风险的大型重构任务(如单体转微服务)。
- 案例复盘:对标业界顶尖 Agent 架构与 OpenAI 工程实践,深度拆解成功与失败的 Harness 案例。
05
授课时长
06
课程大纲
第一部分:认知重构与端到端深度体验
目标:通过大型现场演示,直观感受“从需求到代码”开发范式的代际跃迁。
开发模式的奇点:AI-Native 研发范式变迁
- 从“人工手写”到“Harness 编排”:为什么写代码正在变成“设计 Harness 运行系统”。
- 工程师角色重构:工程师从“实现者”转型为“Harness 设计师”(设计任务拆解、模块边界与协作机制)。
- 【演示】端到端研发全流程体验:
○ Step 1:需求注入:向 PM 窗口倾泻一段模糊的业务需求。 ○ Step 2:自动规格化:Planner 自动生成 FD 说明书并标注爆炸半径。 ○ Step 3:并发执行:分派多 Agent 并发修改前端、后端与存储层。 ○ Step 4:自愈与提交:触发 Lint 报错,观察 Agent 自动捕获日志并修复,最终提交 PR。
|
Harness 的定义与四维架构体系
- Harness 的核心支柱:环境隔离(Sandboxing)、知识地图(Context Index)、评估体系(Evals)、自愈闭环(Action Loop)。
- OpenAI 的工程启示:解析 o1/o3 模型的系统卡(System Card)设计对推理护栏的影响。
|
第二部分:Agent 工程体系:解构 AI 的“大脑”与“肢体”
目标:深度探秘 Claude Code、Gemini CLI 与 OpenClaw 的内部工程实现。
Agent 系统结构全解析
- Agent Runner (核心执行器):任务生命周期管理、递归拆解引擎与 Token 消耗控制。
- Skill 系统与 Tool 调用:如何构建“技能即代码”的可控肢体,封装 Bash/SQL/API。
- Event 驱动机制:如何利用事件总线处理异步任务、心跳监控与系统反馈。
- 记忆机制 (Memory System):会话记忆(短期)+ 项目记忆(中期)+ 经验记忆(长期)。
- 【演示】:利用跟踪工具展示 Claude Code 在执行 `edit` 指令时的“感知-思考-执行”完整轨迹图。
|
Agent 执行闭环与工程基础设施
- 执行内循环:任务规划 + 工具调用 + 自主执行 + 自动修复(Auto-healing)。
- Agent 工程基建:Agent 平台、领域知识库、标准化工具系统(MCP 扩展)。
- 案例剖析:OpenClaw Agent 系统架构及其在复杂业务场景下的调度策略。
- 【练习】:手动编写一个基于 Event 驱动的简单 Agent 逻辑,处理“编译失败 -> 读取日志 -> 重新尝试”的闭环。
|
第三部分:协同开发模式:基于 Harness 的完整研发工作流
目标:掌握利用 Harness 模式开发复杂软件的标准步骤与操作手册。
研发周期的五个核心阶段
- 阶段 1:创意倾泻与上下文加载 (Context Loading):在 PM 窗口通过非结构化对话快速同步背景。
- 阶段 2:规格硬化 (Spec Hardening):Planner 将模糊需求转化为 FD (Feature Design) Markdown 说明。
- 阶段 3:并行执行与隔离开发 (Parallel Implementation):Worker 根据 FD 独立开启分支或 Worktree 进行实现。
- 阶段 4:自动化验证回路 (Verification Loop):Agent 自主运行 Eval 脚本、Lint 和单测,基于反馈自愈。
- 阶段 5:Human Review 与 PR 合流:在最后节点引入人工 Review,确保方向与代码质量。
|
Repo 即 Agent 的“操作系统”
- 单一真相来源 (SSOT):所有架构规范、文档、FD 记录沉淀在 Repo 中,作为 Agent 的全局指令集。
- 可观测性驱动能力扩展:利用日志、指标、执行轨迹使 Agent 具备“运行+调试+修复”的能力。
- Architecture as Code:将架构规则与质量标准嵌入 CI,替代人工逐行审查。
- 【演示】:完整演示从一个“需求想法”出发,历经 FD 生成、代码开发、自愈修复到 PR 提交的标准 Harness 闭环。
|
第四部分:知识地图索引与索引层构建:构建 Repo 级认知基座
目标:通过结构化手段解决 AI “迷失在代码海”中的痛点,降低推理负担。
构建“知识地图索引”(Context / Index Layer)
- 结构化文档与目录规范:如何建立 Agent 能按图索骥的 Repo “地图”。
- 深度语义索引:超越 RAG,基于 AST、代码图谱(Code Graph)构建精确的代码定位层。
- 局部上下文隔离:如何将复杂系统拆解为局部上下文,降低单个 Agent 的推理负荷。
|
规格驱动开发(Spec-Driven Development, SDD)
- FD (Feature Designs) 作为唯一事实真相:明确痛点边界 (Problem) -> 最终方案 (Solution) -> 精准框定爆炸半径 (Files to Modify) -> 明确运行验证步骤 (Verification)。
- Markdown 状态机管理:利用 `FEATURE_INDEX.md` 注册 FD 生命周期,自动累计 Changelog。
- 【实战】:为一个存量项目构建“索引层(Index Layer)”,并观察 Agent 识别修改范围的准确率变化。
|
第五部分:Agent 友好化改造:对系统架构的重构
目标:这是企业应用落地的核心,决定了 AI 参与研发的颗粒度与成功率。
模块化架构设计与 MD 描述机制
- 解构复杂度:明确系统模块与子模块边界。
- 模块标准化说明 (Module MD):为每个模块维护包含“职责 / 接口 / 依赖 / 约束”的标准化 MD 说明。
- 多层次上下文设计:系统级 MD + 模块级 MD + 代码级注释的纵深对齐。
|
知识沉淀与定位机制改造
- 结构化存储:架构知识、开发规范、存量 Bug 经验知识的 Repo 内沉淀。
- Agent 任务定位引擎:基于模块描述与代码索引,实现 Agent 自动定位代码修改范围。
- 【演示/实战】:演示 Agent 如何查阅模块 MD 描述,精准选定 3 个需要修改的文件并给出详细修改计划。
|
第六部分:算力爆发、沙箱与工具安全
目标:为 Agent 提供“强力且安全”的双手,释放极致搜索潜能。
研发沙箱工程与隔离执行
- 原生 Worktree 隔离法:如何物理隔离并行 Agent 的爆炸半径,防止文件锁死。
- 安全沙箱 (Sandboxing):Docker/Firecracker 环境下的权限隔离。
- 黑名单博弈:应对 Agent 狡猾绕过危险命令(如使用 `unlink` 或 `find -delete` 代替 `rm`)的监控策略。
|
深度搜索与算力缩放
- Test-time Compute 应用:运行 `/fd-deep` 同时启动 4 个并行智能体(算法/结构/环境/增量视角)独立推演。
- 工具幂等性设计:确保 Agent 在死循环中重复调用 API 具备幂等安全性。
- 【练习】:设计一个带最大步数(Max Steps)熔断器的 Agent 工具调用外壳。
|
第七部分:Scaling 实践:1 人驱动 8 智能体的高并发开发
目标:应对大规模研发挑战,通过物理布局与指令流控制实现吞吐量爆发。
极简工具栈与工作台物理级布局
- 工具栈构成:Cursor (IDE) + Tmux (窗口管理) + Markdown (状态) + Slash Commands (控制流)。
- 三位一体的会话角色分配:PM 窗口(需求)、Planner 窗口(规格)、Worker 窗口(执行)。
- 物理级并行布局工程:应付 8 个并行上下文切换的人类视觉管理(空闲反转通知/视觉铃声)。
|
驱动生命周期的六大斜杠命令 (Slash Commands)
- 控制流指令集:`/fd-new` (创FD), `/fd-status` (进度), `/fd-explore` (加载上下文), `/fd-deep` (并行探索), `/fd-verify` (自动校对), `/fd-close` (自动归档并更新Changelog)。
- 核心内循环管理:在 IDE 中使用 `%%` 编写内联批注,指示 Agent 更新执行计划。
- 物理限制与防爆治理
- 认知负荷极限:为什么 8 个并发是人类决策质量的红线。
- 串行依赖冲突:强制将在顺序依赖的功能并行会导致严重的 Merge 冲突。
- Token 极速消耗应对:Token Compaction 导致关键决策丢失的防护策略。
- 【演示】:现场演示 1 名开发者同时观察 8 个 Tmux 窗口,利用斜杠命令高效驱动多 Agent 并发实况。
|
第八部分:评估、闭环与企业级治理
目标:构建 OpenAI 级别的 Evaluators,解决成本、安全与治理难题。
自动化评估体系 (Evals)
- Evals 护栏:针对非确定性输出的确定性护栏,基于 AST 的语法校验 + LLM-as-a-Judge。
- 自愈闭环:Stacktrace 解析 -> 结构化纠错指令 -> Agent 自主修复。
|
企业级治理与成本控制
- Token 经济学:防止 Context 滥用导致的费用暴涨。
- 敏感数据脱敏 (PII Masking):防止内部数据泄露至公有云模型。
- 【练习】:在你的执行外壳脚本中加入一套基础的超时中断与危险系统调用(Syscall)拦截机制。
|
第九部分:综合沙盘演练:遗留系统重构实战
目标:综合运用所有技术,解决具备“全局冲突”风险的高级研发任务。
终极任务:将一个单体架构的“订单系统”重构为“微服务架构”并迁移数据库
- 挑战 1:Harness 补全:首先补全该遗留系统的“知识地图索引层”。
- 挑战 2:规格设计:在 Planner 窗口完成复杂的数据迁移规格设计。
- 挑战 3:高并发执行:利用 Tmux 与 Worktree,驱动 8 个并行 Agent 同时处理服务拆分、API 适配与数据同步脚本。
- 挑战 4:冲突消解:人工介入处理由并发导致的串行依赖冲突。
- 挑战 5:自愈验证:启动 Evals 门禁,Agent 需自主感知迁移过程中的死锁并完成逻辑修复。
|
07
讲师介绍
路老师
AI应用与研发效能领域的资深专家,曾在理想汽车、快手等多家企业任高阶技术管理岗位。他具有扎实的编码、设计、架构,以及丰富的大模型应用建设经验,主导研发过多款基于大模型的产品,包括AI数字助理、代码智能补全与生成系统、营销AI智能体等等。他也曾为众多企业交付过AI编程、技术实践、DevOps及项目管理等方面的咨询或培训服务。