Harness Engineering：构建 AI-Native 研发的确定性护栏与智能引擎

摘要：本课程旨在教授“Harness Engineering”方法论，构建一套连接非确定性大模型与确定性软件工程的桥梁系统。课程涵盖沙箱环境、知识索引、自动化评估与自愈闭环四大支柱，并通过多智能体并发编排、规格驱动开发等实战，训练学员将大模型（如Claude Code/Gemini）驯化为可靠的软件工程师，实现高吞吐量的AI-Native研发。

内容简介

在 GitHub Copilot 和 Cursor 完成了“代码补全”的市场教育后，软件研发正迎来从“AI 辅助”向“AI 驱动（Agentic Workflow）”跨越的临界点。然而，多数企业在尝试利用 AI 开发复杂系统时，仍受困于模型幻觉、存量代码鸿沟（AI 看不懂旧系统）以及大规模协作混乱。

大模型本质上是概率驱动的非确定性引擎，而软件工程要求绝对的确定性项。Harness Engineering（脚手架工程）正是连接这两者的桥梁。它通过构建包含物理沙箱、自动化评估（Evals）、受控工具链与自愈反馈循环的系统护栏，将 LLM 从“随机文本生成器”转化为“可靠的软件工程师”。在 AI 时代，工程师的终极形态将是 Harness Engineer（脚手架工程师） —— 负责设计 Agent 运行环境、知识索引与执行规则的总建筑师。

本课程深度对标 OpenAI 的 Harness Engineering（脚手架工程）理念，旨在教授如何构建一套确定性的工程护栏，将非确定性的大模型驯服为可靠的软件工程师。课程不仅深度解构了顶尖 Agent（如 Claude Code/Gemini CLI）的系统内核，更重点推出“高吞吐量研发新范式：多智能体并发编排与控制”的规模化实战方案。

课程核心涵盖：

Harness 架构深度设计：沙箱环境隔离、知识地图索引（Context Index）、自动化评估（Evals）与自愈反馈闭环。
规格驱动开发 (SDD)：如何通过结构化 Markdown（FD）建立单一真相来源，消除人机沟通偏差。
高吞吐量并发实战：利用 Tmux、斜杠命令与物理空间管理，实现多智能体任务的高效调度与并行控制。
系统 Agent 友好化改造：通过模块化 MD 描述与架构即代码（Architecture as Code），让复杂的遗留系统具备“可被 AI 操控”的体质。

目标学员

资深开发工程师与架构师：希望从“手动编码”转向“Harness 编排”，掌握设计可被 Agent 高效理解与修改的模块化系统。
技术负责人与研发经理：关注研发范式变革，寻找将 AI 深度注入 CI/CD、构建企业级私有化 AI 研发工作流的决策者。
产品负责人与设计师：学习编写高质量的技术规格说明（Spec/FD），将其作为驱动 Agent 团队精准执行的“指挥棒”。
DevOps 与质量专家：负责构建基于 Agent 的自动化评估闭环、实现生产环境故障“发现即自愈”的专家。

课程收益

掌握设计 Harness 确定性护栏的方法：通过构建沙箱、索引与 Evals，将非确定性模型转化为可靠的工程产出。
掌握多智能体高并发编排与控制的方法：利用极简工具栈实现复杂研发任务的规模化并发处理。
掌握软件系统“Agent 友好化”改造的方法：通过模块化 MD 描述与知识图谱构建，让 AI 深入处理大型遗留代码库。
获得基于规格驱动开发（SDD）的实战经验：建立从需求想法到结构化 FD 规格、再到全自动代码落地的标准化 SOP。
获得构建企业级自动化评估体系（Evals）的经验：实现基于反馈的 Agent 自动修复逻辑，大幅降低人工 Review 成本。
获得应对大规模研发 Scaling 挑战的治理经验：解决多智能体并发冲突、Token 极速消耗及危险指令拦截等深水区难题。

授课方式

深度演示：端到端展示从“模糊想法”到“多路并发执行”再到“自愈合流”的代际研发跃迁。
沙箱实操：在预配置的隔离研发环境中，动手搭建索引层、封装自定义 Skill 并编写 Eval 护栏。
挑战任务：在真实的 Tmux 布局下，模拟处理具备“全局冲突”风险的大型重构任务（如单体转微服务）。
案例复盘：对标业界顶尖 Agent 架构与 OpenAI 工程实践，深度拆解成功与失败的 Harness 案例。

授课时长

2天

课程大纲

第一部分：认知重构与端到端深度体验

目标：通过大型现场演示，直观感受“从需求到代码”开发范式的代际跃迁。

开发模式的奇点：AI-Native 研发范式变迁

从“人工手写”到“Harness 编排”：为什么写代码正在变成“设计 Harness 运行系统”。
工程师角色重构：工程师从“实现者”转型为“Harness 设计师”（设计任务拆解、模块边界与协作机制）。
【演示】端到端研发全流程体验：
○ Step 1：需求注入：向 PM 窗口倾泻一段模糊的业务需求。
○ Step 2：自动规格化：Planner 自动生成 FD 说明书并标注爆炸半径。
○ Step 3：并发执行：分派多 Agent 并发修改前端、后端与存储层。
○ Step 4：自愈与提交：触发 Lint 报错，观察 Agent 自动捕获日志并修复，最终提交 PR。

Harness 的定义与四维架构体系

Harness 的核心支柱：环境隔离（Sandboxing）、知识地图（Context Index）、评估体系（Evals）、自愈闭环（Action Loop）。
OpenAI 的工程启示：解析 o1/o3 模型的系统卡（System Card）设计对推理护栏的影响。

第二部分：Agent 工程体系：解构 AI 的“大脑”与“肢体”

目标：深度探秘 Claude Code、Gemini CLI 与 OpenClaw 的内部工程实现。

Agent 系统结构全解析

Agent Runner (核心执行器)：任务生命周期管理、递归拆解引擎与 Token 消耗控制。
Skill 系统与 Tool 调用：如何构建“技能即代码”的可控肢体，封装 Bash/SQL/API。
Event 驱动机制：如何利用事件总线处理异步任务、心跳监控与系统反馈。
记忆机制 (Memory System)：会话记忆（短期）+ 项目记忆（中期）+ 经验记忆（长期）。
【演示】：利用跟踪工具展示 Claude Code 在执行 `edit` 指令时的“感知-思考-执行”完整轨迹图。

Agent 执行闭环与工程基础设施

执行内循环：任务规划 + 工具调用 + 自主执行 + 自动修复（Auto-healing）。
Agent 工程基建：Agent 平台、领域知识库、标准化工具系统（MCP 扩展）。
案例剖析：OpenClaw Agent 系统架构及其在复杂业务场景下的调度策略。
【练习】：手动编写一个基于 Event 驱动的简单 Agent 逻辑，处理“编译失败 -> 读取日志 -> 重新尝试”的闭环。

第三部分：协同开发模式：基于 Harness 的完整研发工作流

目标：掌握利用 Harness 模式开发复杂软件的标准步骤与操作手册。

研发周期的五个核心阶段

阶段 1：创意倾泻与上下文加载 (Context Loading)：在 PM 窗口通过非结构化对话快速同步背景。
阶段 2：规格硬化 (Spec Hardening)：Planner 将模糊需求转化为 FD (Feature Design) Markdown 说明。
阶段 3：并行执行与隔离开发 (Parallel Implementation)：Worker 根据 FD 独立开启分支或 Worktree 进行实现。
阶段 4：自动化验证回路 (Verification Loop)：Agent 自主运行 Eval 脚本、Lint 和单测，基于反馈自愈。
阶段 5：Human Review 与 PR 合流：在最后节点引入人工 Review，确保方向与代码质量。

Repo 即 Agent 的“操作系统”

单一真相来源 (SSOT)：所有架构规范、文档、FD 记录沉淀在 Repo 中，作为 Agent 的全局指令集。
可观测性驱动能力扩展：利用日志、指标、执行轨迹使 Agent 具备“运行+调试+修复”的能力。
Architecture as Code：将架构规则与质量标准嵌入 CI，替代人工逐行审查。
【演示】：完整演示从一个“需求想法”出发，历经 FD 生成、代码开发、自愈修复到 PR 提交的标准 Harness 闭环。

第四部分：知识地图索引与索引层构建：构建 Repo 级认知基座

目标：通过结构化手段解决 AI “迷失在代码海”中的痛点，降低推理负担。

构建“知识地图索引”（Context / Index Layer）

结构化文档与目录规范：如何建立 Agent 能按图索骥的 Repo “地图”。
深度语义索引：超越 RAG，基于 AST、代码图谱（Code Graph）构建精确的代码定位层。
局部上下文隔离：如何将复杂系统拆解为局部上下文，降低单个 Agent 的推理负荷。

规格驱动开发（Spec-Driven Development, SDD）

FD (Feature Designs) 作为唯一事实真相：明确痛点边界 (Problem) -> 最终方案 (Solution) -> 精准框定爆炸半径 (Files to Modify) -> 明确运行验证步骤 (Verification)。
Markdown 状态机管理：利用 `FEATURE_INDEX.md` 注册 FD 生命周期，自动累计 Changelog。
【实战】：为一个存量项目构建“索引层（Index Layer）”，并观察 Agent 识别修改范围的准确率变化。

第五部分：Agent 友好化改造：对系统架构的重构

目标：这是企业应用落地的核心，决定了 AI 参与研发的颗粒度与成功率。

模块化架构设计与 MD 描述机制

解构复杂度：明确系统模块与子模块边界。
模块标准化说明 (Module MD)：为每个模块维护包含“职责 / 接口 / 依赖 / 约束”的标准化 MD 说明。
多层次上下文设计：系统级 MD + 模块级 MD + 代码级注释的纵深对齐。

知识沉淀与定位机制改造

结构化存储：架构知识、开发规范、存量 Bug 经验知识的 Repo 内沉淀。
Agent 任务定位引擎：基于模块描述与代码索引，实现 Agent 自动定位代码修改范围。
【演示/实战】：演示 Agent 如何查阅模块 MD 描述，精准选定 3 个需要修改的文件并给出详细修改计划。

第六部分：算力爆发、沙箱与工具安全

目标：为 Agent 提供“强力且安全”的双手，释放极致搜索潜能。

研发沙箱工程与隔离执行

原生 Worktree 隔离法：如何物理隔离并行 Agent 的爆炸半径，防止文件锁死。
安全沙箱 (Sandboxing)：Docker/Firecracker 环境下的权限隔离。
黑名单博弈：应对 Agent 狡猾绕过危险命令（如使用 `unlink` 或 `find -delete` 代替 `rm`）的监控策略。

深度搜索与算力缩放

Test-time Compute 应用：运行 `/fd-deep` 同时启动 4 个并行智能体（算法/结构/环境/增量视角）独立推演。
工具幂等性设计：确保 Agent 在死循环中重复调用 API 具备幂等安全性。
【练习】：设计一个带最大步数（Max Steps）熔断器的 Agent 工具调用外壳。

第七部分：Scaling 实践：1 人驱动 8 智能体的高并发开发

目标：应对大规模研发挑战，通过物理布局与指令流控制实现吞吐量爆发。

极简工具栈与工作台物理级布局

工具栈构成：Cursor (IDE) + Tmux (窗口管理) + Markdown (状态) + Slash Commands (控制流)。
三位一体的会话角色分配：PM 窗口（需求）、Planner 窗口（规格）、Worker 窗口（执行）。
物理级并行布局工程：应付 8 个并行上下文切换的人类视觉管理（空闲反转通知/视觉铃声）。

驱动生命周期的六大斜杠命令 (Slash Commands)

控制流指令集：`/fd-new` (创FD), `/fd-status` (进度), `/fd-explore` (加载上下文), `/fd-deep` (并行探索), `/fd-verify` (自动校对), `/fd-close` (自动归档并更新Changelog)。
核心内循环管理：在 IDE 中使用 `%%` 编写内联批注，指示 Agent 更新执行计划。
物理限制与防爆治理
认知负荷极限：为什么 8 个并发是人类决策质量的红线。
串行依赖冲突：强制将在顺序依赖的功能并行会导致严重的 Merge 冲突。
Token 极速消耗应对：Token Compaction 导致关键决策丢失的防护策略。
【演示】：现场演示 1 名开发者同时观察 8 个 Tmux 窗口，利用斜杠命令高效驱动多 Agent 并发实况。

第八部分：评估、闭环与企业级治理

目标：构建 OpenAI 级别的 Evaluators，解决成本、安全与治理难题。

自动化评估体系 (Evals)

Evals 护栏：针对非确定性输出的确定性护栏，基于 AST 的语法校验 + LLM-as-a-Judge。
自愈闭环：Stacktrace 解析 -> 结构化纠错指令 -> Agent 自主修复。

企业级治理与成本控制

Token 经济学：防止 Context 滥用导致的费用暴涨。
敏感数据脱敏 (PII Masking)：防止内部数据泄露至公有云模型。
【练习】：在你的执行外壳脚本中加入一套基础的超时中断与危险系统调用（Syscall）拦截机制。

第九部分：综合沙盘演练：遗留系统重构实战

目标：综合运用所有技术，解决具备“全局冲突”风险的高级研发任务。

终极任务：将一个单体架构的“订单系统”重构为“微服务架构”并迁移数据库

挑战 1：Harness 补全：首先补全该遗留系统的“知识地图索引层”。
挑战 2：规格设计：在 Planner 窗口完成复杂的数据迁移规格设计。
挑战 3：高并发执行：利用 Tmux 与 Worktree，驱动 8 个并行 Agent 同时处理服务拆分、API 适配与数据同步脚本。
挑战 4：冲突消解：人工介入处理由并发导致的串行依赖冲突。
挑战 5：自愈验证：启动 Evals 门禁，Agent 需自主感知迁移过程中的死锁并完成逻辑修复。

讲师介绍

路老师

AI应用与研发效能领域的资深专家，曾在理想汽车、快手等多家企业任高阶技术管理岗位。他具有扎实的编码、设计、架构，以及丰富的大模型应用建设经验，主导研发过多款基于大模型的产品，包括AI数字助理、代码智能补全与生成系统、营销AI智能体等等。他也曾为众多企业交付过AI编程、技术实践、DevOps及项目管理等方面的咨询或培训服务。