AI 工程化新范式：Harness Engineering（线束工程）深度解析报告

1. 核心背景：从“随机鹦鹉”到“稳定引擎”

在 AI Agent 开发的深水区，开发者普遍面临一个“性能天花板”：同样的模型，Prompt 优化到极致后，成功率依然无法从 70% 提升到 95% 以上。

这一现象揭示了 AI 工程的一个本质：决定系统稳定性的关键不再是模型（Model）本身或提示词（Prompt），而是模型外层的运行环境与控制系统——Harness（线束/马具）。

定义：在 Agent 系统中，除了大模型（Model）以外，所有能够确保其稳定、高成功率、可预期地完成复杂任务的工程化设施总和。

核心公式：Agent = Model + Harness

如果说 Model 是燃油引擎，那么 Harness 就是变速箱、刹车系统、仪表盘和底盘。没有 Harness，引擎再强大也无法驱动一辆稳定的赛车。

信息边界层 (Boundary)：
- 职责：定义角色目标，裁剪无关干扰信息。
- 核心：结构化任务状态，防止模型因上下文过长或无关信息干扰而“忘记”约束。
工具系统层 (Tools)：
- 职责：管理工具的生命周期。
- 核心：解决工具准入控制（不一次性给太多工具）、精准触发时机、以及对工具返回结果的结构化提炼（避免冗余报错直接塞回模型）。
执行编排层 (Orchestration)：
- 职责：为模型建立“运行轨道”。
- 流程：目标理解 $\rightarrow$ 信息判断 $\rightarrow$ 循环执行 $\rightarrow$ 结果检查（循环往复，而非单次生成）。
记忆与状态层 (State)：
- 职责：维护“唯一真理来源”。
- 核心：严格区分当前任务状态（Step-by-step）、中间产物、长期记忆和用户画像。避免不同维度的信息在上下文中发生冲突。
评估与观测层 (Observability)：
- 职责：引入独立于生成过程的“验收机制”。
- 核心：让系统具备“自知之明”。通过独立的 Evaluator 实例或外部测试脚本，客观判断任务完成度，而不是让 Generator 自卖自夸。
约束、校验与恢复层 (Recovery)：
- 职责：核心保底与容错机制。
- 核心：处理 API 超时、Json 格式错误、工具调用失败、任务逻辑死循环等常态化风险，实现自动重试和状态回滚。

Context Reflection (上下文反射)：当对话过长导致模型注意力涣散时，系统会自动触发“进程重启”——提取关键状态，交接给一个全新的 Agent 实例，彻底清除旧有的认知负担。
生产与验收分离 (Planner-Generator-Evaluator)：评估者（Evaluator）必须在真实的运行环境（如浏览器、沙箱）中执行代码并根据结果进行验收，而非单纯阅读代码逻辑。

从“写代码”到“设计环境”：工程师的工作不再是硬编码逻辑，而是将复杂目标拆解，并为 Agent 建立闭环反馈链路。
动态目录化管理 (Index Management)：放弃数万字的 agent.md 系统指令，将其改为“目录索引”。模型根据当前任务，按需加载相关的子文档（如：安全规则、特定 API 文档），节省稀缺的上下文窗口。
自动化拦截与纠偏：将资深架构师的经验固化为拦截器（Interceptors）。当 Agent 尝试违反架构规则时，系统拦截请求，并将“修复建议”作为反馈塞回上下文，引导 Agent 自我修复。

Prompt 解决表达，Context 解决信息，Harness 解决执行。
拥抱失败：一个成熟的 Harness 设计必须预设“Agent 会失败”，并为此提供自动恢复机制。
职责分离 (Separation of Concerns)：不要试图用一个巨大的 Prompt 解决所有问题。通过能力分层、职责解耦，让每个模块（Agent 或工具）只在特定的“线束”范围内运行。

结论：AI 的工程化重心正在发生剧烈位移。我们的核心目标已从**“让模型看起来更聪明”转向“让模型在真实世界里稳定地工作”**。Harness Engineering 正是承载这一转变的核心底座。

关联笔记：[[RAG 学习笔记]]