Auto Agent 系统文档

量化标准 + 自动验证 + 重试循环 + 校准进化。
人类只审批规则，不审结果。

Agent

10

含 Coach + Surgeon

验证器

9

7 确定性 + 2 LLM

宪法规则

6

不可变红线

代码规模

52K+

行 / 39 模块

任务库

1,564

来自 50+ 类型

执行流水线

Input Agent

自然语言
→ task.json

LLM

→

Quantify Agent

拆解定性需求
为可测维度

LLM

→

Standard Agent

生成确定性
验证标准

LLM

→

Adversary

红队攻击
标准漏洞

R1

→

用户审批

审标准
不审结果

人类

→

Task Agent

执行任务
生成输出

LLM

→

Verify

9 种验证器
全自动判定

确定性

→

校准反馈

用户满意度
维度库进化

Meta

Verify 失败 → Coach 介入（场景化建议） → 四层智能重试：L1 修补 → L2 诊断换策略 → L3 拆解组合 → L4 标准审查

Coach Agent（外部教练）

独立进程（coach.py），在 verify 失败、task 开始/结束、batch 间隔时被事件触发。
8 条规则检测（score_plateau / env_error / layer_thrashing / score_no_progress 等）+ 8 个场景化 coaching prompt。
Pattern 自校准飞轮：有效建议强化，无效建议自动衰减归档。三权分立：Coach 只建议，run_loop 决策。

四层智能重试

信号驱动的分层重试。每一层不只是策略变化，更是对问题本质理解的深化。Coach Agent 根据失败信号（分数平台期、环境错误、层级震荡等）决定升级时机。

L1

结构化反馈

passes/failures 分离
直接修补输出

L2

诊断换策略

Diagnosis Agent
root cause + strategy

L3

拆解组合

Decompose → 子任务
→ Compose 合并

L4

标准审查

Standard Review
+ 用户决策

可选：

竞争式并行 3 Persona × ThreadPoolExecutor → 取最高分

验证器库（9 种）

compute

eval Python 表达式，返回 True/False

确定性

regex

对指定字段逐条正则匹配

确定性

schema

检查必需字段是否存在

确定性

unique

检查字段值无重复

确定性

exist

检查文件是否存在

确定性

test

执行 shell 命令，检查 exit code

确定性

compose

串行执行多个子检查器

确定性

llm_judge

独立 LLM 多维度打分评估

LLM 评审

consensus

多模型投票，共识即通过

LLM 共识

关键设计决策

反应试

Task Agent 只看标准的自然语言描述，看不到具体 expression/regex/threshold。防止"对着答案做题"。

验证零 LLM

7 个确定性验证器完全不依赖 LLM。llm_judge 和 consensus 用独立模型，不是让考生自己批卷。

维度自测

Quantify Agent 生成维度后，自动生成错误输出测试维度的区分度。维度抓不到坏数据 = 无效维度。

校准飞轮

每次用户反馈 → 维度库更新 → 下次量化更精准。任务做得越多，系统对质量标准的理解越深。

三层路由

任务路由：直接回答（无代码输出）→ 轻量纪律（单文件+自动验证）→ auto-agent（多文件+LLM 评分+无人值守）。不是每个任务都需要重武器。

文档

从这里开始

项目全景：从想法到自主闭环约 7.7k 字，阅读约 16 分钟

2026-02-22 · 一篇读懂 Auto Agent：动机、架构、实战、教训、未来方向

入门

设计哲学与核心洞察约 3.4k 字，阅读约 7 分钟

2026-02-21 · 为什么做 Auto Agent、验证零 LLM、反应试、宪法系统、校准飞轮

系统架构全貌约 9k 字，阅读约 18 分钟

2026-02-21 · 三层架构、10 Agent 编排、9 Checker、四层重试、数据流

深入

Agent 说明书约 1.8 万字，阅读约 36 分钟

2026-02-21 · 10 个 Agent 的定位、输入输出、模型、Prompt 策略、设计决策

Checker 说明书约 1.4 万字，阅读约 28 分钟

2026-02-21 · 9 个验证器的配置格式、示例、判定逻辑、踩坑点

四层智能重试详解约 5.6k 字，阅读约 12 分钟

2026-02-21 · L1-L4 逐层详解、竞争式并行、完整 trace 示例

进阶

v2 增强：五项核心能力约 2.1k 字，阅读约 5 分钟

2026-02-21 · 异构并行、失败熔断、daemon 集成、report 持久化、校准飞轮

自我进化系统设计约 1.4 万字，阅读约 28 分钟

2026-02-21 · Adversary 对抗、校准飞轮、Benchmark 校准、Architect Agent

复盘与可靠性架构约 3.6k 字，阅读约 8 分钟

2026-02-21 · api-001 事件分析、6 个系统假设、Preflight Check、三层自监控

结果

114 任务 Benchmark 报告约 4.2k 字，阅读约 9 分钟

2026-02-22 · 全量 Benchmark：按难度/类型/来源分析、Checker 统计、失败根因、成本分析

系统能力评估报告约 4.5k 字，阅读约 9 分钟

2026-02-22 · 6 维评估：能力天花板/稳健性/成长速度/泛化/效率/验证保真度

执行结果分析（早期 9 任务）约 7.7k 字，阅读约 16 分钟

2026-02-21 · 早期 9 个任务完整分析、成功/失败案例、统计数据、能力边界

MVP 验证报告约 3.2k 字，阅读约 7 分钟

2026-02-21 · mvp-001 首次测试、13/13 一次通过、性能数据

进化

进化指标体系约 4.8k 字，阅读约 10 分钟

2026-02-23 · 四层进化方向（内生性/任务/泛化/目标自定义）的量化度量框架

自进化系统总体设计约 2.8 万字，阅读约 56 分钟

2026-02-24 · 经验沉淀、规则进化、Plugin 系统、Surgeon 代码自修复、四层进化架构全景

Surgeon / 代码自修复

Surgeon 三层分离架构约 4.5k 字，阅读约 9 分钟

2026-02-24 · cc-daemon → surgeon → auto-agent 三层分离、安全机制、实施路线

Maintenance Agent 6 项改造约 3.4k 字，阅读约 7 分钟

2026-02-24 · Patch JSON 化、全文件上下文、fault_attribution 诊断、few-shot、二次审查、真实验证

Surgeon 风险修复（6 项）约 9.2k 字，阅读约 19 分钟

2026-02-24 · P0 数据隔离/并发互斥、P1 全量测试/canary 回归、P2 循环熔断/前缀统一

未来

路线图约 3.2k 字，阅读约 7 分钟

2026-02-21 · Phase 1-5：修基础 → 跑量 → VPS 自主运行 → 自我进化 → 领域应用