Auto Agent

Auto Agent 系统文档

量化标准 + 自动验证 + 重试循环 + 校准进化。
人类只审批规则,不审结果。

Agent
10
含 Coach + Surgeon
验证器
9
7 确定性 + 2 LLM
宪法规则
6
不可变红线
代码规模
52K+
行 / 39 模块
任务库
1,564
来自 50+ 类型
执行流水线
Input Agent
自然语言
→ task.json
LLM
Quantify Agent
拆解定性需求
为可测维度
LLM
Standard Agent
生成确定性
验证标准
LLM
Adversary
红队攻击
标准漏洞
R1
用户审批
审标准
不审结果
人类
Task Agent
执行任务
生成输出
LLM
Verify
9 种验证器
全自动判定
确定性
校准反馈
用户满意度
维度库进化
Meta

Verify 失败 → Coach 介入(场景化建议) → 四层智能重试:L1 修补 → L2 诊断换策略 → L3 拆解组合 → L4 标准审查

Coach Agent(外部教练)
独立进程(coach.py),在 verify 失败、task 开始/结束、batch 间隔时被事件触发。
8 条规则检测(score_plateau / env_error / layer_thrashing / score_no_progress 等)+ 8 个场景化 coaching prompt。
Pattern 自校准飞轮:有效建议强化,无效建议自动衰减归档。三权分立:Coach 只建议,run_loop 决策。
四层智能重试

信号驱动的分层重试。每一层不只是策略变化,更是对问题本质理解的深化。Coach Agent 根据失败信号(分数平台期、环境错误、层级震荡等)决定升级时机。

L1
结构化反馈
passes/failures 分离
直接修补输出
L2
诊断换策略
Diagnosis Agent
root cause + strategy
L3
拆解组合
Decompose → 子任务
→ Compose 合并
L4
标准审查
Standard Review
+ 用户决策
可选:
竞争式并行 3 Persona × ThreadPoolExecutor → 取最高分
验证器库(9 种)
compute
eval Python 表达式,返回 True/False
确定性
regex
对指定字段逐条正则匹配
确定性
schema
检查必需字段是否存在
确定性
unique
检查字段值无重复
确定性
exist
检查文件是否存在
确定性
test
执行 shell 命令,检查 exit code
确定性
compose
串行执行多个子检查器
确定性
llm_judge
独立 LLM 多维度打分评估
LLM 评审
consensus
多模型投票,共识即通过
LLM 共识
关键设计决策
反应试
Task Agent 只看标准的自然语言描述,看不到具体 expression/regex/threshold。防止"对着答案做题"。
验证零 LLM
7 个确定性验证器完全不依赖 LLM。llm_judge 和 consensus 用独立模型,不是让考生自己批卷。
维度自测
Quantify Agent 生成维度后,自动生成错误输出测试维度的区分度。维度抓不到坏数据 = 无效维度。
校准飞轮
每次用户反馈 → 维度库更新 → 下次量化更精准。任务做得越多,系统对质量标准的理解越深。
三层路由
任务路由:直接回答(无代码输出)→ 轻量纪律(单文件+自动验证)→ auto-agent(多文件+LLM 评分+无人值守)。不是每个任务都需要重武器。
文档
从这里开始
🎯
项目全景:从想法到自主闭环 约 7.7k 字,阅读约 16 分钟
2026-02-22 · 一篇读懂 Auto Agent:动机、架构、实战、教训、未来方向
入门
💡
设计哲学与核心洞察 约 3.4k 字,阅读约 7 分钟
2026-02-21 · 为什么做 Auto Agent、验证零 LLM、反应试、宪法系统、校准飞轮
📋
系统架构全貌 约 9k 字,阅读约 18 分钟
2026-02-21 · 三层架构、10 Agent 编排、9 Checker、四层重试、数据流
深入
🤖
Agent 说明书 约 1.8 万字,阅读约 36 分钟
2026-02-21 · 10 个 Agent 的定位、输入输出、模型、Prompt 策略、设计决策
🔍
Checker 说明书 约 1.4 万字,阅读约 28 分钟
2026-02-21 · 9 个验证器的配置格式、示例、判定逻辑、踩坑点
🔄
四层智能重试详解 约 5.6k 字,阅读约 12 分钟
2026-02-21 · L1-L4 逐层详解、竞争式并行、完整 trace 示例
进阶
v2 增强:五项核心能力 约 2.1k 字,阅读约 5 分钟
2026-02-21 · 异构并行、失败熔断、daemon 集成、report 持久化、校准飞轮
🫮
自我进化系统设计 约 1.4 万字,阅读约 28 分钟
2026-02-21 · Adversary 对抗、校准飞轮、Benchmark 校准、Architect Agent
🛡️
复盘与可靠性架构 约 3.6k 字,阅读约 8 分钟
2026-02-21 · api-001 事件分析、6 个系统假设、Preflight Check、三层自监控
结果
📈
114 任务 Benchmark 报告 约 4.2k 字,阅读约 9 分钟
2026-02-22 · 全量 Benchmark:按难度/类型/来源分析、Checker 统计、失败根因、成本分析
🎯
系统能力评估报告 约 4.5k 字,阅读约 9 分钟
2026-02-22 · 6 维评估:能力天花板/稳健性/成长速度/泛化/效率/验证保真度
📊
执行结果分析(早期 9 任务) 约 7.7k 字,阅读约 16 分钟
2026-02-21 · 早期 9 个任务完整分析、成功/失败案例、统计数据、能力边界
MVP 验证报告 约 3.2k 字,阅读约 7 分钟
2026-02-21 · mvp-001 首次测试、13/13 一次通过、性能数据
进化
🧠
进化指标体系 约 4.8k 字,阅读约 10 分钟
2026-02-23 · 四层进化方向(内生性/任务/泛化/目标自定义)的量化度量框架
⚙️
自进化系统总体设计 约 2.8 万字,阅读约 56 分钟
2026-02-24 · 经验沉淀、规则进化、Plugin 系统、Surgeon 代码自修复、四层进化架构全景
Surgeon / 代码自修复
🩸
Surgeon 三层分离架构 约 4.5k 字,阅读约 9 分钟
2026-02-24 · cc-daemon → surgeon → auto-agent 三层分离、安全机制、实施路线
🛠️
Maintenance Agent 6 项改造 约 3.4k 字,阅读约 7 分钟
2026-02-24 · Patch JSON 化、全文件上下文、fault_attribution 诊断、few-shot、二次审查、真实验证
🛡️
Surgeon 风险修复(6 项) 约 9.2k 字,阅读约 19 分钟
2026-02-24 · P0 数据隔离/并发互斥、P1 全量测试/canary 回归、P2 循环熔断/前缀统一
未来
🗺️
路线图 约 3.2k 字,阅读约 7 分钟
2026-02-21 · Phase 1-5:修基础 → 跑量 → VPS 自主运行 → 自我进化 → 领域应用