Agent分类及评测方案 - 于明浩

# 1. **反应式 / 工具调用型 Agent (Reactive / Tool-Calling Agents)** 这是最基础也是目前工业界使用最广泛的单Agent模式。它依赖大模型单步“思考”并直接做出动作。 - ReAct (Reasoning and Acting): 经典的“思考-行动-观察”循环。模型通过纯文本解析工具描述。 - Tool-Calling (OpenAI Functions/Tools): 现代主流。依赖经过专门微调的大模型（如GPT-4、Claude 3等），模型原生支持输出结构化的JSON函数签名。 - 适用场景：相对简单的单线任务，如查询数据库并总结、执行单个Python脚本。 # 2. **规划与执行型 Agent (Plan-and-Execute Agents)** 这种模式将“大脑的慢思考”和“手的快动作”分离开来。 - 工作流：面对复杂任务时，首先由一个 Planner（规划者）生成多步计划，然后交由 Executor（执行者，通常是基础的工具调用Agent）逐个步骤执行。执行完毕后再由 Planner 评估是否完成整体目标。 - 适用场景：长周期任务，例如给出一个模糊的指令“分析这个代码仓库的漏洞并生成修复报告”，需要拆解为拉取代码、静态扫描、生成报告等多步操作。 3. 拓扑式多智能体系统 (Multi-Agent via LangGraph) 随着LangGraph的推出，LangChain的重点转向了基于状态机（State Graph）的多Agent编排。它不再局限于单体行为，而是构建一个团队。 - Supervisor 模式（协调者模式）：一个中心化的 Orchestrator 负责接收任务，并像路由器一样决定下一步将状态传递给哪一个专业的 Worker（例如 Architect 负责设计，Engineer 负责编码）。 - Hierarchical / Network 模式（层级/网状模式）： Agent之间形成明确的上下级或对等的流转关系，每个节点既可以是一个大模型，也可以是另一组复杂的子图。 # 二、各类型Agent的针对性评测策略在LangChain生态中（尤其是结合 LangSmith 等观测平台），评测已经从单纯的“答案对不对”转向了轨迹评测（Trajectory Evaluation）。 ## 1. 反应式 / 工具调用型 Agent：注重“精准度” 对于底层的“干活”Agent，评测的核心是它与外部环境交互的准确性。 - 工具选择准确率 (Tool Selection Accuracy)：面对特定上下文，Agent是否选择了正确的工具？（例如：应该调用run_pytest时，是否错误地调用了git_commit？） - 参数提取精确度 (Argument Extraction Exact Match)：模型生成的JSON参数是否与工具要求的Schema 100% 匹配？ - 评测方法：通常使用基于测试集的数据驱动评测。向Agent输入预设的Context，断言（Assert）其输出的工具名称和参数字典。 ## 2. 规划与执行型 Agent：注重“逻辑与鲁棒性” 这里的评测难度急剧上升，因为局部正确不代表全局正确。 - 计划有效性 (Plan Validity)：由 LLM-as-a-Judge（另一个高阶模型）来评估 Planner 拆解出的步骤序列是否合理。是否存在缺失步骤或死循环逻辑？ - 步骤达成率 (Step Success Rate)：记录 Executor 在执行计划列表时，能够成功走完多少步。如果经常在第2步崩溃，说明拆解粒度可能过粗。 - 异常恢复率 (Error Recovery)：故意在执行某个子步骤（如运行测试脚本）时注入报错，评测Agent是否能根据报错信息（Observation）重新规划并修正。 ### 3. 拓扑式多Agent (LangGraph)：注重“路由与状态机收敛” 对于复杂的协作框架，评测的视角必须拉高到系统架构层面。 - 路由准确率 (Routing Accuracy)： Orchestrator/Supervisor 是否将任务分发给了正确的下游节点？比如它是否把“重构底层架构”的请求错误地交给了只拥有执行权限的底层脚本Agent。 - 状态转换合法性 (State Transition Validity)：检查日志，确保状态机（FSM）流转严格遵守了预设的边（Edges）。是否存在越权流转？ - 收敛时间与成本 (Convergence Metrics)：评测整个多Agent协作网络完成一次闭环的平均耗时、流转步数（Steps）以及总Token消耗。如果在 Architect 和 Engineer 之间发生了高频的、无法收敛的“修改-报错”乒乓效应，这就是架构失控的标志。三、实践中的评测工具与流水线在实际工程中，上述评测通常通过以下方式落地： 1. LangSmith 轨迹评估： LangChain 官方的数据集平台，允许你捕捉一个完整运行轨迹（Run Tree），并对轨迹中的特定环节（如大模型的某次Thought或某个工具的Output）配置自动化评估器。 2. 持续集成 (CI/CD) 中的基准测试：像评测传统软件一样，维护一套复杂任务的 Benchmark（类似测试框架领域的 OpenCompass 思路，但应用于自定义场景）。每次更新Agent的 System Prompt 或新增 Skills 时，必须在 CI 流水线中跑通这些测试。