# 1. **反应式 / 工具调用型 Agent (Reactive / Tool-Calling Agents)** 这是最基础也是目前工业界使用最广泛的单Agent模式。它依赖大模型单步“思考”并直接做出动作。 - ReAct (Reasoning and Acting): 经典的“思考-行动-观察”循环。模型通过纯文本解析工具描述。 - Tool-Calling (OpenAI Functions/Tools): 现代主流。依赖经过专门微调的大模型(如GPT-4、Claude 3等),模型原生支持输出结构化的JSON函数签名。 - 适用场景: 相对简单的单线任务,如查询数据库并总结、执行单个Python脚本。 # 2. **规划与执行型 Agent (Plan-and-Execute Agents)** 这种模式将“大脑的慢思考”和“手的快动作”分离开来。 - 工作流: 面对复杂任务时,首先由一个 Planner(规划者)生成多步计划,然后交由 Executor(执行者,通常是基础的工具调用Agent)逐个步骤执行。执行完毕后再由 Planner 评估是否完成整体目标。 - 适用场景: 长周期任务,例如给出一个模糊的指令“分析这个代码仓库的漏洞并生成修复报告”,需要拆解为拉取代码、静态扫描、生成报告等多步操作。 3. 拓扑式多智能体系统 (Multi-Agent via LangGraph) 随着LangGraph的推出,LangChain的重点转向了基于状态机(State Graph)的多Agent编排。它不再局限于单体行为,而是构建一个团队。 - Supervisor 模式(协调者模式): 一个中心化的 Orchestrator 负责接收任务,并像路由器一样决定下一步将状态传递给哪一个专业的 Worker(例如 Architect 负责设计,Engineer 负责编码)。 - Hierarchical / Network 模式(层级/网状模式): Agent之间形成明确的上下级或对等的流转关系,每个节点既可以是一个大模型,也可以是另一组复杂的子图。 # 二、 各类型Agent的针对性评测策略 在LangChain生态中(尤其是结合 LangSmith 等观测平台),评测已经从单纯的“答案对不对”转向了轨迹评测(Trajectory Evaluation)。 ## 1. 反应式 / 工具调用型 Agent:注重“精准度” 对于底层的“干活”Agent,评测的核心是它与外部环境交互的准确性。 - 工具选择准确率 (Tool Selection Accuracy): 面对特定上下文,Agent是否选择了正确的工具?(例如:应该调用run_pytest时,是否错误地调用了git_commit?) - 参数提取精确度 (Argument Extraction Exact Match): 模型生成的JSON参数是否与工具要求的Schema 100% 匹配? - 评测方法: 通常使用基于测试集的数据驱动评测。向Agent输入预设的Context,断言(Assert)其输出的工具名称和参数字典。 ## 2. 规划与执行型 Agent:注重“逻辑与鲁棒性” 这里的评测难度急剧上升,因为局部正确不代表全局正确。 - 计划有效性 (Plan Validity): 由 LLM-as-a-Judge(另一个高阶模型)来评估 Planner 拆解出的步骤序列是否合理。是否存在缺失步骤或死循环逻辑? - 步骤达成率 (Step Success Rate): 记录 Executor 在执行计划列表时,能够成功走完多少步。如果经常在第2步崩溃,说明拆解粒度可能过粗。 - 异常恢复率 (Error Recovery): 故意在执行某个子步骤(如运行测试脚本)时注入报错,评测Agent是否能根据报错信息(Observation)重新规划并修正。 ### 3. 拓扑式多Agent (LangGraph):注重“路由与状态机收敛” 对于复杂的协作框架,评测的视角必须拉高到系统架构层面。 - 路由准确率 (Routing Accuracy): Orchestrator/Supervisor 是否将任务分发给了正确的下游节点?比如它是否把“重构底层架构”的请求错误地交给了只拥有执行权限的底层脚本Agent。 - 状态转换合法性 (State Transition Validity): 检查日志,确保状态机(FSM)流转严格遵守了预设的边(Edges)。是否存在越权流转? - 收敛时间与成本 (Convergence Metrics): 评测整个多Agent协作网络完成一次闭环的平均耗时、流转步数(Steps)以及总Token消耗。如果在 Architect 和 Engineer 之间发生了高频的、无法收敛的“修改-报错”乒乓效应,这就是架构失控的标志。 三、 实践中的评测工具与流水线 在实际工程中,上述评测通常通过以下方式落地: 1. LangSmith 轨迹评估: LangChain 官方的数据集平台,允许你捕捉一个完整运行轨迹(Run Tree),并对轨迹中的特定环节(如大模型的某次Thought或某个工具的Output)配置自动化评估器。 2. 持续集成 (CI/CD) 中的基准测试: 像评测传统软件一样,维护一套复杂任务的 Benchmark(类似测试框架领域的 OpenCompass 思路,但应用于自定义场景)。每次更新Agent的 System Prompt 或新增 Skills 时,必须在 CI 流水线中跑通这些测试。