agentevals 包提供了专门设计用于使用实时模型测试智能体轨迹的评估器。
本指南涵盖开源的 LangChain
agentevals 包,该包与 LangSmith 集成以进行轨迹评估。轨迹匹配
为给定输入硬编码一个参考轨迹,并通过逐步比较来验证运行。适用于测试明确定义的工作流,其中你了解预期行为。当对应该调用哪些工具以及调用顺序有特定期望时使用。这种方法具有确定性、快速且成本效益高,因为它不需要额外的 LLM 调用。
LLM 作为评判器
使用 LLM 来定性验证智能体的执行轨迹。“评判器” LLM 根据提示标准(可以包含参考轨迹)来审查智能体的决策。更灵活,可以评估效率和适当性等细微方面,但需要 LLM 调用且确定性较低。当你想评估智能体轨迹的整体质量和合理性,而没有严格的工具调用或顺序要求时使用。
安装 AgentEvals
轨迹匹配评估器
AgentEvals 在 Python 中提供create_trajectory_match_evaluator 函数,在 TypeScript 中提供 createTrajectoryMatchEvaluator 函数,用于将智能体的轨迹与参考轨迹进行匹配。
你可以使用以下模式:
严格匹配
strict 模式确保轨迹包含完全相同的消息顺序和相同的工具调用,但允许消息内容存在差异。当你需要强制执行特定的操作序列时,这很有用,例如要求在授权操作之前进行策略查找。
无序匹配
unordered 模式允许相同的工具调用以任意顺序出现,当你想要验证正确的工具集被调用但不关心顺序时,这很有帮助。例如,智能体可能需要检查城市的天气和活动,但顺序无关紧要。
子集和超集匹配
superset 和 subset 模式关注的是调用了哪些工具,而不是工具调用的顺序,允许你控制智能体的工具调用与参考轨迹的对齐严格程度。
- 使用
superset模式时,你想验证执行中调用了几个关键工具,但允许智能体调用额外的工具。智能体的轨迹必须至少包含参考轨迹中的所有工具调用,并且可以包含超出参考的额外工具调用。 - 使用
subset模式来确保智能体的效率,验证智能体没有调用任何超出参考轨迹的不相关或不必要的工具。智能体的轨迹必须仅包含出现在参考轨迹中的工具调用。
superset 模式,其中参考轨迹仅要求 get_weather 工具,但智能体可以调用额外的工具:
你还可以通过设置
tool_args_match_mode(Python)或 toolArgsMatchMode(TypeScript)属性以及 tool_args_match_overrides(Python)或 toolArgsMatchOverrides(TypeScript)属性,来自定义评估器如何考虑实际轨迹与参考轨迹之间工具调用的相等性。默认情况下,只有具有相同参数且调用相同工具的工具调用才被视为相等。访问仓库了解更多详情。LLM 作为评判器评估器
本节涵盖来自
agentevals 包的特定于轨迹的 LLM 作为评判器评估器。有关 LangSmith 中通用的 LLM 作为评判器评估器,请参考 LLM 作为评判器评估器。无参考轨迹
有参考轨迹
如果你有参考轨迹,可以向提示中添加额外的变量并传入参考轨迹。下面,我们使用预构建的TRAJECTORY_ACCURACY_PROMPT_WITH_REFERENCE 提示,并配置 reference_outputs 变量:
要获得关于 LLM 如何评估轨迹的更多可配置性,请访问仓库。
异步支持(Python)
所有agentevals 评估器都支持 Python asyncio。对于使用工厂函数的评估器,可以通过在函数名中的 create_ 后添加 async 来获得异步版本。
以下是使用异步评判器和评估器的示例:
Connect these docs to Claude, VSCode, and more via MCP for real-time answers.

