当在线评估器在轨迹中的任何运行上执行时,该轨迹将自动升级为 扩展数据保留。此升级会影响轨迹定价,但确保符合您评估标准(通常是那些对分析最有价值的轨迹)的轨迹得以保留以供调查。
查看在线评估器
在 LangSmith UI 中,前往 追踪项目 标签页并选择一个追踪项目。要查看该项目的现有在线评估器,请点击 评估器 标签页。
添加在线评估器
- 在 LangSmith UI 中,前往 追踪项目 标签页。
- 选择一个追踪项目。
- 在追踪项目页面的右上角点击 + 新建。
- 点击 新建评估器。
- 选择您要配置的评估器。
- 为您的评估器命名。
对触发评估器的运行应用过滤器
您可以对触发评估器的运行应用过滤器。您可能希望基于以下情况应用评估器:- 运行中 用户留下了反馈,表明响应不令人满意。
- 运行中调用了特定的工具调用。更多信息请参阅 筛选工具调用。
- 运行匹配特定的元数据片段(例如,如果您记录带有
plan_type的轨迹,并且只想对企业客户的轨迹运行评估)。更多信息请参阅 向轨迹添加元数据。
配置采样率
配置采样率以控制触发自动化操作的已过滤运行的百分比。例如,为了控制成本,您可能希望设置一个过滤器,仅将评估器应用于 10% 的轨迹。为此,您需要将采样率设置为 0.1。对过去的运行应用规则
通过切换 应用于过去的运行 并输入一个“回填起始日期”,可以将规则应用于过去的运行。这仅在规则创建时可行。回填作为后台作业处理,因此您不会立即看到结果。
- 添加评估器名称。
- 可选地筛选您希望应用评估器的运行,或配置采样率。
- 选择 应用评估器。
配置 LLM 作为裁判的评估器
更多信息请查看 LLM 作为裁判的评估器。将多模态内容映射到评估器
如果您的轨迹包含图像、音频或文档等多模态内容,您可以在评估器提示中包含此内容。有两种方法:- 使用轨迹中的 base64 编码内容:如果您的应用程序将多模态内容作为 base64 编码数据记录在轨迹中(例如,在运行的输入或输出中),您可以使用模板变量在评估器提示中直接引用此内容。评估器将从轨迹中提取 base64 数据并将其传递给 LLM。
-
使用轨迹中的附件:类似于 使用附件的离线评估,您可以在在线评估中使用轨迹中的附件。由于您的轨迹已经包含通过 SDK 记录的附件,您可以直接在评估器中引用它们。

- 从数据集页面选择 + 评估器。
- 在 模板变量 编辑器中,为要包含的附件添加一个变量:
- 如果要包含特定的附件,可以使用建议的变量名,例如
{{attachment.file_name}},这将映射附件列表中具有file_name的文件以传递给评估器。 - 如果要包含所有附件,请使用
{{attachments}}` 变量。
- 如果要包含特定的附件,可以使用建议的变量名,例如
- 验证图像描述是否与轨迹中的实际图像匹配。
- 检查转录是否准确反映了音频输入。
- 验证从文档中提取的文本是否正确。
Connect these docs to Claude, VSCode, and more via MCP for real-time answers.


