设置 LLM 作为裁判的在线评估器

在线评估为您的生产轨迹提供实时反馈。这对于持续监控应用程序性能非常有用——可以识别问题、衡量改进效果，并确保长期保持稳定的质量。 LLM 作为裁判 评估器使用 LLM 来评估轨迹，作为类人判断的可扩展替代方案。本指南涵盖评估单个运行的运行级别评估器。要评估整个对话线程，请参阅多轮在线评估器。

当在线评估器在轨迹中的任何运行上执行时，该轨迹将自动升级为扩展数据保留。此升级会影响轨迹定价，但确保符合您评估标准（通常是那些对分析最有价值的轨迹）的轨迹得以保留以供调查。

查看在线评估器

在 LangSmith UI 中，前往 追踪项目 标签页并选择一个追踪项目。要查看该项目的现有在线评估器，请点击 评估器 标签页。

添加在线评估器

在 LangSmith UI 中，前往 追踪项目 标签页。
选择一个追踪项目。
在追踪项目页面的右上角点击 + 新建。
点击 新建评估器。
选择您要配置的评估器。
为您的评估器命名。

对触发评估器的运行应用过滤器

您可以对触发评估器的运行应用过滤器。您可能希望基于以下情况应用评估器：

运行中用户留下了反馈，表明响应不令人满意。
运行中调用了特定的工具调用。更多信息请参阅筛选工具调用。
运行匹配特定的元数据片段（例如，如果您记录带有 plan_type 的轨迹，并且只想对企业客户的轨迹运行评估）。更多信息请参阅向轨迹添加元数据。

评估器上的过滤器与您在项目中筛选轨迹时的工作方式相同。

在为评估器创建过滤器时，检查运行通常很有帮助。在评估器配置面板打开的情况下，您可以检查运行并对它们应用过滤器。您对运行表应用的任何过滤器将自动反映在评估器的过滤器中。

配置采样率

配置采样率以控制触发自动化操作的已过滤运行的百分比。例如，为了控制成本，您可能希望设置一个过滤器，仅将评估器应用于 10% 的轨迹。为此，您需要将采样率设置为 0.1。

对过去的运行应用规则

通过切换 应用于过去的运行 并输入一个“回填起始日期”，可以将规则应用于过去的运行。这仅在规则创建时可行。

回填作为后台作业处理，因此您不会立即看到结果。

为了跟踪回填进度，您可以查看评估器的日志，方法是前往追踪项目内的 评估器 标签页，并点击您创建的评估器的日志按钮。在线评估器日志类似于自动化规则日志。

添加评估器名称。
可选地筛选您希望应用评估器的运行，或配置采样率。
选择 应用评估器。

配置 LLM 作为裁判的评估器

更多信息请查看 LLM 作为裁判的评估器。

将多模态内容映射到评估器

如果您的轨迹包含图像、音频或文档等多模态内容，您可以在评估器提示中包含此内容。有两种方法：

使用轨迹中的 base64 编码内容：如果您的应用程序将多模态内容作为 base64 编码数据记录在轨迹中（例如，在运行的输入或输出中），您可以使用模板变量在评估器提示中直接引用此内容。评估器将从轨迹中提取 base64 数据并将其传递给 LLM。
使用轨迹中的附件：类似于使用附件的离线评估，您可以在在线评估中使用轨迹中的附件。由于您的轨迹已经包含通过 SDK 记录的附件，您可以直接在评估器中引用它们。
1. 从数据集页面选择 + 评估器。
2. 在 模板变量 编辑器中，为要包含的附件添加一个变量：
  - 如果要包含特定的附件，可以使用建议的变量名，例如 {{attachment.file_name}}，这将映射附件列表中具有 file_name 的文件以传递给评估器。
  - 如果要包含所有附件，请使用 {{attachments}}` 变量。

然后，评估器在评估轨迹时可以访问这些附件。这对于需要以下功能的评估器很有用：

验证图像描述是否与轨迹中的实际图像匹配。
检查转录是否准确反映了音频输入。
验证从文档中提取的文本是否正确。

Edit this page on GitHub or file an issue.

Connect these docs to Claude, VSCode, and more via MCP for real-time answers.

​查看在线评估器

​添加在线评估器

​对触发评估器的运行应用过滤器

​配置采样率

​对过去的运行应用规则

​配置 LLM 作为裁判的评估器

​将多模态内容映射到评估器

查看在线评估器

添加在线评估器

对触发评估器的运行应用过滤器

配置采样率

对过去的运行应用规则

配置 LLM 作为裁判的评估器

将多模态内容映射到评估器