如何定义基于LLM作为评判者的评估器

由于LLM应用通常生成对话式文本，且不存在唯一正确答案，因此评估起来可能具有挑战性。本指南将向您展示如何使用LangSmith UI为离线评估定义基于LLM作为评判者的评估器。

若要在生产环境追踪记录中实时运行评估，请参阅设置在线评估。

步骤1. 创建评估器

在LangSmith UI中，可通过Playground或数据集创建评估器：点击 + Evaluator 按钮。
从下拉菜单中选择 Create from scratch 选项。您也可以先选择预置评估器并进行编辑。

预置评估器

预置评估器是设置评估时的实用起点。LangSmith UI支持以下预置评估器：

幻觉检测：检测事实性错误的输出。需要参考输出。
正确性：检查与参考内容的语义相似度。
简洁性：评估回答是否简洁回应问题。
代码检查器：验证代码答案的正确性。

您可以在以下场景配置这些评估器：

使用Playground运行评估时
作为数据集的一部分以在实验中自动运行评估
运行在线评估时

自定义您的LLM作为评判者评估器

为您的LLM作为评判者评估器提示词添加具体指令，并配置应将输入/输出/参考输出的哪些部分传递给评估器。

步骤2. 配置评估器

提示词

创建新提示词，或从提示词中心选择现有提示词。

创建自定义提示词：在线创建自定义提示词。
从提示词中心拉取提示词：使用 Select a prompt 下拉菜单选择现有提示词。您无法在提示词编辑器中直接编辑这些提示词，但可以查看提示词及其使用的架构。如需修改，请在Playground中编辑提示词并提交版本，然后在评估器中拉取新提示词。

模型

从提供的选项中选择所需模型。

变量映射

使用变量映射来指定从您的运行记录或示例传递到评估器提示词的变量。为辅助变量映射，系统会提供参考示例（或运行记录）。点击提示词中的变量，使用下拉菜单将其映射到输入、输出或参考输出的相关部分。如需添加提示词变量，若使用mustache格式（默认），请键入带双花括号的变量 {{prompt_var}}；若使用f-string格式，请键入带单花括号的变量 {prompt_var}。您可以根据需要移除变量。例如，当评估简洁性等指标时，通常不需要参考输出，因此可以移除该变量。

预览

预览提示词将显示使用右侧参考运行记录和数据集示例格式化后的提示词效果。

通过少样本示例改进评估器

为使LLM作为评判者评估器更贴合人类偏好，LangSmith允许您收集评估器分数上的人工修正。启用此选项后，修正将自动作为少样本示例插入到您的提示词中。了解如何设置少样本示例并进行修正。

反馈配置

反馈配置是您的LLM作为评判者评估器将使用的评分标准。可将其视为评估器进行评分的评分准则。分数将作为反馈添加到运行记录或示例中。为评估器定义反馈：

命名反馈键：这是在查看评估结果时显示的名称。名称应在不同实验间保持唯一。
添加描述：描述该反馈所代表的含义。
选择反馈类型：
- 布尔型：真/假反馈。
- 分类型：从预定义类别中选择。
- 连续型：在指定范围内的数值评分。

在底层实现中，反馈配置会作为结构化输出添加到LLM作为评判者提示词中。如果您使用提示词中心的现有提示词，必须在配置评估器使用前向提示词添加输出架构。输出架构中的每个顶层键都将被视为独立的反馈项。

步骤3. 保存评估器

完成配置后，保存您的更改。

Edit this page on GitHub or file an issue.

Connect these docs to Claude, VSCode, and more via MCP for real-time answers.

​步骤1. 创建评估器

​预置评估器

​自定义您的LLM作为评判者评估器

​步骤2. 配置评估器

​提示词

​模型

​变量映射

​预览

​通过少样本示例改进评估器

​反馈配置

​步骤3. 保存评估器

步骤1. 创建评估器

预置评估器

自定义您的LLM作为评判者评估器

步骤2. 配置评估器

提示词

模型

变量映射

预览

通过少样本示例改进评估器

反馈配置

步骤3. 保存评估器