若要在生产环境追踪记录中实时运行评估,请参阅设置在线评估。
步骤1. 创建评估器
- 在LangSmith UI中,可通过Playground或数据集创建评估器:点击 + Evaluator 按钮。
- 从下拉菜单中选择 Create from scratch 选项。您也可以先选择预置评估器并进行编辑。
预置评估器
预置评估器是设置评估时的实用起点。LangSmith UI支持以下预置评估器:- 幻觉检测:检测事实性错误的输出。需要参考输出。
- 正确性:检查与参考内容的语义相似度。
- 简洁性:评估回答是否简洁回应问题。
- 代码检查器:验证代码答案的正确性。
- 使用Playground运行评估时
- 作为数据集的一部分以在实验中自动运行评估
- 运行在线评估时
自定义您的LLM作为评判者评估器
为您的LLM作为评判者评估器提示词添加具体指令,并配置应将输入/输出/参考输出的哪些部分传递给评估器。步骤2. 配置评估器
提示词
创建新提示词,或从提示词中心选择现有提示词。- 创建自定义提示词:在线创建自定义提示词。
- 从提示词中心拉取提示词:使用 Select a prompt 下拉菜单选择现有提示词。您无法在提示词编辑器中直接编辑这些提示词,但可以查看提示词及其使用的架构。如需修改,请在Playground中编辑提示词并提交版本,然后在评估器中拉取新提示词。
模型
从提供的选项中选择所需模型。变量映射
使用变量映射来指定从您的运行记录或示例传递到评估器提示词的变量。为辅助变量映射,系统会提供参考示例(或运行记录)。点击提示词中的变量,使用下拉菜单将其映射到输入、输出或参考输出的相关部分。 如需添加提示词变量,若使用mustache格式(默认),请键入带双花括号的变量{{prompt_var}};若使用f-string格式,请键入带单花括号的变量 {prompt_var}。
您可以根据需要移除变量。例如,当评估简洁性等指标时,通常不需要参考输出,因此可以移除该变量。
预览
预览提示词将显示使用右侧参考运行记录和数据集示例格式化后的提示词效果。通过少样本示例改进评估器
为使LLM作为评判者评估器更贴合人类偏好,LangSmith允许您收集评估器分数上的人工修正。启用此选项后,修正将自动作为少样本示例插入到您的提示词中。 了解如何设置少样本示例并进行修正。反馈配置
反馈配置是您的LLM作为评判者评估器将使用的评分标准。可将其视为评估器进行评分的评分准则。分数将作为反馈添加到运行记录或示例中。为评估器定义反馈:- 命名反馈键:这是在查看评估结果时显示的名称。名称应在不同实验间保持唯一。
- 添加描述:描述该反馈所代表的含义。
-
选择反馈类型:
- 布尔型:真/假反馈。
- 分类型:从预定义类别中选择。
- 连续型:在指定范围内的数值评分。
步骤3. 保存评估器
完成配置后,保存您的更改。Connect these docs to Claude, VSCode, and more via MCP for real-time answers.

