如何通过少量示例提升评估器性能

当无法通过编程方式评估系统时，使用 LLM 作为评估器（LLM-as-a-judge）会非常有帮助。然而，其效果取决于评估器的质量以及与人工审核反馈的一致性。LangSmith 提供了通过少量示例来提升 LLM 作为评估器与人工偏好一致性的能力。人工修正会自动通过少量示例插入到评估器提示中。少量示例技术灵感来源于少量样本提示（few-shot prompting），它通过少量高质量示例来引导模型输出。本指南将介绍如何为 LLM 作为评估器设置少量示例，并应用修正来调整反馈分数。

少量示例的工作原理

少量示例通过 {{Few-shot examples}} 变量添加到评估器提示中
创建带有少量示例的评估器时，系统会自动为您创建一个数据集，一旦开始进行修正，该数据集将自动填充少量示例
在运行时，这些示例将被插入到评估器中，作为其输出的指导——这将帮助评估器更好地与人工偏好保持一致

配置评估器

少量示例目前不支持使用提示中心（prompt hub）的 LLM 作为评估器，仅兼容使用 Mustache 格式的提示。

在启用少量示例之前，请先设置您的 LLM 作为评估器。如果尚未完成此步骤，请按照 LLM 作为评估器指南中的步骤操作。

1. 配置变量映射

每个少量示例都根据配置中指定的变量映射进行格式化。少量示例的变量映射应包含与主提示相同的变量，外加一个 few_shot_explanation 变量和一个 score 变量，该变量应与您的反馈键（feedback key）同名。例如，如果您的主提示包含变量 question 和 response，并且您的评估器输出一个 correctness 分数，那么您的少量示例提示应包含变量 question、response、few_shot_explanation 和 correctness。

2. 指定使用的少量示例数量

您还可以指定要使用的少量示例数量。默认值为 5。如果您的示例非常长，您可能希望将此数字设置得更低以节省令牌；而如果您的示例通常较短，则可以设置更高的数字，以便为评估器提供更多学习示例。如果您的数据集中有超过此数量的示例，系统将随机为您选择。

进行修正

审核评估器分数

当您开始记录追踪或运行实验时，您可能会对评估器给出的某些分数持有不同意见。当您对这些分数进行修正时，您将开始看到修正数据集中填充的示例。在进行修正时，请务必附上解释——这些解释将替换 few_shot_explanation 变量，填充到您的评估器提示中。少量示例的输入将来自您的链/数据集的输入、输出和参考（如果这是离线评估器）中的相关字段。输出将是修正后的评估器分数以及您在留下修正时创建的解释。您可以随意编辑这些内容。以下是一个修正数据集中少量示例的示例：

请注意，修正可能需要一两分钟才能填充到您的少量示例数据集中。一旦填充完成，未来运行评估器时就会在提示中包含它们！

查看修正数据集

要查看您的修正数据集：

在线评估器：选择您的运行规则并点击 编辑规则
离线评估器：选择您的评估器并点击 编辑评估器

前往 通过少量示例提高评估器准确性 部分中链接的修正数据集。您可以在数据集中查看和更新您的少量示例。

Edit this page on GitHub or file an issue.

Connect these docs to Claude, VSCode, and more via MCP for real-time answers.

​少量示例的工作原理

​配置评估器

​1. 配置变量映射

​2. 指定使用的少量示例数量

​进行修正

​查看修正数据集

少量示例的工作原理

配置评估器

1. 配置变量映射

2. 指定使用的少量示例数量

进行修正

查看修正数据集