Skip to main content
当无法通过编程方式评估系统时,使用 LLM 作为评估器(LLM-as-a-judge)会非常有帮助。然而,其效果取决于评估器的质量以及与人工审核反馈的一致性。LangSmith 提供了通过少量示例来提升 LLM 作为评估器与人工偏好一致性的能力。 人工修正会自动通过少量示例插入到评估器提示中。少量示例技术灵感来源于少量样本提示(few-shot prompting),它通过少量高质量示例来引导模型输出。 本指南将介绍如何为 LLM 作为评估器设置少量示例,并应用修正来调整反馈分数。

少量示例的工作原理

  • 少量示例通过 {{Few-shot examples}} 变量添加到评估器提示中
  • 创建带有少量示例的评估器时,系统会自动为您创建一个数据集,一旦开始进行修正,该数据集将自动填充少量示例
  • 在运行时,这些示例将被插入到评估器中,作为其输出的指导——这将帮助评估器更好地与人工偏好保持一致

配置评估器

少量示例目前不支持使用提示中心(prompt hub)的 LLM 作为评估器,仅兼容使用 Mustache 格式的提示。
在启用少量示例之前,请先设置您的 LLM 作为评估器。如果尚未完成此步骤,请按照 LLM 作为评估器指南 中的步骤操作。

1. 配置变量映射

每个少量示例都根据配置中指定的变量映射进行格式化。少量示例的变量映射应包含与主提示相同的变量,外加一个 few_shot_explanation 变量和一个 score 变量,该变量应与您的反馈键(feedback key)同名。 例如,如果您的主提示包含变量 questionresponse,并且您的评估器输出一个 correctness 分数,那么您的少量示例提示应包含变量 questionresponsefew_shot_explanationcorrectness

2. 指定使用的少量示例数量

您还可以指定要使用的少量示例数量。默认值为 5。如果您的示例非常长,您可能希望将此数字设置得更低以节省令牌;而如果您的示例通常较短,则可以设置更高的数字,以便为评估器提供更多学习示例。如果您的数据集中有超过此数量的示例,系统将随机为您选择。

进行修正

当您开始记录追踪或运行实验时,您可能会对评估器给出的某些分数持有不同意见。当您对这些分数进行修正时,您将开始看到修正数据集中填充的示例。在进行修正时,请务必附上解释——这些解释将替换 few_shot_explanation 变量,填充到您的评估器提示中。 少量示例的输入将来自您的链/数据集的输入、输出和参考(如果这是离线评估器)中的相关字段。输出将是修正后的评估器分数以及您在留下修正时创建的解释。您可以随意编辑这些内容。以下是一个修正数据集中少量示例的示例: 少量示例 请注意,修正可能需要一两分钟才能填充到您的少量示例数据集中。一旦填充完成,未来运行评估器时就会在提示中包含它们!

查看修正数据集

要查看您的修正数据集:
  • 在线评估器:选择您的运行规则并点击 编辑规则
  • 离线评估器:选择您的评估器并点击 编辑评估器
编辑评估器 前往 通过少量示例提高评估器准确性 部分中链接的修正数据集。您可以在数据集中查看和更新您的少量示例。 查看少量示例数据集