利用人工反馈改进LLM作为评判者的评估器

在阅读本页内容之前，建议先了解以下内容：

可靠的LLM作为评判者的评估器对于就AI应用（例如提示、模型、架构变更）做出明智决策至关重要。正确定义评估器提示可能很困难，但它直接影响评估的可信度。本指南介绍如何利用人工反馈来校准您的LLM作为评判者的评估器，以提高评估器的质量，并帮助您构建可靠的AI应用。

工作原理

LangSmith的校准评估器功能包含一系列步骤，可帮助您根据人类专家反馈来校准LLM作为评判者的评估器。您可以使用此功能来校准用于离线评估或在线评估的数据集上运行的评估器。无论哪种情况，步骤都类似：

选择实验或运行，其中包含来自您应用的输出。
将选定的实验或运行添加到标注队列中，供人类专家标注数据。
针对已标注的示例测试您的LLM作为评判者的评估器提示。检查评估器结果与标注数据不一致的情况。这表明您的评估器提示需要改进的地方。
优化并重复以提高评估器校准度。更新您的LLM作为评判者的评估器提示并再次测试。

先决条件

在开始本指南进行离线评估或在线评估之前，您需要满足以下条件：

离线评估

一个包含至少一个实验的数据集。
您需要通过SDK或UI上传或创建数据集，并通过SDK或Playground运行实验。

在线评估

一个已向LangSmith发送追踪的应用。
通过追踪集成之一进行配置以开始。

开始使用

您可以在数据集和追踪项目中为新评估器和现有评估器进入校准流程。

	数据集评估器	追踪项目评估器
从头创建校准的评估器	1. 数据集与实验并选择您的数据集 2. 点击 + 评估器 > 从标注数据创建 3. 输入描述性的反馈键名称（例如 `correctness`、`hallucination`）	1. 项目并选择您的项目 2. 点击 + 新建 > 评估器 > 从标注数据创建 3. 输入描述性的反馈键名称（例如 `correctness`、`hallucination`）
校准现有评估器	1. 数据集与实验 > 选择您的数据集 > 评估器标签页 2. 在使用实验数据校准评估器框中，点击选择 实验	1. 项目 > 选择您的项目 > 评估器标签页 2. 在使用实验数据校准评估器框中，点击选择实验

1. 选择实验或运行

选择一个或多个实验（或运行）以发送给人类标注。这会将运行添加到标注队列。

要将任何新实验/运行添加到现有标注队列，请前往评估器标签页，选择您正在校准的评估器，然后点击添加到队列。

数据集应能代表您预期在生产中看到的输入和输出。虽然您不需要涵盖所有可能场景，但重要的是包含涵盖所有预期用例范围的示例。例如，如果您正在构建一个回答有关棒球、篮球和足球问题的体育机器人，您的数据集应至少包含每项运动的一个标注示例。

2. 标注示例

通过添加反馈分数来标注标注队列中的示例。标注完示例后，点击添加到参考数据集。

如果您的实验中有大量示例，您不需要标注每个示例即可开始。我们建议至少从20个示例开始，您以后随时可以添加更多。我们建议您标注的示例具有多样性（0和1标签平衡），以确保您构建的评估器提示全面。

3. 针对已标注的示例测试您的评估器提示

一旦您有了标注的示例，下一步就是迭代您的评估器提示，以尽可能模仿标注的数据。此迭代在评估器Playground中完成。要进入评估器playground：点击评估器队列右上角的查看评估器按钮。这将带您到您正在校准的评估器的详情页。点击评估器Playground按钮以访问playground。

在评估器playground中，您可以创建或编辑您的评估器提示，并点击开始校准以在第2步中创建的已标注示例集上运行它。运行评估器后，您将看到其生成的分数与您的人工标签相比如何。校准分数是评估器判断与人类专家判断一致的示例百分比。

4. 重复以提高评估器校准度

通过更新您的提示并再次测试来迭代，以提高评估器校准度。

对评估器提示的更新默认不保存。我们建议定期保存您的评估器提示，尤其是在您看到校准分数提高后。当您在迭代提示时，评估器playground将显示最近保存的评估器提示版本的校准分数以供比较。

提高评估器的校准分数并非一门精确科学，但有一些策略有助于提高校准分数。

提高评估器校准度的技巧

1. 调查未校准的示例 深入研究未校准的示例并尝试将它们归类为常见的失败模式，是提高评估器校准度的良好第一步。一旦确定了常见的失败模式，请向您的评估器提示中添加说明，以便LLM了解它们。例如，如果您注意到它不理解特定的缩写，您可以解释“MFA代表‘多因素认证’”。或者，如果它在您的评估器上下文中对好/坏的含义感到困惑，您可以告诉它“一个好的响应应始终包含至少3个可预订的酒店”。 2. 检查LLM评分背后的推理 为了理解LLM为何以某种方式评分某个示例，您可以启用LLM作为评判者的评估器的推理功能。推理有助于理解LLM的思维过程，并可以帮助您识别常见的失败模式，以便将其纳入您的评估器提示中。为了在评估器playground中查看推理，请将鼠标悬停在LLM分数上。

这将在评估器playground中显示LLM评分背后的推理。 3. 添加更多标注示例并验证性能 为了避免对标注示例过拟合，添加更多标注示例并测试性能非常重要，尤其是如果您开始时示例数量较少。

视频指南

Edit this page on GitHub or file an issue.

Connect these docs to Claude, VSCode, and more via MCP for real-time answers.

Documentation Index

​工作原理

​先决条件

​离线评估

​在线评估

​开始使用

​1. 选择实验或运行

​2. 标注示例

​3. 针对已标注的示例测试您的评估器提示

​4. 重复以提高评估器校准度

​提高评估器校准度的技巧

​视频指南

工作原理

先决条件

离线评估

在线评估

开始使用

1. 选择实验或运行

2. 标注示例

3. 针对已标注的示例测试您的评估器提示

4. 重复以提高评估器校准度

提高评估器校准度的技巧

视频指南