在阅读本页内容之前,建议先了解以下内容:
工作原理
LangSmith的校准评估器功能包含一系列步骤,可帮助您根据人类专家反馈来校准LLM作为评判者的评估器。您可以使用此功能来校准用于离线评估或在线评估的数据集上运行的评估器。无论哪种情况,步骤都类似:- 选择实验或运行,其中包含来自您应用的输出。
- 将选定的实验或运行添加到标注队列中,供人类专家标注数据。
- 针对已标注的示例测试您的LLM作为评判者的评估器提示。检查评估器结果与标注数据不一致的情况。这表明您的评估器提示需要改进的地方。
- 优化并重复以提高评估器校准度。更新您的LLM作为评判者的评估器提示并再次测试。
先决条件
在开始本指南进行离线评估或在线评估之前,您需要满足以下条件:离线评估
在线评估
- 一个已向LangSmith发送追踪的应用。
- 通过追踪集成之一进行配置以开始。
开始使用
您可以在数据集和追踪项目中为新评估器和现有评估器进入校准流程。| 数据集评估器 | 追踪项目评估器 | |
|---|---|---|
| 从头创建校准的评估器 | 1. 数据集与实验并选择您的数据集 2. 点击 + 评估器 > 从标注数据创建 3. 输入描述性的反馈键名称(例如 correctness、hallucination) | 1. 项目并选择您的项目 2. 点击 + 新建 > 评估器 > 从标注数据创建 3. 输入描述性的反馈键名称(例如 correctness、hallucination) |
| 校准现有评估器 | 1. 数据集与实验 > 选择您的数据集 > 评估器标签页 2. 在使用实验数据校准评估器框中,点击选择 实验 | 1. 项目 > 选择您的项目 > 评估器标签页 2. 在使用实验数据校准评估器框中,点击选择实验 |
1. 选择实验或运行
选择一个或多个实验(或运行)以发送给人类标注。这会将运行添加到标注队列。
数据集应能代表您预期在生产中看到的输入和输出。虽然您不需要涵盖所有可能场景,但重要的是包含涵盖所有预期用例范围的示例。例如,如果您正在构建一个回答有关棒球、篮球和足球问题的体育机器人,您的数据集应至少包含每项运动的一个标注示例。
2. 标注示例
通过添加反馈分数来标注标注队列中的示例。标注完示例后,点击添加到参考数据集。如果您的实验中有大量示例,您不需要标注每个示例即可开始。我们建议至少从20个示例开始,您以后随时可以添加更多。我们建议您标注的示例具有多样性(0和1标签平衡),以确保您构建的评估器提示全面。
3. 针对已标注的示例测试您的评估器提示
一旦您有了标注的示例,下一步就是迭代您的评估器提示,以尽可能模仿标注的数据。此迭代在评估器Playground中完成。 要进入评估器playground:点击评估器队列右上角的查看评估器按钮。这将带您到您正在校准的评估器的详情页。点击评估器Playground按钮以访问playground。
4. 重复以提高评估器校准度
通过更新您的提示并再次测试来迭代,以提高评估器校准度。对评估器提示的更新默认不保存。我们建议定期保存您的评估器提示,尤其是在您看到校准分数提高后。当您在迭代提示时,评估器playground将显示最近保存的评估器提示版本的校准分数以供比较。
提高评估器校准度的技巧
1. 调查未校准的示例 深入研究未校准的示例并尝试将它们归类为常见的失败模式,是提高评估器校准度的良好第一步。 一旦确定了常见的失败模式,请向您的评估器提示中添加说明,以便LLM了解它们。例如,如果您注意到它不理解特定的缩写,您可以解释“MFA代表‘多因素认证’”。或者,如果它在您的评估器上下文中对好/坏的含义感到困惑,您可以告诉它“一个好的响应应始终包含至少3个可预订的酒店”。 2. 检查LLM评分背后的推理 为了理解LLM为何以某种方式评分某个示例,您可以启用LLM作为评判者的评估器的推理功能。推理有助于理解LLM的思维过程,并可以帮助您识别常见的失败模式,以便将其纳入您的评估器提示中。 为了在评估器playground中查看推理,请将鼠标悬停在LLM分数上。
视频指南
Connect these docs to Claude, VSCode, and more via MCP for real-time answers.

