使用标注队列 - LangChain中文版文档

标注队列 为人工标注者提供了一个简化的定向视图，用于为特定的运行附加反馈。虽然您始终可以内联标注追踪，但标注队列提供了一种将运行分组、规定评分标准并跟踪审阅者进度的方式。

您也可以通过 SDK 以编程方式管理标注队列和反馈配置。请参阅以编程方式管理反馈和标注队列。

LangSmith 支持两种队列样式：

单运行标注队列 一次呈现一个运行，并允许审阅者提交您配置的任何评分标准反馈。
成对标注队列 (PAQs) 并排呈现两个运行，以便审阅者根据您定义的评分标准项目快速决定哪个输出更好（或者它们是否等效）。

要了解如何使用标注队列，请观看标注队列入门视频指南。

单运行标注队列

单运行队列一次呈现一个运行，并允许审阅者提交您配置的任何评分标准反馈。可以直接从 LangSmith UI 的 标注队列 部分创建。

创建单运行队列

在左侧导航栏中，导航到 标注队列。
点击右上角的 + 新建标注队列。

基本详情

填写队列的名称和描述。
可选地分配一个 默认数据集，以简化将已审阅的运行导出到 LangSmith 工作空间中的数据集。

标注评分标准

为您的标注者起草一些高级说明，这些说明将在每个运行的侧边栏中显示。
点击 + 期望反馈 将反馈键添加到您的标注队列。标注者将在每个运行上看到这些反馈键。
为每个反馈键添加描述，如果反馈是分类的，还需添加每个类别的简短描述。例如，使用上图中的描述，审阅者将在 UI 的右侧窗格中看到 标注评分标准 详情。

协作者设置

当有多个标注者审阅一个运行时：

每个运行的审阅者数量：这决定了必须将运行标记为 已完成 才能将其从队列中移除的审阅者数量。如果您勾选 所有工作空间成员审阅每个运行，那么一个运行将保留在队列中，直到所有工作空间成员都将其审阅标记为 已完成。
- 审阅者无法查看其他审阅者留下的反馈。
- 运行上的评论对所有审阅者可见。
启用运行预留：当审阅者查看一个运行时，该运行会为该审阅者预留指定的 预留时长。如果如上所述每个运行有多个审阅者，则该运行可以同时被多个审阅者预留（最多达到每个运行的审阅者数量）。
我们建议启用预留。这将防止多个标注者同时审阅同一个运行。
如果审阅者查看了一个运行，然后离开而未将其标记为 已完成，预留将在指定的 预留时长 后过期。然后该运行将被释放回队列，并可以被其他审阅者预留。
点击 重新排队 以重新标注一个运行，只会将当前运行移动到当前用户队列的末尾；它不会影响任何其他用户的队列顺序。它还会释放当前用户对该运行的预留。

由于这些设置，每个审阅者可见的运行数量可能与总队列大小不同。您可以稍后通过 标注队列 中的铅笔图标重新访问并更新任何设置。

将运行分配到单运行队列

有几种方法可以将工作项填充到单运行队列中：

从追踪视图：在任何追踪视图的右上角点击 添加到标注队列。您可以添加任何中间运行，但不能添加根跨度。
从运行表：选择多个运行，然后点击页面底部的 添加到标注队列。
自动化规则：设置规则以自动将匹配筛选条件（例如，错误或低用户评分）的运行分配到队列中。
数据集和实验：在数据集中选择一个或多个实验，然后点击标注。选择现有队列或创建新队列，然后确认（单运行）队列选项。

审阅单运行队列

通过左侧导航栏导航到 标注队列 部分。
点击您要审阅的队列。这将带您进入一个专注的、循环的视图，显示队列中需要审阅的运行。
您可以附加评论、为特定的反馈标准附加评分、将运行添加到数据集或将运行标记为已审阅。您也可以通过点击 查看运行 旁边的 垃圾桶 图标，从队列中为所有用户移除该运行，无论该队列当前的预留或设置如何。
每个选项旁边的键盘快捷键可以帮助简化审阅过程。

成对标注队列

成对标注队列 (PAQs) 并排呈现两个运行，以便审阅者根据您定义的评分标准项目快速决定哪个输出更好（或者它们是否等效）。它们专为两个实验（通常是基线模型与候选模型）之间的快速 A/B 比较而设计，必须从 数据集和实验 页面创建。

创建成对队列

导航到 数据集和实验，打开一个数据集，并选择您想要比较的 恰好两个实验。
点击标注。在弹出窗口中，选择 添加到成对标注队列。（只有在恰好选择两个实验后，该按钮才会启用。）
决定是将实验发送到现有的成对队列还是创建新队列。
提供队列详情：
- 基本详情（名称和描述）
- 说明和评分标准，针对成对评分定制
- 协作者设置（审阅者数量、预留、预留时长）
提交表单以创建队列。LangSmith 会立即将两个实验中的运行配对并填充队列。

PAQs 的关键区别：

实验：您必须预先提供两个实验会话。LangSmith 会自动按时间顺序配对它们的运行，并在创建过程中填充队列。
评分标准：成对评分标准项目只需要一个反馈键和（可选的）描述。标注者决定对于每个评分标准项目，运行 A、运行 B 还是两者都更好。
数据集：成对队列不使用默认数据集，因为比较跨越两个实验。
预留和审阅者：相同的协作者控制适用。预留有助于防止两个人同时评判同一个比较。

向成对队列添加更多比较

如果您稍后需要添加更多比较，请返回 数据集和实验，再次选择两个实验，并选择 添加到成对标注队列 以追加新的配对。选择两个实验并创建 PAQ 会自动配对运行。当扩展现有 PAQ 时，LangSmith 会保留历史比较，并将新的配对追加到队列中。

审阅成对队列

从 标注队列 中，选择您要审阅的成对队列。
每个队列项在左侧显示运行 A，右侧显示运行 B，以及您的评分标准。
对于每个评分标准项目：
- 选择 A 更好、B 更好 或相等。UI 会在后台记录两个运行的二进制反馈。
- 使用快捷键 A、B 或 E 来锁定您的选择。
完成所有评分标准项目后，按完成（或在最后一个评分标准项目上按 Enter）以进入下一个比较。
可选操作：
- 留下与任一运行相关的评论。
- 如果您需要稍后重新审阅，可以重新排队该比较。
- 打开完整的追踪视图以进行更深入的调试。

预留、审阅者阈值和评论的行为与单运行队列中的行为相同，使团队能够使用不同的队列类型，而无需修改其现有工作流程。

考虑将已具有用户反馈（例如，点踩）的运行路由到单运行队列进行分类，并路由到成对队列以与更强的基线进行头对头比较。这有助于您快速识别回归。要了解更多关于如何从您的 LLM 应用程序捕获用户反馈的信息，请遵循附加用户反馈指南。

视频指南

Edit this page on GitHub or file an issue.

Connect these docs to Claude, VSCode, and more via MCP for real-time answers.

​单运行标注队列

​创建单运行队列

​基本详情

​标注评分标准

​协作者设置

​将运行分配到单运行队列

​审阅单运行队列

​成对标注队列

​创建成对队列

​向成对队列添加更多比较

​审阅成对队列

​视频指南

单运行标注队列

创建单运行队列

基本详情

标注评分标准

协作者设置

将运行分配到单运行队列

审阅单运行队列

成对标注队列

创建成对队列

向成对队列添加更多比较

审阅成对队列

视频指南