您也可以通过 SDK 以编程方式管理标注队列和反馈配置。请参阅 以编程方式管理反馈和标注队列。
- 单运行标注队列 一次呈现一个运行,并允许审阅者提交您配置的任何评分标准反馈。
- 成对标注队列 (PAQs) 并排呈现两个运行,以便审阅者根据您定义的评分标准项目快速决定哪个输出更好(或者它们是否等效)。
单运行标注队列
单运行队列一次呈现一个运行,并允许审阅者提交您配置的任何评分标准反馈。可以直接从 LangSmith UI 的 标注队列 部分创建。创建单运行队列
- 在左侧导航栏中,导航到 标注队列。
-
点击右上角的 + 新建标注队列。

基本详情
- 填写队列的 名称 和 描述。
- 可选地分配一个 默认数据集,以简化将已审阅的运行导出到 LangSmith 工作空间 中的数据集。
标注评分标准
- 为您的标注者起草一些高级说明,这些说明将在每个运行的侧边栏中显示。
- 点击 + 期望反馈 将反馈键添加到您的标注队列。标注者将在每个运行上看到这些反馈键。
-
为每个反馈键添加描述,如果反馈是分类的,还需添加每个类别的简短描述。
例如,使用上图中的描述,审阅者将在 UI 的右侧窗格中看到 标注评分标准 详情。

协作者设置
当有多个标注者审阅一个运行时:-
每个运行的审阅者数量:这决定了必须将运行标记为 已完成 才能将其从队列中移除的审阅者数量。如果您勾选 所有工作空间成员审阅每个运行,那么一个运行将保留在队列中,直到所有 工作空间 成员都将其审阅标记为 已完成。
- 审阅者无法查看其他审阅者留下的反馈。
- 运行上的评论对所有审阅者可见。
-
启用运行预留:当审阅者查看一个运行时,该运行会为该审阅者预留指定的 预留时长。如果如上所述每个运行有多个审阅者,则该运行可以同时被多个审阅者预留(最多达到每个运行的审阅者数量)。
如果审阅者查看了一个运行,然后离开而未将其标记为 已完成,预留将在指定的 预留时长 后过期。然后该运行将被释放回队列,并可以被其他审阅者预留。
点击 重新排队 以重新标注一个运行,只会将当前运行移动到当前用户队列的末尾;它不会影响任何其他用户的队列顺序。它还会释放当前用户对该运行的预留。
将运行分配到单运行队列
有几种方法可以将工作项填充到单运行队列中:-
从追踪视图:在任何 追踪 视图的右上角点击 添加到标注队列。您可以添加任何中间 运行,但不能添加根跨度。

-
从运行表:选择多个运行,然后点击页面底部的 添加到标注队列。

- 自动化规则:设置规则 以自动将匹配筛选条件(例如,错误或低用户评分)的运行分配到队列中。
-
数据集和实验:在数据集中选择一个或多个 实验,然后点击 标注。选择现有队列或创建新队列,然后确认(单运行)队列选项。

审阅单运行队列
- 通过左侧导航栏导航到 标注队列 部分。
- 点击您要审阅的队列。这将带您进入一个专注的、循环的视图,显示队列中需要审阅的运行。
-
您可以附加评论、为特定的 反馈 标准附加评分、将运行添加到数据集或将运行标记为已审阅。您也可以通过点击 查看运行 旁边的 垃圾桶 图标 ,从队列中为所有用户移除该运行,无论该队列当前的预留或设置如何。

成对标注队列
成对标注队列 (PAQs) 并排呈现两个运行,以便审阅者根据您定义的评分标准项目快速决定哪个输出更好(或者它们是否等效)。它们专为两个实验(通常是基线模型与候选模型)之间的快速 A/B 比较而设计,必须从 数据集和实验 页面创建。创建成对队列
- 导航到 数据集和实验,打开一个数据集,并选择您想要比较的 恰好两个实验。
-
点击 标注。在弹出窗口中,选择 添加到成对标注队列。(只有在恰好选择两个实验后,该按钮才会启用。)

- 决定是将实验发送到现有的成对队列还是创建新队列。
-
提供队列详情:
- 基本详情(名称和描述)
- 说明和评分标准,针对成对评分定制
- 协作者设置(审阅者数量、预留、预留时长)
- 提交表单以创建队列。LangSmith 会立即将两个实验中的运行配对并填充队列。
- 实验:您必须预先提供两个实验会话。LangSmith 会自动按时间顺序配对它们的运行,并在创建过程中填充队列。
- 评分标准:成对评分标准项目只需要一个反馈键和(可选的)描述。标注者决定对于每个评分标准项目,运行 A、运行 B 还是两者都更好。
- 数据集:成对队列不使用默认数据集,因为比较跨越两个实验。
- 预留和审阅者:相同的协作者控制适用。预留有助于防止两个人同时评判同一个比较。
向成对队列添加更多比较
如果您稍后需要添加更多比较,请返回 数据集和实验,再次选择两个实验,并选择 添加到成对标注队列 以追加新的配对。 选择两个实验并创建 PAQ 会自动配对运行。当扩展现有 PAQ 时,LangSmith 会保留历史比较,并将新的配对追加到队列中。审阅成对队列
- 从 标注队列 中,选择您要审阅的成对队列。
- 每个队列项在左侧显示运行 A,右侧显示运行 B,以及您的评分标准。
- 对于每个评分标准项目:
- 选择 A 更好、B 更好 或 相等。UI 会在后台记录两个运行的二进制反馈。
- 使用快捷键
A、B或E来锁定您的选择。
- 完成所有评分标准项目后,按 完成(或在最后一个评分标准项目上按
Enter)以进入下一个比较。 - 可选操作:
- 留下与任一运行相关的评论。
- 如果您需要稍后重新审阅,可以重新排队该比较。
- 打开完整的追踪视图以进行更深入的调试。

考虑将已具有用户反馈(例如,点踩)的运行路由到单运行队列进行分类,并路由到成对队列以与更强的基线进行头对头比较。这有助于您快速识别回归。要了解更多关于如何从您的 LLM 应用程序捕获用户反馈的信息,请遵循 附加用户反馈 指南。
视频指南
Connect these docs to Claude, VSCode, and more via MCP for real-time answers.

