Skip to main content
标注队列 为人工标注者提供了一个简化的定向视图,用于为特定的 运行 附加反馈。虽然您始终可以内联标注 追踪,但标注队列提供了一种将运行分组、规定评分标准并跟踪审阅者进度的方式。
您也可以通过 SDK 以编程方式管理标注队列和反馈配置。请参阅 以编程方式管理反馈和标注队列
LangSmith 支持两种队列样式:
  • 单运行标注队列 一次呈现一个运行,并允许审阅者提交您配置的任何评分标准反馈。
  • 成对标注队列 (PAQs) 并排呈现两个运行,以便审阅者根据您定义的评分标准项目快速决定哪个输出更好(或者它们是否等效)。
要了解如何使用标注队列,请观看 标注队列入门 视频指南。

单运行标注队列

单运行队列一次呈现一个运行,并允许审阅者提交您配置的任何评分标准反馈。可以直接从 LangSmith UI标注队列 部分创建。

创建单运行队列

  1. 在左侧导航栏中,导航到 标注队列
  2. 点击右上角的 + 新建标注队列 创建标注队列表单,包含基本详情、标注评分标准和反馈部分。

基本详情

  1. 填写队列的 名称描述
  2. 可选地分配一个 默认数据集,以简化将已审阅的运行导出到 LangSmith 工作空间 中的数据集。

标注评分标准

  1. 为您的标注者起草一些高级说明,这些说明将在每个运行的侧边栏中显示。
  2. 点击 + 期望反馈 将反馈键添加到您的标注队列。标注者将在每个运行上看到这些反馈键。
  3. 为每个反馈键添加描述,如果反馈是分类的,还需添加每个类别的简短描述。 标注队列评分标准表单,已输入说明和期望反馈。 例如,使用上图中的描述,审阅者将在 UI 的右侧窗格中看到 标注评分标准 详情。 来自示例说明的审阅者评分标准渲染效果。

协作者设置

当有多个标注者审阅一个运行时:
  • 每个运行的审阅者数量:这决定了必须将运行标记为 已完成 才能将其从队列中移除的审阅者数量。如果您勾选 所有工作空间成员审阅每个运行,那么一个运行将保留在队列中,直到所有 工作空间 成员都将其审阅标记为 已完成
    • 审阅者无法查看其他审阅者留下的反馈。
    • 运行上的评论对所有审阅者可见。
  • 启用运行预留:当审阅者查看一个运行时,该运行会为该审阅者预留指定的 预留时长。如果如上所述每个运行有多个审阅者,则该运行可以同时被多个审阅者预留(最多达到每个运行的审阅者数量)。
    我们建议启用预留。这将防止多个标注者同时审阅同一个运行。
    如果审阅者查看了一个运行,然后离开而未将其标记为 已完成,预留将在指定的 预留时长 后过期。然后该运行将被释放回队列,并可以被其他审阅者预留。
    点击 重新排队 以重新标注一个运行,只会将当前运行移动到当前用户队列的末尾;它不会影响任何其他用户的队列顺序。它还会释放当前用户对该运行的预留。
由于这些设置,每个审阅者可见的运行数量可能与总队列大小不同。 您可以稍后通过 标注队列 中的铅笔图标 重新访问并更新任何设置。

将运行分配到单运行队列

有几种方法可以将工作项填充到单运行队列中:
  • 从追踪视图:在任何 追踪 视图的右上角点击 添加到标注队列。您可以添加任何中间 运行,但不能添加根跨度。 追踪视图,屏幕顶部的“添加到标注队列”按钮高亮显示。
  • 从运行表:选择多个运行,然后点击页面底部的 添加到标注队列 运行表视图,已选择运行。页面底部有“添加到标注队列”按钮。
  • 自动化规则设置规则 以自动将匹配筛选条件(例如,错误或低用户评分)的运行分配到队列中。
  • 数据集和实验:在数据集中选择一个或多个 实验,然后点击 标注。选择现有队列或创建新队列,然后确认(单运行)队列选项。 已选择的实验,页面底部有“标注”按钮。

审阅单运行队列

  1. 通过左侧导航栏导航到 标注队列 部分。
  2. 点击您要审阅的队列。这将带您进入一个专注的、循环的视图,显示队列中需要审阅的运行。
  3. 您可以附加评论、为特定的 反馈 标准附加评分、将运行添加到数据集或将运行标记为已审阅。您也可以通过点击 查看运行 旁边的 垃圾桶 图标 ,从队列中为所有用户移除该运行,无论该队列当前的预留或设置如何。
    每个选项旁边的键盘快捷键可以帮助简化审阅过程。
    运行的视图,带有标注侧面板。选项旁可见键盘快捷键。

成对标注队列

成对标注队列 (PAQs) 并排呈现两个运行,以便审阅者根据您定义的评分标准项目快速决定哪个输出更好(或者它们是否等效)。它们专为两个实验(通常是基线模型与候选模型)之间的快速 A/B 比较而设计,必须从 数据集和实验 页面创建。

创建成对队列

  1. 导航到 数据集和实验,打开一个数据集,并选择您想要比较的 恰好两个实验
  2. 点击 标注。在弹出窗口中,选择 添加到成对标注队列。(只有在恰好选择两个实验后,该按钮才会启用。) 弹出窗口,显示选择两个实验后高亮显示的“添加到成对标注队列”卡片。
  3. 决定是将实验发送到现有的成对队列还是创建新队列。
  4. 提供队列详情:
    • 基本详情(名称和描述)
    • 说明和评分标准,针对成对评分定制
    • 协作者设置(审阅者数量、预留、预留时长)
  5. 提交表单以创建队列。LangSmith 会立即将两个实验中的运行配对并填充队列。
PAQs 的关键区别:
  • 实验:您必须预先提供两个实验会话。LangSmith 会自动按时间顺序配对它们的运行,并在创建过程中填充队列。
  • 评分标准:成对评分标准项目只需要一个反馈键和(可选的)描述。标注者决定对于每个评分标准项目,运行 A、运行 B 还是两者都更好。
  • 数据集:成对队列不使用默认数据集,因为比较跨越两个实验。
  • 预留和审阅者:相同的协作者控制适用。预留有助于防止两个人同时评判同一个比较。

向成对队列添加更多比较

如果您稍后需要添加更多比较,请返回 数据集和实验,再次选择两个实验,并选择 添加到成对标注队列 以追加新的配对。 选择两个实验并创建 PAQ 会自动配对运行。当扩展现有 PAQ 时,LangSmith 会保留历史比较,并将新的配对追加到队列中。

审阅成对队列

  1. 标注队列 中,选择您要审阅的成对队列。
  2. 每个队列项在左侧显示运行 A,右侧显示运行 B,以及您的评分标准。
  3. 对于每个评分标准项目:
    • 选择 A 更好B 更好相等。UI 会在后台记录两个运行的二进制反馈。
    • 使用快捷键 ABE 来锁定您的选择。
  4. 完成所有评分标准项目后,按 完成(或在最后一个评分标准项目上按 Enter)以进入下一个比较。
  5. 可选操作:
    • 留下与任一运行相关的评论。
    • 如果您需要稍后重新审阅,可以重新排队该比较。
    • 打开完整的追踪视图以进行更深入的调试。
预留、审阅者阈值和评论的行为与单运行队列中的行为相同,使团队能够使用不同的队列类型,而无需修改其现有工作流程。 成对审阅屏幕,显示并排的运行,反馈面板包含 A/B/相等按钮和键盘快捷键。
考虑将已具有用户反馈(例如,点踩)的运行路由到单运行队列进行分类,并路由到成对队列以与更强的基线进行头对头比较。这有助于您快速识别回归。要了解更多关于如何从您的 LLM 应用程序捕获用户反馈的信息,请遵循 附加用户反馈 指南。

视频指南