Skip to main content
多轮在线评估器允许您评估人类与智能体之间的完整对话,而不仅仅是单次交互。它们衡量整个线程中所有轮次交互的端到端质量。 您可以使用多轮评估来测量:
  1. 语义意图:用户试图完成什么。
  2. 语义结果:实际发生了什么,任务是否成功。
  3. 轨迹:对话如何展开,包括工具调用的轨迹。
运行多轮在线评估将自动将线程内的每个跟踪升级为扩展数据保留。此升级会影响跟踪定价,但确保符合您评估标准(通常是分析中最有价值的跟踪)的跟踪得以保留以供调查。

先决条件

  • 您的跟踪项目必须使用线程
  • 线程中每个跟踪的顶层输入和输出必须包含一个 messages 键,其中包含消息列表。我们支持 LangChainOpenAI Chat CompletionsAnthropic Messages 格式的消息。
    • 如果每个跟踪的顶层输入和输出仅包含对话中的最新消息,LangSmith 将自动跨轮次合并消息到线程中。
    • 如果每个跟踪的顶层输入和输出包含完整的对话历史,LangSmith 将直接使用该历史。
如果您的跟踪不符合上述格式,线程级评估器将无法工作。您需要更新向 LangSmith 发送跟踪的方式,以确保每个跟踪的顶层输入和输出包含一个 messages 列表。请参阅故障排除部分了解更多信息。

配置

  1. 导航到 跟踪项目 标签页并选择一个跟踪项目。
  2. 在跟踪项目页面的右上角点击 + 新建 > 新建评估器 > 评估多轮线程
  3. 为评估器命名
  4. 应用过滤器或采样率
    使用过滤器或采样来控制评估器成本。例如,仅评估少于 N 轮的线程或对所有线程采样 10%。
  5. 配置空闲时间
    首次配置线程级评估器时,您需要定义空闲时间——线程中最后一个跟踪之后被视为完成并准备评估的时间量。此值应反映您应用中用户交互的预期长度。它适用于项目中的所有评估器。
首次测试评估器时,使用较短的空闲时间以便快速查看结果。验证后,将其增加到匹配用户交互的预期长度。
  1. 配置您的模型
    选择您希望用于评估器的提供商和模型。线程往往会变得很长,因此应使用具有更高上下文窗口的模型以避免遇到限制。例如,OpenAI 的 GPT-4.1 mini 或 Gemini 2.5 Flash 是不错的选择,因为它们都具有 100 万+ token 的上下文窗口。
  2. 配置您的 LLM 作为评判提示
    定义您要评估的内容。此提示将用于评估线程。您还可以配置 messages 列表的哪些部分传递给评估器以控制其接收的内容:
    • 所有消息:发送完整的消息列表。
    • 人类和 AI 对:仅发送用户和助手消息(排除系统消息、工具调用等)。
    • 第一条人类消息和最后一条 AI 回复:仅发送第一条用户消息和最后一条助手回复。
  3. 设置您的反馈配置
    配置反馈键的名称、您希望收集的反馈格式,并可选择启用反馈推理。
我们不建议对线程级评估器和运行级评估器使用相同的反馈键,因为这可能难以区分两者。
  1. 保存您的评估器。
保存后,您的评估器将出现在 评估器 标签页中。在保存后创建的任何新线程的空闲时间过后,您可以测试它。

限制

以下是多轮在线评估器的当前限制(可能更改)。如果您遇到任何这些限制,请联系我们。
  • 运行必须少于一周:当线程变为空闲时,只有过去 7 天内的运行才有资格进行评估。
  • 一次最多评估 500 个线程:如果您在五分钟内有超过 500 个线程被标记为空闲,我们将自动对超过 500 个线程进行采样。
  • 每个工作区最多 10 个多轮在线评估器

故障排除

检查评估器状态
您可以通过进入跟踪项目内的 评估器 标签页,点击您创建的评估器的 日志 按钮来查看其运行历史,从而检查评估器上次运行的时间。
检查发送给评估器的数据
通过进入跟踪项目内的 评估器 标签页,点击您创建的评估器,然后点击 评估器跟踪 标签页来检查发送给评估器的数据。
在此标签页中,您可以查看传递给 LLM 作为评判评估器的输入。如果您的消息未正确传递,您将在输入中看到空白值。如果您的消息未以预期格式之一格式化,则可能发生这种情况。