当在线评估器在轨迹中的任何运行上执行时,该轨迹将自动升级为扩展数据保留。此升级会影响轨迹定价,但确保符合您评估标准(通常是那些对分析最有价值的轨迹)的轨迹得以保留以供调查。
查看在线评估器
前往 Tracing Projects 标签页并选择一个追踪项目。要查看该项目的现有在线评估器,请点击 Evaluators 标签页。
配置复合在线评估器
您可以在追踪项目上为在线评估创建复合评估器。通过UI中的复合评估器,您可以计算多个评估器分数的加权平均值或加权总和,并配置权重。
1. 导航到追踪项目
要开始配置复合评估器,请导航到 Tracing Projects 标签页并选择一个项目。 在追踪项目内:+ New > Evaluator > Composite score2. 配置复合评估器
- 为您的评估器命名。
- 选择聚合方法,可以是 Average 或 Sum。
- Average:∑(权重*分数) / ∑(权重)。
- Sum:∑(权重*分数)。
- 添加您希望包含在复合分数中的反馈键。
- 为反馈键添加权重。默认情况下,每个反馈键的权重相等。调整权重以增加或减少特定反馈键在最终分数中的重要性。
- 点击 Create 保存评估器。
3. 查看复合评估器结果
复合分数作为反馈附加到运行上,类似于单个评估器的反馈。 在追踪项目中:- 复合分数显示为运行上的反馈。
- 筛选具有复合分数的运行,或筛选复合分数达到特定阈值的运行。
- 创建图表以可视化复合分数随时间的变化趋势。
如果任何组成评估器未在运行上配置,则该运行的复合分数将不会被计算。
Connect these docs to Claude, VSCode, and more via MCP for real-time answers.


