基础示例
这里,我们将计算 F1 分数,它是精确率和召回率的综合指标。 这类指标只能在整个实验的所有样本上计算,因此我们的评估器接收一个输出列表和一个参考输出列表。evaluate 方法,如下所示:

汇总评估器参数
汇总评估器函数必须具有特定的参数名称。它们可以接受以下任意子集的参数:inputs: list[dict]:对应数据集中单个样本的输入列表。outputs: list[dict]:每个实验在给定输入上产生的字典输出列表。reference_outputs/referenceOutputs: list[dict]:与样本关联的参考输出列表(如果可用)。runs: list[Run]:两个实验在给定样本上生成的完整 Run 对象列表。如果您需要访问每个运行的中间步骤或元数据,请使用此参数。examples: list[Example]:所有数据集 Example 对象,包括样本输入、输出(如果可用)和元数据(如果可用)。
汇总评估器输出
汇总评估器应返回以下类型之一: Python 和 JS/TSdict:形式为{"score": ..., "name": ...}的字典,允许您传递数值或布尔分数以及指标名称。
int | float | bool:这被解释为可以求平均值、排序等的连续指标。函数名称用作指标的名称。
Connect these docs to Claude, VSCode, and more via MCP for real-time answers.

