要使用 SDK 以编程方式定义代码评估器,请参考 如何定义代码评估器 (SDK)。
步骤 1. 创建评估器
- 在 LangSmith UI 的以下任一页面中创建评估器:
- 在 Playground 或数据集中:选择 + Evaluator 按钮。
- 选择 Add rules,配置您的规则并选择 Apply evaluator。
- 为您的评估器起一个清晰的名称,描述其衡量内容(例如,“精确匹配”)。
- 从评估器类型选项中选择 Create code evaluator。
步骤 2. 编写评估器代码
自定义代码评估器限制。允许的库:您可以导入所有标准库函数,以及以下公共包:网络访问:您无法从自定义代码评估器访问互联网。
perform_eval,并且应:
- 接受
run和example参数。 - 通过
run['inputs']、run['outputs']和example['outputs']访问数据。 - 返回一个字典,其中每个键是一个指标名称,每个值是该指标的分数。每个键代表您想要返回的一条反馈。例如,
{"correctness": 1, "silliness": 0}将在运行中创建两条反馈。
函数签名
示例:精确匹配评估器
示例:基于输入的评估器
步骤 3. 测试并保存
- 在示例数据上测试您的评估器,确保其按预期工作。
- 点击 Save 使评估器可供使用。
使用您的代码评估器
创建后,您可以在以下场景中使用您的代码评估器:- 从 Playground 运行评估时。
- 作为数据集的一部分,在实验上自动运行评估。
相关链接
- LLM 作为评判者评估器 (UI):使用 LLM 评估输出。
- 复合评估器:组合多个评估器分数。
Connect these docs to Claude, VSCode, and more via MCP for real-time answers.

