创建自定义的 LLM 作为评判者的评估器
如需完全控制评估逻辑,可创建自定义的 LLM 作为评判者的评估器,并使用 LangSmith SDK(Python / TypeScript)运行它。 要求langsmith>=0.2.0
一个 LLM 作为评判者的评估器包含三个关键组件:
- 评估器函数:接收示例输入和应用程序输出的函数,使用 LLM 对质量进行评分。该函数应返回布尔值、数字、字符串或包含评分信息的字典。
- 目标函数:待评估的应用程序逻辑(使用 [
@traceable][@traceable] 装饰器包装以实现可观测性)。 - 数据集和评估:包含测试示例的数据集,以及
evaluate()函数,该函数在每个示例上运行目标函数并应用评估器。
示例
Connect these docs to Claude, VSCode, and more via MCP for real-time answers.

