本操作指南将演示如何设置和运行一种评估器(LLM 作为评判者)。如需查看包含使用示例的完整预构建评估器列表,请参考 openevals 和 agentevals 代码库。
设置
您需要安装openevals 包才能使用预构建的 LLM 作为评判者评估器。
openevals 也与 evaluate 方法无缝集成。请参阅相应指南了解设置说明。
运行评估器
一般流程很简单:从openevals 导入评估器或工厂函数,然后在测试文件中使用输入、输出和参考输出来运行它。LangSmith 会自动将评估器的结果记录为反馈。
请注意,并非所有评估器都需要每个参数(例如,精确匹配评估器只需要输出和参考输出)。此外,如果您的 LLM 作为评判者的提示需要额外的变量,将它们作为 kwargs 传入会将其格式化到提示中。
按如下方式设置您的测试文件:
feedback_key/feedbackKey 参数将用作您实验中反馈的名称。
在终端中运行评估将产生类似以下的结果:

evaluate 方法。如果使用 Python,这需要 langsmith>=0.3.11:
Connect these docs to Claude, VSCode, and more via MCP for real-time answers.

