Skip to main content
评估 是一种量化衡量 LLM 应用性能的方法。LLM 的行为可能难以预测,即使是提示词、模型或输入的微小变化,也可能显著影响结果。评估提供了一种结构化的方式来识别故障、比较版本,并构建更可靠的 AI 应用。 在 LangSmith 中运行评估需要三个关键组件:
  • 数据集:一组测试输入(以及可选的预期输出)。
  • 目标函数:您想要测试的应用部分——这可能是一个使用新提示词的单一 LLM 调用、一个模块,或是您的整个工作流。
  • 评估器:对目标函数输出进行评分的函数。
本快速入门将引导您运行一个入门评估,使用 LangSmith SDK 或 UI 来检查 LLM 响应的正确性。

先决条件

开始之前,请确保您拥有: 选择 UI 或 SDK 筛选器查看说明:

1. 设置工作区密钥

In the LangSmith UI, ensure that your API key is set as a workspace secret.
  1. Navigate to Settings and then move to the Secrets tab.
  2. Select Add secret and enter the key environment variable (e.g.,OPENAI_API_KEY or ANTHROPIC_API_KEY) and your API key as the Value.
  3. Select Save secret.
When adding workspace secrets in the LangSmith UI, make sure the secret keys match the environment variable names expected by your model provider.

2. 创建提示词

Playground 使得可以针对不同的提示词、新模型或测试不同的模型配置运行评估。
  1. LangSmith UI 中,点击侧边栏的 Playground
  2. Prompts 面板下,将 system 提示词修改为:
    准确回答以下问题:
    
    保持 Human 消息不变:{question}

3. 创建数据集

  1. 点击 Set up Evaluation,这将在页面底部打开一个 New Experiment 表格。
  2. Select or create a new dataset 下拉菜单中,点击 + New 按钮创建一个新数据集。
    Playground with the edited system prompt and new experiment with the dropdown for creating a new dataset.
  3. 将以下示例添加到数据集中:
    输入参考输出
    question: 乞力马扎罗山位于哪个国家?output: 乞力马扎罗山位于坦桑尼亚。
    question: 地球的最低点是什么?output: 地球的最低点是死海。
  4. 点击 Save 并输入名称以保存您新创建的数据集。

4. 添加评估器

  1. 点击 + Evaluator,从 Prebuilt Evaluator 选项中选择 Correctness
  2. Correctness 面板中,点击 Save

5. 运行评估

  1. 选择右上角的 Start 来运行您的评估。这将在 New Experiment 表格中创建一个带有预览的 实验。您可以点击实验名称查看完整视图。
    Full experiment view of the results that used the example dataset.

后续步骤

要了解更多关于在 LangSmith 中运行实验的信息,请阅读 评估概念指南