运行评估需要三个主要部分:
- 一个包含测试输入和预期输出的数据集。
- 一个待评估的目标函数。
- 用于为目标函数输出打分的评估器。
本指南将根据您要评估的应用程序部分,展示如何定义目标函数。关于如何创建数据集和如何定义评估器,请参阅此处;关于运行评估的端到端示例,请参阅此处。
目标函数签名
为了在代码中评估一个应用程序,我们需要一种运行该应用程序的方式。在使用 evaluate()(Python / JavaScript)时,我们将通过传入一个目标函数参数来实现。这是一个接收数据集示例的输入,并将应用程序输出作为字典返回的函数。在此函数中,我们可以按需调用我们的应用程序。我们也可以按需格式化输出。关键在于,我们定义的任何评估器函数都应与我们目标函数返回的输出格式兼容。
from langsmith import Client
# 'inputs' 将来自您的数据集。
def dummy_target(inputs: dict) -> dict:
return {"foo": 1, "bar": "two"}
# 'inputs' 将来自您的数据集。
# 'outputs' 将来自您的目标函数。
def evaluator_one(inputs: dict, outputs: dict) -> bool:
return outputs["foo"] == 2
def evaluator_two(inputs: dict, outputs: dict) -> bool:
return len(outputs["bar"]) < 3
client = Client()
results = client.evaluate(
dummy_target, # <-- 目标函数
data="your-dataset-name",
evaluators=[evaluator_one, evaluator_two],
...
)
evaluate() 将自动追踪您的目标函数。这意味着如果您在目标函数中运行任何可追踪的代码,这些代码也将作为目标追踪的子运行被追踪。
示例:单个 LLM 调用
from langsmith import wrappers
from openai import OpenAI
# 可选地包装 OpenAI 客户端以自动追踪所有模型调用。
oai_client = wrappers.wrap_openai(OpenAI())
def target(inputs: dict) -> dict:
# 这假设您的数据集输入包含一个 'messages' 键。
# 您可以根据您的数据集模式进行调整。
messages = inputs["messages"]
response = oai_client.chat.completions.create(
messages=messages,
model="gpt-4.1-mini",
)
return {"answer": response.choices[0].message.content}
示例:非 LLM 组件
from langsmith import traceable
# 可选地使用 '@traceable' 装饰此函数,以追踪该函数的所有调用。
@traceable
def calculator_tool(operation: str, number1: float, number2: float) -> str:
if operation == "add":
return str(number1 + number2)
elif operation == "subtract":
return str(number1 - number2)
elif operation == "multiply":
return str(number1 * number2)
elif operation == "divide":
return str(number1 / number2)
else:
raise ValueError(f"Unrecognized operation: {operation}.")
# 这是您将要评估的函数。
def target(inputs: dict) -> dict:
# 这假设您的数据集输入包含 `operation`、`num1` 和 `num2` 键。
operation = inputs["operation"]
number1 = inputs["num1"]
number2 = inputs["num2"]
result = calculator_tool(operation, number1, number2)
return {"result": result}
示例:应用程序或智能体
from my_agent import agent
# 这是您将要评估的函数。
def target(inputs: dict) -> dict:
# 这假设您的数据集输入包含一个 `messages` 键
messages = inputs["messages"]
# 将 `invoke` 替换为您调用智能体所用的方法
response = agent.invoke({"messages": messages})
# 这假设您的智能体输出格式正确
return response
如果您有一个 LangGraph/LangChain 智能体,它接受数据集中定义的输入,并返回您希望在评估器中使用的输出格式,您可以直接将该对象作为目标传入:from my_agent import agent
from langsmith import Client
client = Client()
client.evaluate(agent, ...)