如何使用重复进行评估 - LangChain中文版文档

运行多次重复可以更准确地估计系统的性能，因为大语言模型（LLM）的输出并非确定性的。每次重复的输出可能有所不同。重复是一种减少高可变性系统（例如智能体）中噪声的方法。

在实验中配置重复

在 evaluate / aevaluate 函数中添加可选的 num_repetitions 参数（Python, TypeScript），以指定对数据集中每个示例进行评估的次数。例如，如果数据集中有 5 个示例，并设置 num_repetitions=5，则每个示例将运行 5 次，总共运行 25 次。

from langsmith import evaluate

results = evaluate(
    lambda inputs: label_text(inputs["text"]),
    data=dataset_name,
    evaluators=[correct_label],
    experiment_prefix="Toxic Queries",
    num_repetitions=3,
)