
从现有运行记录开始
首先,请确保您已正确追踪多轮对话,然后导航到您的追踪项目。进入追踪项目后,只需打开运行记录,选择 LLM 调用,并按以下方式在 Playground 中打开:
从数据集开始
开始之前,请确保您已设置好数据集。由于您要评估多轮对话,请确保输入数据中有一个包含消息列表的键。 创建数据集后,前往 Playground 并加载您的数据集进行评估。 接着,在提示中添加一个消息列表变量,确保其名称与输入数据中包含消息列表的键名一致:
手动创建
手动创建多轮对话有两种方式。第一种是直接在提示中追加消息:

消息列表 变量,从而可以在不同运行中复用此提示。
后续步骤
现在您已了解如何在 Playground 中设置多轮交互,您可以手动检查和判断输出结果,也可以添加评估器对结果进行分类。 您还可以阅读这些操作指南,进一步了解如何使用 Playground 运行评估。Connect these docs to Claude, VSCode, and more via MCP for real-time answers.

