Skip to main content
LangSmith 支持两种基于运行时间和地点的评估类型:

离线评估

发布前测试在开发阶段对精选数据集运行评估,以比较版本、基准测试性能并捕捉回归问题。

在线评估

生产环境监控实时评估真实用户交互,以检测问题并衡量实时流量下的质量。

评估工作流

1

创建数据集

从手动整理的测试用例、历史生产轨迹或合成数据生成中,创建包含 数据集
2

定义评估器

创建 以评估性能:
3

运行实验

在数据集上执行您的应用程序以创建一个 。配置 重复次数、并发性和缓存 以优化运行。
4

分析结果

比较实验以进行 基准测试单元测试回归测试回测
有关离线和在线评估差异的更多信息,请参阅 评估概念 页面。

开始使用

评估快速入门

开始使用离线评估。

管理数据集

通过 UI 或 SDK 创建和管理用于评估的数据集。

运行离线评估

探索评估类型、技术和框架,进行全面测试。

分析结果

查看和分析评估结果,比较实验,过滤数据并导出发现。

运行在线评估

从“可观测性”选项卡实时监控生产质量。

跟随教程

通过逐步教程学习,从简单的聊天机器人到复杂的智能体评估。
To set up a LangSmith instance, visit the Platform setup section to choose between cloud, hybrid, or self-hosted. All options include observability, evaluation, prompt engineering, and deployment.