离线评估
发布前测试在开发阶段对精选数据集运行评估,以比较版本、基准测试性能并捕捉回归问题。
在线评估
生产环境监控实时评估真实用户交互,以检测问题并衡量实时流量下的质量。
评估工作流
- 离线评估流程
- 在线评估流程
开始使用
评估快速入门
开始使用离线评估。
管理数据集
通过 UI 或 SDK 创建和管理用于评估的数据集。
运行离线评估
探索评估类型、技术和框架,进行全面测试。
分析结果
查看和分析评估结果,比较实验,过滤数据并导出发现。
运行在线评估
从“可观测性”选项卡实时监控生产质量。
跟随教程
通过逐步教程学习,从简单的聊天机器人到复杂的智能体评估。
To set up a LangSmith instance, visit the Platform setup section to choose between cloud, hybrid, or self-hosted. All options include observability, evaluation, prompt engineering, and deployment.
Connect these docs to Claude, VSCode, and more via MCP for real-time answers.

