自托管版本要求使用告警功能需要 Helm chart 版本 0.10.3 或更高。
概述
在 LLM 应用中实现有效的可观测性,需要主动检测故障、性能下降和回归问题。LangSmith 的告警功能有助于识别关键问题,例如:- 模型提供商的 API 速率限制违规
- 应用程序的延迟增加
- 影响反映最终用户体验的反馈分数的应用程序变更
- LLM 使用导致的意外成本激增
配置告警
步骤 1:导航至创建告警
在 UI 中,导航到您想要配置告警的追踪项目。点击页面右上角的 告警 图标,查看该项目的现有告警并设置新告警。步骤 2:选择指标类型
LangSmith 提供基于以下指标的阈值告警:
此外,对于错误和延迟指标,您可以定义过滤器来缩小触发告警的运行范围。例如,您可以创建一个错误告警过滤器,针对所有标记为
support_agent 且遇到 RateLimitExceeded 错误的 llm 运行。

步骤 2:定义告警条件
告警条件由以下几个部分组成:- 聚合方法:平均值、百分比或计数
- 比较运算符:
>=、<=或超过阈值 - 阈值:触发告警的数值
- 聚合窗口:计算指标的时间段(当前可选择 5 分钟或 15 分钟)
- 反馈键(仅限反馈分数告警):要监控的特定反馈指标


步骤 3:配置通知渠道
- PagerDuty
- Webhook
使用 PagerDuty 的 Events API v2 将 PagerDuty 配置为通知渠道。此集成允许关键的 LLM 应用程序问题触发 PagerDuty 事件,从而通过您已建立的事件管理工作流程实现快速响应。先决条件
- 具有管理员访问权限的活跃 PagerDuty 账户
- PagerDuty 中适当的服务级别权限
1. 在 PagerDuty 中创建服务
- 登录您的 PagerDuty 账户
- 导航到 Services → Service Directory
- 点击 + New Service
- 填写以下字段:
- Name:提供描述性名称(例如,“LangSmith Monitoring”)
- Description:添加有关受监控应用程序的详细信息
- Escalation Policy:选择适当的团队升级策略
- Integration Type:选择 “Events API V2”
- 点击 Add Service 以创建服务
2. 获取集成密钥
创建服务后,获取集成密钥:- 在 Service Directory 中,找到并点击您新创建的服务
- 选择 Integrations 选项卡
- 找到 “Events API V2” 集成
-
复制 Integration Key(一个 32 位的字母数字字符串)

3. 使用 PagerDuty 配置 LangSmith 告警
要在告警触发后一小时内再次收到同一告警,您必须在 PagerDuty 中解决由该告警创建的活跃事件。

- 在 LangSmith 告警设置的通知部分,选择 PagerDuty
- 点击钥匙图标将集成密钥保存为工作区密钥,或选择现有的工作区密钥。作为最佳实践,我们建议将集成密钥保存为工作区密钥,而不是直接添加。这将允许您在同一个工作区的多个告警中重复使用同一密钥。
- 配置其他通知选项:
- Severity:映射到 PagerDuty 事件优先级
- 点击 Send Test Alert 发送测试告警
- 验证 PagerDuty 是否触发了事件并包含相关的 LangSmith 告警信息
故障排除
如果 PagerDuty 中没有创建事件:- 验证集成密钥在 LangSmith 中是否正确输入
- 确保 PagerDuty 服务处于活动状态且未处于维护模式
- 检查您的 PagerDuty 账户是否启用了 Events API v2
- 如果某个告警触发器似乎在 PagerDuty 中缺失,请检查预期触发器是否发生在同一告警规则的前一个触发器的一小时内,以及前一个告警创建的事件是否仍处于打开状态。
- 如果您的 LangSmith 实例位于防火墙后,请检查网络连接
其他资源
最佳实践
- 根据应用程序的关键性调整灵敏度
- 从较宽的阈值开始,然后根据观察到的模式进行细化
- 确保告警路由到达适当的待命人员
Connect these docs to Claude, VSCode, and more via MCP for real-time answers.



