Skip to main content
自托管版本要求使用告警功能需要 Helm chart 版本 0.10.3 或更高。

概述

在 LLM 应用中实现有效的可观测性,需要主动检测故障、性能下降和回归问题。LangSmith 的告警功能有助于识别关键问题,例如:
  • 模型提供商的 API 速率限制违规
  • 应用程序的延迟增加
  • 影响反映最终用户体验的反馈分数的应用程序变更
  • LLM 使用导致的意外成本激增
LangSmith 中的告警是按项目(project)作用域的,需要为每个受监控的项目单独配置。

配置告警

步骤 1:导航至创建告警

UI 中,导航到您想要配置告警的追踪项目。点击页面右上角的 告警 图标,查看该项目的现有告警并设置新告警。

步骤 2:选择指标类型

LangSmith 提供基于以下指标的阈值告警:
指标类型描述使用场景
运行次数跟踪一段时间窗口内的运行总数。监控流水线是否按预期量产生运行,并在意外下降时发出告警。
成本跟踪一段时间窗口内运行的总成本监控 LLM 支出,在成本超过预期阈值时发出告警。需要配置成本追踪
错误跟踪状态为错误的运行。可基于总错误数或错误百分比(错误运行占所有运行的比例)发出告警。监控应用程序中的故障,或在错误率超过可接受阈值时发出告警。
反馈分数测量平均反馈分数跟踪最终用户的反馈在线评估结果,以在出现回归时发出告警。
延迟测量平均运行执行时间跟踪应用程序的延迟,以在出现峰值和性能瓶颈时发出告警。
此外,对于错误延迟指标,您可以定义过滤器来缩小触发告警的运行范围。例如,您可以创建一个错误告警过滤器,针对所有标记为 support_agent 且遇到 RateLimitExceeded 错误的 llm 运行。
告警指标

步骤 2:定义告警条件

告警条件由以下几个部分组成:
  • 聚合方法:平均值、百分比或计数
  • 比较运算符>=<= 或超过阈值
  • 阈值:触发告警的数值
  • 聚合窗口:计算指标的时间段(当前可选择 5 分钟或 15 分钟)
  • 反馈键(仅限反馈分数告警):要监控的特定反馈指标

告警条件配置
示例: 上面显示的配置将在过去 5 分钟内错误运行超过 5% 时生成告警。 您可以预览告警在历史时间窗口内的行为,以了解在选定阈值下(用红色表示)会有多少个数据点(以及哪些数据点)会触发告警。例如,为项目设置 60 秒的平均延迟阈值,可以让您可视化潜在的告警,如下图所示。
告警指标

步骤 3:配置通知渠道

使用 PagerDuty 的 Events API v2 将 PagerDuty 配置为通知渠道。此集成允许关键的 LLM 应用程序问题触发 PagerDuty 事件,从而通过您已建立的事件管理工作流程实现快速响应。先决条件
  • 具有管理员访问权限的活跃 PagerDuty 账户
  • PagerDuty 中适当的服务级别权限
如果使用 LangSmith 的自定义部署,请确保没有防火墙设置阻止来自 LangSmith 服务的出口流量。

1. 在 PagerDuty 中创建服务

  1. 登录您的 PagerDuty 账户
  2. 导航到 Services → Service Directory
  3. 点击 + New Service
  4. 填写以下字段:
    • Name:提供描述性名称(例如,“LangSmith Monitoring”)
    • Description:添加有关受监控应用程序的详细信息
    • Escalation Policy:选择适当的团队升级策略
    • Integration Type:选择 “Events API V2”
  5. 点击 Add Service 以创建服务

2. 获取集成密钥

创建服务后,获取集成密钥:
  1. Service Directory 中,找到并点击您新创建的服务
  2. 选择 Integrations 选项卡
  3. 找到 “Events API V2” 集成
  4. 复制 Integration Key(一个 32 位的字母数字字符串) PagerDuty 集成密钥位置

3. 使用 PagerDuty 配置 LangSmith 告警

要在告警触发后一小时内再次收到同一告警,您必须在 PagerDuty 中解决由该告警创建的活跃事件。
PagerDuty 设置
  1. 在 LangSmith 告警设置的通知部分,选择 PagerDuty
  2. 点击钥匙图标将集成密钥保存为工作区密钥,或选择现有的工作区密钥。作为最佳实践,我们建议将集成密钥保存为工作区密钥,而不是直接添加。这将允许您在同一个工作区的多个告警中重复使用同一密钥。
  3. 配置其他通知选项:
    • Severity:映射到 PagerDuty 事件优先级
  4. 点击 Send Test Alert 发送测试告警
  5. 验证 PagerDuty 是否触发了事件并包含相关的 LangSmith 告警信息

故障排除

如果 PagerDuty 中没有创建事件:
  • 验证集成密钥在 LangSmith 中是否正确输入
  • 确保 PagerDuty 服务处于活动状态且未处于维护模式
  • 检查您的 PagerDuty 账户是否启用了 Events API v2
  • 如果某个告警触发器似乎在 PagerDuty 中缺失,请检查预期触发器是否发生在同一告警规则的前一个触发器的一小时内,以及前一个告警创建的事件是否仍处于打开状态。
  • 如果您的 LangSmith 实例位于防火墙后,请检查网络连接

其他资源

最佳实践

  • 根据应用程序的关键性调整灵敏度
  • 从较宽的阈值开始,然后根据观察到的模式进行细化
  • 确保告警路由到达适当的待命人员