自托管部署故障排除 - LangChain中文版文档

本页面提供诊断步骤，帮助你在联系支持前排查自托管 LangSmith 部署的问题。请按步骤系统性地识别和解决常见的部署问题。

如果你完成了这些诊断步骤后仍需要帮助，请参考本指南末尾的支持部分，了解在联系前需要收集哪些信息。

前提条件

开始诊断步骤前，请确保你具备：

对 Kubernetes 集群的 kubectl 访问权限。
查看 Pod、Deployment、Service 等的适当权限。
熟悉你的 Helm Chart 配置。

步骤 1. 了解你的部署

验证已部署的内容并了解系统的基线状态。这有助于你识别正常运行状态，并在问题发生时发现异常。运行以下命令以查看所有已部署的 Kubernetes 资源。

运行本节中的命令时，请确保处于正确的命名空间。或者，使用 -n 标志显式指定命名空间。例如：kubectl get deployments -n langsmith。

列出所有 Deployment：

kubectl get deployments

列出所有 Pod：

kubectl get pods

列出所有 Service：

kubectl get services

列出所有 lgps 资源（仅在创建 Agent Server 后存在）：

kubectl get lgps

关键部署组件

你的部署包含以下核心组件：

langsmith-frontend：LangSmith 前端 UI，用于创建 Agent Server 部署。此应用向 langsmith-host-backend 发起 API 调用。属于控制平面。
langsmith-host-backend：LangSmith 部署的控制平面，接收来自 langsmith-frontend 的请求，并将部署请求持久化到控制平面的 Postgres 数据库。
langsmith-listener：LangSmith 部署数据平面的一部分。通过 HTTP API 轮询 langsmith-host-backend 以获取需要创建、更新或删除的部署。将任务加入队列供工作进程处理。
langsmith-redis：作为 langsmith-listener 任务队列的 Redis 实例。监听器将任务加入此队列，工作进程从此队列拉取任务。
langsmith-operator：用于协调 lgps 资源底层 Kubernetes 资源的 lgps Kubernetes Operator。属于数据平面基础设施。

根据你的配置，部署中可能存在其他组件。有关概述，请参阅 LangSmith 部署组件。

步骤 2. 启用调试日志

排查问题时，第一步通常是启用调试级别的日志记录，以收集有关系统运行情况的更详细信息。

针对控制平面或数据平面部署

如果你遇到控制平面部署（例如 langsmith-host-backend）或数据平面部署（例如 langsmith-listener）的问题，请使用 LOG_LEVEL=DEBUG 环境变量重新安装 Helm Chart。将以下内容添加到你的 values.yaml 文件中：

extraEnv:
  - name: LOG_LEVEL
    value: DEBUG

针对 Agent Server 部署

如果问题出现在单个 Agent Server 部署上：

在 LangSmith UI 中导航到 Deployments 选项卡。
在部署详情页面上，选择 + New Revision。
添加新的环境变量 LOG_LEVEL 并将其值设置为 DEBUG。

你也可以在 UI 的部署详情页面上找到调试日志，点击 Server Logs，然后在 Log level: Info 下拉菜单中选择 Debug。

针对广泛存在的问题

如果不确定问题根源，请在所有位置（控制平面、数据平面和所有 Agent Server 部署）启用 DEBUG 日志记录。

查看应用日志

跟踪每个 Pod 的日志以了解基线行为：

kubectl logs -f <pod_name>

然后查找以下日志行：

langsmith-listener：Reconciling projects...（每 10 秒出现一次）
langsmith-operator：Starting reconciliation（定期出现）

在健康的部署中，不应看到任何错误。所有日志都应显示正常且常规。

解读调试日志

查找以下问题指示器：

异常或堆栈跟踪。
错误消息（包含 "ERROR" 字样）。
与正常操作不同的异常模式。

根据发现的错误：

配置问题：如果怀疑是配置问题，请向运行 helm install 的人员提出。
用户代码错误：如果怀疑是用户代码中的错误（例如 LangGraph OSS 图实现），请向创建 langgraph.json 文件的 Agent Server 应用所有者提出。

步骤 3. 描述部署和 Pod

描述 Kubernetes 资源可以揭示应用日志中可能未出现的错误事件和状态。这些错误通常由配置或基础设施问题引起，而非应用代码错误。描述资源还会显示其配置（例如环境变量），这对调试很有帮助。运行以下命令来描述你的资源。描述 Kubernetes Deployment：

kubectl describe deployment <deployment_name>

描述 Kubernetes Pod：

kubectl describe pod <pod_name>

描述 lgps 资源（仅在创建 Agent Server 后相关）：

kubectl describe lgps <lgps_name>

解读结果

查看输出的 Events: 部分，并验证一切是否正常。常见的出现的问题包括：

存活性或就绪性探针失败
镜像拉取错误
资源限制（CPU、内存）
卷挂载问题
配置错误

确保没有错误事件，并且所有事件都表明运行正常。

其他资源

有关更多故障排除信息，请参阅：

故障排除：通用故障排除指南，提供常见问题的解决方案。
自托管概述：关于系统架构和组件交互的详细信息。

支持

如果你已遵循这些诊断步骤但仍需要帮助，请在联系支持前收集以下信息：

诊断步骤的输出。
你的 Helm Chart 配置。
相关的错误消息和日志。
问题发生时你正在尝试执行的操作描述。

准备好这些信息将有助于支持团队更快地诊断和解决你的问题。

Edit this page on GitHub or file an issue.

Connect these docs to Claude, VSCode, and more via MCP for real-time answers.

​前提条件

​步骤 1. 了解你的部署

​关键部署组件

​步骤 2. 启用调试日志

​针对控制平面或数据平面部署

​针对 Agent Server 部署

​针对广泛存在的问题

​查看应用日志

​解读调试日志

​步骤 3. 描述部署和 Pod

​解读结果

​其他资源

​支持

前提条件

步骤 1. 了解你的部署

关键部署组件

步骤 2. 启用调试日志

针对控制平面或数据平面部署

针对 Agent Server 部署

针对广泛存在的问题

查看应用日志

解读调试日志

步骤 3. 描述部署和 Pod

解读结果

其他资源

支持