- 部署到 GKE、配置托管服务和设置身份验证的初始设置步骤。
- GCP 特定的架构模式和参考图表。
- 服务建议和最佳实践。
- 关于卓越运营、安全性和可靠性的Google Cloud Well-Architected 最佳实践。
LangChain 专门为 GCP 提供了 Terraform 模块,以帮助为 LangSmith 配置基础设施。这些模块可以快速设置 GKE 集群、Cloud SQL、Memorystore Redis、Cloud Storage 和网络资源。查看 GCP Terraform 模块 获取文档和示例。
初始设置
部署到 Kubernetes
遵循 Kubernetes 安装指南。LangSmith 已在 Google Kubernetes Engine (GKE) 上测试。GKE 特定说明:
- LangSmith 适用于标准 GKE 集群
- 使用 GCE 持久磁盘存储类
配置外部服务
对于生产部署,连接到 GCP 托管服务:
Google Cloud Storage
在 GCS 中存储追踪数据
Cloud SQL
PostgreSQL 数据库
Memorystore
用于缓存的 Redis
ClickHouse Cloud
分析数据库
设置身份验证
使用 Workload Identity 对 LangSmith Pod 进行身份验证以访问 GCP 服务。关键页面:
参考架构
我们建议利用 GCP 的托管服务来提供一个可扩展、安全且具有弹性的平台。以下架构适用于自托管和混合模式,并符合 Google Cloud Well-Architected Framework:
- 入口和网络:请求通过您 VPC 内的 Cloud Load Balancing 进入,使用 Cloud Armor 和基于 IAM 的身份验证进行保护。
- 前端和后端服务:容器在 Google Kubernetes Engine (GKE) 上运行,在负载均衡器后面进行编排。根据需要将请求路由到集群内的其他服务。
-
存储和数据库:
- Cloud SQL for PostgreSQL:元数据、项目、用户以及已部署代理的短期和长期记忆。LangSmith 支持 PostgreSQL 14 或更高版本。
- Memorystore for Redis:缓存和作业队列。Memorystore 可以是单实例或集群模式,运行 Redis OSS 5 或更高版本。
- ClickHouse + Persistent Disks:分析和追踪存储。
- 除非安全或合规性原因不允许,否则我们建议使用外部托管的 ClickHouse 解决方案。
- 混合部署不需要 ClickHouse。
- Cloud Storage:用于追踪工件和遥测的对象存储。
- LLM 集成:可选地将请求代理到 Vertex AI 进行 LLM 推理。
- 监控和可观测性:与 Cloud Monitoring 和 Cloud Logging 集成。
计算选项
LangSmith 支持多种计算选项,具体取决于您的需求:| 计算选项 | 描述 | 适用场景 |
|---|---|---|
| Google Kubernetes Engine(首选) | 高级扩展和多租户支持 | 大型企业 |
| 基于 Compute Engine | 完全控制,自带基础设施 | 受监管或隔离环境 |
Google Cloud Well-Architected 最佳实践
此参考设计旨在符合 Google Cloud Well-Architected Framework 的六大支柱:卓越运营
- 使用 IaC(Terraform / Deployment Manager)自动化部署。
- 使用 Secret Manager 管理配置和敏感数据。
- 配置您的 LangSmith 实例以导出遥测数据,并通过 Cloud Logging 持续监控。
- 管理 LangSmith 部署 的首选方法是创建一个 CI 流程,构建 Agent Server 镜像并将其推送到 Artifact Registry。在 PR 合并后将新版本部署到暂存或生产环境之前,为拉取请求创建一个测试部署。
安全性
- 使用具有最小权限策略的 IAM 角色和 Workload Identity 进行安全的 Pod 到 GCP 服务身份验证。
- 启用静态加密(Cloud SQL、Cloud Storage、Persistent Disks)和传输中加密(TLS 1.2+)。
- 与 Secret Manager 集成以管理凭据。
- 使用 Identity Platform 或 Workload Identity Federation 作为 IDP,结合 LangSmith 的内置身份验证和授权功能,以保护对代理及其工具的访问。
可靠性
- 跨区域复制 LangSmith 数据平面:将相同的数据平面部署到不同区域的 Kubernetes 集群以进行 LangSmith 部署。跨多个区域部署 Cloud SQL 和 GKE 服务。
- 使用 Horizontal Pod Autoscaler 和 Cluster Autoscaler 为后端工作器实现自动扩缩。
- 使用 Cloud DNS 健康检查和故障转移策略。
性能优化
- 利用 Compute Engine 实例进行优化计算,并选择合适的机器类型。
- 使用 Cloud Storage 生命周期策略 处理不常访问的追踪数据,将其移动到 Nearline 或 Coldline 存储类别。
成本优化
- 使用承诺使用折扣 和持续使用折扣 合理调整 GKE 集群大小。
- 使用 Cloud Billing 仪表板和成本管理 工具监控成本 KPI。
可持续性
- 使用按需计算和自动扩缩 最小化空闲工作负载。
- 使用 Cloud Storage 生命周期策略 将遥测存储在低延迟、低成本的层级中。
- 使用计划操作 为非生产环境启用自动关机。
安全与合规
LangSmith 可以配置为:- 仅限 Private Service Connect 访问(无公共互联网暴露,除了计费所需的出口流量)。
- 使用基于 Cloud KMS 的加密密钥保护 Cloud Storage、Cloud SQL 和 Persistent Disks。
- 将审计日志记录到 Cloud Logging 和 Cloud Audit Logs。
监控与评估
使用 LangSmith 进行:- 捕获在 Vertex AI 上运行的 LLM 应用的追踪。
- 通过 LangSmith 数据集 评估模型输出。
- 跟踪延迟、令牌使用情况和成功率。
- Cloud Monitoring 仪表板。
- OpenTelemetry 和 Prometheus 导出器。
Connect these docs to Claude, VSCode, and more via MCP for real-time answers.

