- 部署到 EKS、配置托管服务和设置身份验证的初始设置步骤。
- AWS 特定的架构模式和参考图。
- 服务建议和最佳实践。
- 针对卓越运营、安全性和可靠性的 AWS Well-Architected 最佳实践。
LangChain 专门为 AWS 提供了 Terraform 模块,以帮助为 LangSmith 配置基础设施。这些模块可以快速设置 EKS 集群、RDS、ElastiCache、S3 和网络资源。查看 AWS Terraform 模块 获取文档和示例。
初始设置
部署到 Kubernetes
遵循 Kubernetes 安装指南。LangSmith 已在 Amazon Elastic Kubernetes Service (EKS) 上经过测试。EKS 特定说明:
- 确保已安装 EBS CSI 驱动程序以支持持久化存储
- 使用
ebs.csi.aws.com存储类供应器
配置外部服务
对于生产部署,请连接到 AWS 托管服务:
Amazon S3
在 S3 中存储追踪数据
Amazon RDS
PostgreSQL 数据库
Amazon ElastiCache
用于缓存的 Redis
ClickHouse Cloud
分析数据库
设置身份验证
使用 IAM Roles for Service Accounts (IRSA) 对 LangSmith Pod 进行身份验证,使其无需静态凭据即可访问 AWS 服务。关键页面:
参考架构
我们建议利用 AWS 的托管服务来提供一个可扩展、安全且具有弹性的平台。以下架构适用于自托管和混合模式,并符合 AWS Well-Architected Framework:
- 入口和网络:请求通过您 VPC 内的 Amazon Application Load Balancer (ALB) 进入,并使用 AWS WAF 和基于 IAM 的身份验证进行保护。
- 前端和后端服务:容器在 Amazon EKS 上运行,在 ALB 后面进行编排。根据需要将请求路由到集群内的其他服务。
-
存储和数据库:
- Amazon RDS for PostgreSQL 或 Aurora:元数据、项目、用户以及已部署智能体的短期和长期记忆。LangSmith 支持 PostgreSQL 14 或更高版本。
- Amazon ElastiCache (Redis):缓存和作业队列。ElastiCache 可以是单实例或集群模式,运行 Redis OSS 5 或更高版本。
- ClickHouse + Amazon EBS:分析和追踪存储。
- 除非安全或合规性原因不允许,否则我们建议使用外部托管的 ClickHouse 解决方案。
- 混合部署不需要 ClickHouse。
- Amazon S3:用于追踪工件和遥测数据的对象存储。
- LLM 集成:可选地将请求代理到 Amazon Bedrock 或 Amazon SageMaker 进行 LLM 推理。
- 监控和可观测性:与 Amazon CloudWatch 集成
计算选项
LangSmith 支持多种计算选项,具体取决于您的需求:| 计算选项 | 描述 | 适用场景 |
|---|---|---|
| Elastic Kubernetes Service (首选) | 高级扩展和多租户支持 | 大型企业 |
| 基于 EC2 | 完全控制,自带基础设施 | 受监管或隔离环境 |
AWS Well-Architected 最佳实践
此参考设计旨在符合 AWS Well-Architected Framework 的六大支柱:卓越运营
- 使用 IaC (CloudFormation / Terraform) 自动化部署。
- 使用 AWS Systems Manager Parameter Store 进行配置。
- 配置您的 LangSmith 实例以导出遥测数据,并通过 CloudWatch Logs 持续监控。
- 管理 LangSmith 部署 的首选方法是创建一个 CI 流程,用于构建 Agent Server 镜像并将其推送到 ECR。在 PR 合并后将新版本部署到暂存或生产环境之前,为拉取请求创建一个测试部署。
安全性
- 使用具有最小权限策略的 IAM 角色。
- 启用静态加密 (RDS、S3、ClickHouse 卷) 和传输中加密 (TLS 1.2+)。
- 与 AWS Secrets Manager 集成以管理凭据。
- 将 Amazon Cognito 作为 IDP 与 LangSmith 内置的身份验证和授权功能结合使用,以保护对智能体及其工具的访问。
可靠性
- 跨区域复制 LangSmith 数据平面:为 LangSmith 部署将相同的数据平面部署到不同区域的 Kubernetes 集群。跨 多可用区 部署 RDS 和 ECS 服务。
- 为后端工作器实施自动扩展。
- 使用 Amazon Route 53 健康检查和故障转移策略。
性能效率
- 利用 EC2 实例进行优化计算。
- 对不常访问的追踪数据使用 S3 Intelligent-Tiering。
成本优化
- 使用 Compute Savings Plans 调整 EKS 集群规模。
- 使用 AWS Cost Explorer 仪表板监控成本 KPI。
可持续性
- 使用按需计算最小化空闲工作负载。
- 将遥测数据存储在低延迟、低成本的层级中。
- 为非生产环境启用自动关机。
安全与合规
LangSmith 可以配置为:- 仅限 PrivateLink 访问(除了计费所需的出口流量外,不暴露于公共互联网)。
- 使用基于 KMS 的加密密钥保护 S3、RDS 和 EBS。
- 将审计日志记录到 CloudWatch 和 AWS CloudTrail。
监控与评估
使用 LangSmith 可以:- 捕获在 Bedrock 或 SageMaker 上运行的 LLM 应用的追踪数据。
- 通过 LangSmith 数据集 评估模型输出。
- 跟踪延迟、令牌使用情况和成功率。
- AWS CloudWatch 仪表板。
- OpenTelemetry 和 Prometheus 导出器。
Connect these docs to Claude, VSCode, and more via MCP for real-time answers.

