| 中间件 | 描述 |
|---|---|
| 提示词缓存 | 通过缓存重复的提示词前缀来降低成本 |
提示词缓存
通过在 Amazon Bedrock 上缓存频繁重用的提示词前缀,降低推理延迟和输入令牌成本。此中间件会在系统提示词、工具定义和最近的消息之后自动放置缓存检查点,以便模型在后续请求中跳过对先前所见内容的重新计算。 提示词缓存适用于以下场景:- 具有长且一致的系统提示词的多轮对话
- 拥有大量跨调用保持不变的工具体系定义的代理
- 基于文档的问答,用户针对同一上传上下文提出多个问题
- 具有重复静态内容的批处理工作负载
- Anthropic Claude
- Amazon Nova
了解更多关于 AWS Bedrock 提示词缓存 策略和限制的信息。缓存内容必须超过 1,024 个令牌,缓存检查点才会生效,具体取决于模型有时可能更多。请参阅 支持的模型、区域和限制。
BedrockPromptCachingMiddleware
ChatBedrockConverse
ChatBedrock
配置选项
配置选项
缓存类型。对于
ChatBedrock,目前仅支持 'ephemeral'。对于 ChatBedrockConverse,此值被忽略,因为 Converse API 始终使用 "default" 缓存类型。缓存内容的生存时间。有效值:
'5m' 或 '1h'。请注意,Amazon Nova 模型仅支持 '5m'。开始缓存前的最小消息数量。
使用不支持的模型时的行为。选项:
'ignore', 'warn', 或 'raise'。完整示例
完整示例
该中间件会缓存每个请求中直到并包括最新消息的内容。在 TTL 窗口内(5 分钟或 1 小时)的后续请求中,先前看到的内容将从缓存中检索而不是重新处理,从而降低成本和延迟。工作原理:
- 首次请求:系统提示词、工具和用户消息被发送到 API 并缓存
- 第二次请求:从缓存中检索缓存的内容。只需处理新消息
- 此模式在每个回合继续,每个请求重用缓存的对话历史
提示词缓存通过缓存令牌来降低 API 成本,但不提供对话记忆。要在跨调用中持久化对话历史,请使用类似
MemorySaver 的 检查点器。特定于模型的行为
该中间件会自动处理 API 和模型系列之间的差异:| 功能 | ChatBedrockConverse (Anthropic) | ChatBedrockConverse (Nova) | ChatBedrock (Anthropic) |
|---|---|---|---|
| 系统提示词缓存 | ✅ | ✅ | ✅ |
| 工具定义缓存 | ✅ | ❌ | ✅ |
| 消息缓存 | ✅ | ✅ (排除工具结果消息) | ✅ |
扩展 TTL (1h) | ✅ | ❌ | ✅ |
Connect these docs to Claude, VSCode, and more via MCP for real-time answers.

