Skip to main content
Playground 支持广泛的模型提供商。您可以选择提供商,配置您偏好的设置,并保存这些配置以便在多个提示中重复使用。 本页面列出了可用的提供商及其配置选项: 有关创建和管理模型配置的详细信息,请参阅配置提示设置页面。

Amazon Bedrock

使用此模型前,请确保您拥有AWS 凭证或 IAM 角色

可用模型

AWS Bedrock 提供对来自多个提供商的基础模型的访问:
  • Anthropic: Claude 模型。
  • Amazon: Titan 模型。
  • Cohere: Command 模型。
  • Meta: Llama 模型。
  • 其他: 根据区域可用的其他提供商。
有关当前可用模型的列表,请参阅AWS Bedrock 文档

配置参数

参数取决于底层模型提供商:

对于 Anthropic 模型

使用 Anthropic 配置(参见上面的 Anthropic 部分)。

对于 Amazon Titan

参数范围描述
Temperature0.0 - 1.0响应随机性
Max Tokens1+最大响应长度
Top P0.0 - 1.0核心采样

AWS 特定设置

  • 区域: 模型部署的 AWS 区域。
  • IAM 角色: 使用基于角色的身份验证而非密钥。

工具调用

取决于底层模型:
  • Anthropic 模型: auto, any
  • Cohere 模型: auto

Anthropic

使用此模型前,请确保您拥有Anthropic API 密钥

可用模型

Anthropic 在其 Claude 系列中提供三个级别的模型:
  • Opus: 最高智能和能力。
  • Sonnet: 平衡的性能和成本。
  • Haiku: 快速且经济高效。
最近的 Claude 模型支持扩展思考能力,用于展示推理过程。 有关当前可用模型的列表,请参阅Anthropic 文档

配置参数

参数范围默认值描述
Temperature0.0 - 1.0可选随机性控制(取消勾选以使用模型默认值)
Max Output Tokens1+1024最大响应长度
Top P0.0 - 1.0可选核心采样(取消勾选以使用模型默认值)
Top K1+可选限制为前 K 个 token(取消勾选以使用模型默认值)
Temperature、Top P 和 Top K 是可选的。未勾选时,Claude 使用其内部默认值。

扩展思考

在支持的 Claude 模型上可用。启用模型在响应前展示推理,类似于 OpenAI 的 o 系列。
参数范围描述
启用扩展思考切换显示/隐藏思考过程
预算 Tokens1+思考的最大 token 数(默认:1024)
启用后,响应包括:
  1. 包含模型推理的”思考”部分。
  2. 最终响应。

高级选项

  • 基础 URL: 覆盖自定义部署的 API 端点。

工具调用

  • 支持的工具选择: auto, any(需要至少一个工具)。
  • 并行执行: 否(仅顺序执行)。

Azure OpenAI

使用此模型前,请确保您拥有Azure OpenAI 凭证(端点 + API 密钥)。

可用模型

Azure OpenAI 提供与 OpenAI 相同的模型系列:
  • GPT 系列: 通用聊天模型。
  • o 系列: 专注于推理的模型。
  • 旧版模型: GPT-3.5 和 GPT-4 变体。
模型可用性因 Azure 区域而异,并且需要在使用前部署。 有关当前可用模型的列表,请参阅Azure OpenAI 文档

配置参数

Azure OpenAI 支持与 OpenAI 相同的参数:

标准参数

参数范围描述
Temperature0.0 - 2.0控制随机性。较低 = 更专注,较高 = 更具创造性。
Max Output Tokens1+响应的最大长度
Top P0.0 - 1.0核心采样阈值。Temperature 的替代方案。
Presence Penalty-2.0 - 2.0惩罚新主题(正值)或鼓励新主题(负值)
Frequency Penalty-2.0 - 2.0惩罚重复(正值)或允许重复(负值)
Seed整数用于可重现的输出

高级参数

推理努力: 在推理优化的模型(o 系列和较新的 GPT 模型)上可用。 服务层级: 在较新的模型上可用。 其他参数:
  • JSON 模式: 强制有效的 JSON 响应。
  • 并行工具调用: 同时执行多个工具。

Azure 特定功能

  • 部署管理: 模型在使用前必须部署。
  • 区域可用性: 为数据驻留选择 Azure 区域。
  • 内容过滤: 内置内容审核和安全功能。
  • 托管身份: Azure AD 身份验证支持。
  • 私有端点: 用于安全访问的 VNet 集成。

工具调用

  • 支持的工具选择: auto, required, none,或特定工具名称。
  • 并行执行: 是。

DeepSeek

使用此模型前,请确保您拥有DeepSeek API 密钥

可用模型

DeepSeek 提供通用模型、推理优化模型(R 系列)和编码专用模型。 有关当前可用模型的列表,请参阅DeepSeek 的文档

配置参数

参数范围描述
Temperature0.0 - 2.0响应随机性
Max Tokens1+最大响应长度
Top P0.0 - 1.0核心采样
Presence Penalty-2.0 - 2.0
Frequency Penalty-2.0 - 2.0

Fireworks

使用此模型前,请确保您拥有Fireworks API 密钥

可用模型

Fireworks 为流行的开源模型和微调变体提供高速推理,包括:
  • Llama: Meta 的各种尺寸的 Llama 模型。
  • Mixtral: Mistral 的专家混合模型。
  • Qwen: 阿里巴巴的多语言模型。
  • DeepSeek: DeepSeek 模型。
  • 其他开源模型: Gemma、Phi 等。
有关当前可用模型的列表,请参阅Fireworks 的模型文档

配置参数

参数范围描述
Temperature0.0 - 2.0响应随机性
Max Tokens1+最大响应长度
Top P0.0 - 1.0核心采样

工具调用

  • 支持的工具选择: auto, required, none
  • 并行执行: 是。

Google Gemini

使用此模型前,请确保您拥有Google AI API 密钥

可用模型

Google 提供针对不同用例优化的多个层级(Ultra、Pro、Flash)的 Gemini 模型。 有关当前可用模型的列表,请参阅Google 的 Gemini 文档

配置参数

参数范围描述
Temperature0.0 - 2.0响应随机性
Max Output Tokens1+最大响应长度
Top P0.0 - 1.0核心采样
Top K1+Top-k 采样

工具调用

  • 支持的工具选择: auto, any, none
  • 并行执行: 否。

Google Vertex AI

使用此模型前,请确保您拥有Google Cloud 凭证

可用模型

Google 提供针对不同用例优化的多个层级(Ultra、Pro、Flash)的 Gemini 模型,以及通过 Vertex AI 可用的其他模型。 有关当前可用模型的列表,请参阅Vertex AI 文档

配置参数

参数范围描述
Temperature0.0 - 2.0响应随机性
Max Output Tokens1+最大响应长度
Top P0.0 - 1.0核心采样
Top K1+Top-k 采样

高级选项

  • 区域选择: 在特定的 Google Cloud 区域部署。
  • 安全设置: 配置内容过滤阈值。

工具调用

  • 支持的工具选择: auto, any, none
  • 并行执行: 否。

Groq

使用此模型前,请确保您拥有Groq API 密钥

可用模型

Groq 为流行的开源模型(包括 Llama、Mixtral 和 Gemma 变体)提供高速推理。 有关当前可用模型的列表,请参阅Groq 的模型文档

配置参数

参数范围描述
Temperature0.0 - 2.0响应随机性
Max Tokens1+最大响应长度

工具调用

  • 支持的工具选择: auto, required, none
  • 并行执行: 是。

Mistral AI

使用此模型前,请确保您拥有Mistral AI API 密钥

可用模型

Mistral 提供针对不同性能和成本要求优化的多个层级(Large、Medium、Small)的模型。 有关当前可用模型的列表,请参阅Mistral 的文档

配置参数

参数范围描述
Temperature0.0 - 1.0响应随机性
Max Tokens1+最大响应长度
Top P0.0 - 1.0核心采样

工具调用

  • 支持的工具选择: auto, any, none
  • 并行执行: 否。

OpenAI

使用此模型前,请确保您拥有OpenAI API 密钥Azure OpenAI 凭证

可用模型

OpenAI 提供具有不同能力和价格点的几个模型系列:
  • GPT 系列: 具有各种尺寸/能力层级的通用聊天模型。
  • o 系列: 专注于推理的模型,针对复杂问题解决进行了优化。
  • 旧版模型: 较旧的 GPT-3.5 和 GPT-4 变体。
有关当前可用模型的列表,请参阅OpenAI 文档

配置参数

标准参数:
参数范围描述
Temperature0.0 - 2.0控制随机性。较低 = 更专注,较高 = 更具创造性。
Max Output Tokens1+响应的最大长度
Top P0.0 - 1.0核心采样阈值。Temperature 的替代方案。
Presence Penalty-2.0 - 2.0惩罚新主题(正值)或鼓励新主题(负值)
Frequency Penalty-2.0 - 2.0惩罚重复(正值)或允许重复(负值)
Seed整数用于可重现的输出
高级参数: 推理努力:在推理优化的模型(o 系列和较新的 GPT 模型)上可用。 控制响应前的推理深度。更高的努力 = 复杂任务的质量更好,延迟更长。
描述
none禁用推理(标准聊天行为)
minimal最小推理
low轻度推理
medium中等推理(默认)
high深度推理
xhigh超深度推理(如果模型支持)
当 reasoning_effort 处于活动状态(非 none)时,temperature、top_p 和惩罚项会自动禁用。
服务层级:在较新的模型上可用。 控制请求优先级和处理分配。
描述
auto系统根据负载决定(默认)
default标准处理队列
flex较低成本,可变延迟(如果模型支持)
priority高优先级队列,较低延迟,较高成本
其他参数:
  • JSON 模式: 强制有效的 JSON 响应。
  • Responses API: 改进的流式传输(默认:启用)。
  • 并行工具调用: 同时执行多个工具。

工具调用

  • 支持的工具选择: auto, required, none,或特定工具名称
  • 并行执行:

OpenAI 兼容端点

身份验证因端点而异(通常是 API 密钥或无)。

配置

必需项:
  • 基础 URL: 您的端点 URL(例如,https://your-endpoint.com/v1)。
  • 模型名称: 您的模型标识符。
适用于任何实现 OpenAI 兼容 API 格式的框架或服务,包括:
  • 自托管的开源推理服务器
  • 模型路由代理
  • 自定义模型端点

配置参数

所有 OpenAI 兼容参数:
参数范围描述
Temperature0.0 - 2.0响应随机性
Max Tokens1+最大响应长度
Top P0.0 - 1.0核心采样
Frequency Penalty-2.0 - 2.0减少重复
Presence Penalty-2.0 - 2.0鼓励新主题
高级选项:
  • JSON 模式: 如果端点支持。
  • 流式传输: 如果端点支持。
  • 函数调用: 如果端点实现 OpenAI 格式。

工具调用

  • 支持的工具选择: auto, required, none(如果端点支持)。
  • 并行执行: 是(如果端点支持)。

端点示例

本地 Ollama:
基础 URL: http://localhost:11434/v1
模型: llama3.1
vLLM 服务器:
基础 URL: https://your-server.com/v1
模型: mistral-7b-instruct
LiteLLM 代理:
基础 URL: https://litellm.example.com
模型: gpt-4 (路由到配置的后端)

XAI

使用此模型前,请确保您拥有xAI API 密钥

可用模型

xAI 提供针对不同用例的多种尺寸的 Grok 模型。 有关当前可用模型的列表,请参阅xAI 的文档

配置参数

标准 OpenAI 兼容参数:
参数范围描述
Temperature0.0 - 2.0响应随机性
Max Tokens1+最大响应长度
Top P0.0 - 1.0核心采样
Presence Penalty0 - 2.0在推理模型上隐藏
Frequency Penalty0 - 2.0在推理模型上隐藏

工具调用

  • 支持的工具选择: OpenAI 兼容。
  • 并行执行: 是(如果支持)。

所有提供商的通用配置

额外参数

所有提供商都支持用于未在 UI 中暴露的额外参数的 JSON 编辑器
{
  "logprobs": true,
  "top_logprobs": 5,
  "custom_parameter": "value"
}
使用场景:
  • 提供商特定的测试版功能
  • 尚未在 UI 中的高级参数
  • 用于跟踪的自定义元数据
限制: 无法覆盖已在 UI 中设置的参数(例如,如果上面设置了 temperature,则无法在此处设置)

速率限制

每秒请求数 (RPS) - 在对数据集运行时对所有提供商可用:
  • 范围: 0 - 500 RPS
  • 目的: 遵守 API 速率限制,控制成本
  • 默认值: 因提供商而异
在运行实验或评估时设置此项,以避免达到速率限制。

后续步骤

配置提示设置

了解如何在 Playground 中创建和管理模型配置。

创建提示

开始使用您选择的模型提供商构建提示。