Playground 支持广泛的模型提供商。您可以选择提供商,配置您偏好的设置,并保存这些配置以便在多个提示中重复使用。
本页面列出了可用的提供商及其配置选项:
有关创建和管理模型配置的详细信息,请参阅配置提示设置页面。
Amazon Bedrock
使用此模型前,请确保您拥有AWS 凭证或 IAM 角色。
可用模型
AWS Bedrock 提供对来自多个提供商的基础模型的访问:
- Anthropic: Claude 模型。
- Amazon: Titan 模型。
- Cohere: Command 模型。
- Meta: Llama 模型。
- 其他: 根据区域可用的其他提供商。
有关当前可用模型的列表,请参阅AWS Bedrock 文档。
配置参数
参数取决于底层模型提供商:
对于 Anthropic 模型
使用 Anthropic 配置(参见上面的 Anthropic 部分)。
对于 Amazon Titan
| 参数 | 范围 | 描述 |
|---|
| Temperature | 0.0 - 1.0 | 响应随机性 |
| Max Tokens | 1+ | 最大响应长度 |
| Top P | 0.0 - 1.0 | 核心采样 |
AWS 特定设置
- 区域: 模型部署的 AWS 区域。
- IAM 角色: 使用基于角色的身份验证而非密钥。
工具调用
取决于底层模型:
- Anthropic 模型:
auto, any。
- Cohere 模型:
auto。
Anthropic
使用此模型前,请确保您拥有Anthropic API 密钥。
可用模型
Anthropic 在其 Claude 系列中提供三个级别的模型:
- Opus: 最高智能和能力。
- Sonnet: 平衡的性能和成本。
- Haiku: 快速且经济高效。
最近的 Claude 模型支持扩展思考能力,用于展示推理过程。
有关当前可用模型的列表,请参阅Anthropic 文档。
配置参数
| 参数 | 范围 | 默认值 | 描述 |
|---|
| Temperature | 0.0 - 1.0 | 可选 | 随机性控制(取消勾选以使用模型默认值) |
| Max Output Tokens | 1+ | 1024 | 最大响应长度 |
| Top P | 0.0 - 1.0 | 可选 | 核心采样(取消勾选以使用模型默认值) |
| Top K | 1+ | 可选 | 限制为前 K 个 token(取消勾选以使用模型默认值) |
Temperature、Top P 和 Top K 是可选的。未勾选时,Claude 使用其内部默认值。
扩展思考
在支持的 Claude 模型上可用。启用模型在响应前展示推理,类似于 OpenAI 的 o 系列。
| 参数 | 范围 | 描述 |
|---|
| 启用扩展思考 | 切换 | 显示/隐藏思考过程 |
| 预算 Tokens | 1+ | 思考的最大 token 数(默认:1024) |
启用后,响应包括:
- 包含模型推理的”思考”部分。
- 最终响应。
高级选项
工具调用
- 支持的工具选择:
auto, any(需要至少一个工具)。
- 并行执行: 否(仅顺序执行)。
Azure OpenAI
使用此模型前,请确保您拥有Azure OpenAI 凭证(端点 + API 密钥)。
可用模型
Azure OpenAI 提供与 OpenAI 相同的模型系列:
- GPT 系列: 通用聊天模型。
- o 系列: 专注于推理的模型。
- 旧版模型: GPT-3.5 和 GPT-4 变体。
模型可用性因 Azure 区域而异,并且需要在使用前部署。
有关当前可用模型的列表,请参阅Azure OpenAI 文档。
配置参数
Azure OpenAI 支持与 OpenAI 相同的参数:
标准参数
| 参数 | 范围 | 描述 |
|---|
| Temperature | 0.0 - 2.0 | 控制随机性。较低 = 更专注,较高 = 更具创造性。 |
| Max Output Tokens | 1+ | 响应的最大长度 |
| Top P | 0.0 - 1.0 | 核心采样阈值。Temperature 的替代方案。 |
| Presence Penalty | -2.0 - 2.0 | 惩罚新主题(正值)或鼓励新主题(负值) |
| Frequency Penalty | -2.0 - 2.0 | 惩罚重复(正值)或允许重复(负值) |
| Seed | 整数 | 用于可重现的输出 |
高级参数
推理努力: 在推理优化的模型(o 系列和较新的 GPT 模型)上可用。
服务层级: 在较新的模型上可用。
其他参数:
- JSON 模式: 强制有效的 JSON 响应。
- 并行工具调用: 同时执行多个工具。
Azure 特定功能
- 部署管理: 模型在使用前必须部署。
- 区域可用性: 为数据驻留选择 Azure 区域。
- 内容过滤: 内置内容审核和安全功能。
- 托管身份: Azure AD 身份验证支持。
- 私有端点: 用于安全访问的 VNet 集成。
工具调用
- 支持的工具选择:
auto, required, none,或特定工具名称。
- 并行执行: 是。
DeepSeek
使用此模型前,请确保您拥有DeepSeek API 密钥。
可用模型
DeepSeek 提供通用模型、推理优化模型(R 系列)和编码专用模型。
有关当前可用模型的列表,请参阅DeepSeek 的文档。
配置参数
| 参数 | 范围 | 描述 |
|---|
| Temperature | 0.0 - 2.0 | 响应随机性 |
| Max Tokens | 1+ | 最大响应长度 |
| Top P | 0.0 - 1.0 | 核心采样 |
| Presence Penalty | -2.0 - 2.0 | |
| Frequency Penalty | -2.0 - 2.0 | |
Fireworks
使用此模型前,请确保您拥有Fireworks API 密钥。
可用模型
Fireworks 为流行的开源模型和微调变体提供高速推理,包括:
- Llama: Meta 的各种尺寸的 Llama 模型。
- Mixtral: Mistral 的专家混合模型。
- Qwen: 阿里巴巴的多语言模型。
- DeepSeek: DeepSeek 模型。
- 其他开源模型: Gemma、Phi 等。
有关当前可用模型的列表,请参阅Fireworks 的模型文档。
配置参数
| 参数 | 范围 | 描述 |
|---|
| Temperature | 0.0 - 2.0 | 响应随机性 |
| Max Tokens | 1+ | 最大响应长度 |
| Top P | 0.0 - 1.0 | 核心采样 |
工具调用
- 支持的工具选择:
auto, required, none。
- 并行执行: 是。
Google Gemini
使用此模型前,请确保您拥有Google AI API 密钥。
可用模型
Google 提供针对不同用例优化的多个层级(Ultra、Pro、Flash)的 Gemini 模型。
有关当前可用模型的列表,请参阅Google 的 Gemini 文档。
配置参数
| 参数 | 范围 | 描述 |
|---|
| Temperature | 0.0 - 2.0 | 响应随机性 |
| Max Output Tokens | 1+ | 最大响应长度 |
| Top P | 0.0 - 1.0 | 核心采样 |
| Top K | 1+ | Top-k 采样 |
工具调用
- 支持的工具选择:
auto, any, none。
- 并行执行: 否。
Google Vertex AI
使用此模型前,请确保您拥有Google Cloud 凭证。
可用模型
Google 提供针对不同用例优化的多个层级(Ultra、Pro、Flash)的 Gemini 模型,以及通过 Vertex AI 可用的其他模型。
有关当前可用模型的列表,请参阅Vertex AI 文档。
配置参数
| 参数 | 范围 | 描述 |
|---|
| Temperature | 0.0 - 2.0 | 响应随机性 |
| Max Output Tokens | 1+ | 最大响应长度 |
| Top P | 0.0 - 1.0 | 核心采样 |
| Top K | 1+ | Top-k 采样 |
高级选项
- 区域选择: 在特定的 Google Cloud 区域部署。
- 安全设置: 配置内容过滤阈值。
工具调用
- 支持的工具选择:
auto, any, none。
- 并行执行: 否。
Groq
使用此模型前,请确保您拥有Groq API 密钥。
可用模型
Groq 为流行的开源模型(包括 Llama、Mixtral 和 Gemma 变体)提供高速推理。
有关当前可用模型的列表,请参阅Groq 的模型文档。
配置参数
| 参数 | 范围 | 描述 |
|---|
| Temperature | 0.0 - 2.0 | 响应随机性 |
| Max Tokens | 1+ | 最大响应长度 |
工具调用
- 支持的工具选择:
auto, required, none。
- 并行执行: 是。
Mistral AI
使用此模型前,请确保您拥有Mistral AI API 密钥。
可用模型
Mistral 提供针对不同性能和成本要求优化的多个层级(Large、Medium、Small)的模型。
有关当前可用模型的列表,请参阅Mistral 的文档。
配置参数
| 参数 | 范围 | 描述 |
|---|
| Temperature | 0.0 - 1.0 | 响应随机性 |
| Max Tokens | 1+ | 最大响应长度 |
| Top P | 0.0 - 1.0 | 核心采样 |
工具调用
- 支持的工具选择:
auto, any, none。
- 并行执行: 否。
OpenAI
使用此模型前,请确保您拥有OpenAI API 密钥或Azure OpenAI 凭证。
可用模型
OpenAI 提供具有不同能力和价格点的几个模型系列:
- GPT 系列: 具有各种尺寸/能力层级的通用聊天模型。
- o 系列: 专注于推理的模型,针对复杂问题解决进行了优化。
- 旧版模型: 较旧的 GPT-3.5 和 GPT-4 变体。
有关当前可用模型的列表,请参阅OpenAI 文档。
配置参数
标准参数:
| 参数 | 范围 | 描述 |
|---|
| Temperature | 0.0 - 2.0 | 控制随机性。较低 = 更专注,较高 = 更具创造性。 |
| Max Output Tokens | 1+ | 响应的最大长度 |
| Top P | 0.0 - 1.0 | 核心采样阈值。Temperature 的替代方案。 |
| Presence Penalty | -2.0 - 2.0 | 惩罚新主题(正值)或鼓励新主题(负值) |
| Frequency Penalty | -2.0 - 2.0 | 惩罚重复(正值)或允许重复(负值) |
| Seed | 整数 | 用于可重现的输出 |
高级参数:
推理努力:在推理优化的模型(o 系列和较新的 GPT 模型)上可用。
控制响应前的推理深度。更高的努力 = 复杂任务的质量更好,延迟更长。
| 值 | 描述 |
|---|
none | 禁用推理(标准聊天行为) |
minimal | 最小推理 |
low | 轻度推理 |
medium | 中等推理(默认) |
high | 深度推理 |
xhigh | 超深度推理(如果模型支持) |
当 reasoning_effort 处于活动状态(非 none)时,temperature、top_p 和惩罚项会自动禁用。
服务层级:在较新的模型上可用。
控制请求优先级和处理分配。
| 值 | 描述 |
|---|
auto | 系统根据负载决定(默认) |
default | 标准处理队列 |
flex | 较低成本,可变延迟(如果模型支持) |
priority | 高优先级队列,较低延迟,较高成本 |
其他参数:
- JSON 模式: 强制有效的 JSON 响应。
- Responses API: 改进的流式传输(默认:启用)。
- 并行工具调用: 同时执行多个工具。
工具调用
- 支持的工具选择:
auto, required, none,或特定工具名称
- 并行执行: 是
OpenAI 兼容端点
身份验证因端点而异(通常是 API 密钥或无)。
必需项:
- 基础 URL: 您的端点 URL(例如,
https://your-endpoint.com/v1)。
- 模型名称: 您的模型标识符。
适用于任何实现 OpenAI 兼容 API 格式的框架或服务,包括:
- 自托管的开源推理服务器
- 模型路由代理
- 自定义模型端点
配置参数
所有 OpenAI 兼容参数:
| 参数 | 范围 | 描述 |
|---|
| Temperature | 0.0 - 2.0 | 响应随机性 |
| Max Tokens | 1+ | 最大响应长度 |
| Top P | 0.0 - 1.0 | 核心采样 |
| Frequency Penalty | -2.0 - 2.0 | 减少重复 |
| Presence Penalty | -2.0 - 2.0 | 鼓励新主题 |
高级选项:
- JSON 模式: 如果端点支持。
- 流式传输: 如果端点支持。
- 函数调用: 如果端点实现 OpenAI 格式。
工具调用
- 支持的工具选择:
auto, required, none(如果端点支持)。
- 并行执行: 是(如果端点支持)。
端点示例
本地 Ollama:
基础 URL: http://localhost:11434/v1
模型: llama3.1
vLLM 服务器:
基础 URL: https://your-server.com/v1
模型: mistral-7b-instruct
LiteLLM 代理:
基础 URL: https://litellm.example.com
模型: gpt-4 (路由到配置的后端)
XAI
使用此模型前,请确保您拥有xAI API 密钥。
可用模型
xAI 提供针对不同用例的多种尺寸的 Grok 模型。
有关当前可用模型的列表,请参阅xAI 的文档。
配置参数
标准 OpenAI 兼容参数:
| 参数 | 范围 | 描述 |
|---|
| Temperature | 0.0 - 2.0 | 响应随机性 |
| Max Tokens | 1+ | 最大响应长度 |
| Top P | 0.0 - 1.0 | 核心采样 |
| Presence Penalty | 0 - 2.0 | 在推理模型上隐藏 |
| Frequency Penalty | 0 - 2.0 | 在推理模型上隐藏 |
工具调用
- 支持的工具选择: OpenAI 兼容。
- 并行执行: 是(如果支持)。
所有提供商的通用配置
额外参数
所有提供商都支持用于未在 UI 中暴露的额外参数的 JSON 编辑器:
{
"logprobs": true,
"top_logprobs": 5,
"custom_parameter": "value"
}
使用场景:
- 提供商特定的测试版功能
- 尚未在 UI 中的高级参数
- 用于跟踪的自定义元数据
限制: 无法覆盖已在 UI 中设置的参数(例如,如果上面设置了 temperature,则无法在此处设置)
速率限制
每秒请求数 (RPS) - 在对数据集运行时对所有提供商可用:
- 范围: 0 - 500 RPS
- 目的: 遵守 API 速率限制,控制成本
- 默认值: 因提供商而异
在运行实验或评估时设置此项,以避免达到速率限制。
后续步骤
配置提示设置
了解如何在 Playground 中创建和管理模型配置。