设置
安装包:npm2yarn
凭证
从 Soniox 控制台 获取您的 Soniox API 密钥,并将其设置为环境变量:使用
基础转录
示例如何使用SonioxAudioTranscriptLoader 转录音频文件,并使用 LLM 生成摘要。
翻译
将任何检测到的语言翻译为目标语言:two_way 翻译类型同时进行转录和两种语言之间的翻译。了解更多关于 Soniox 翻译 的信息。
语言提示
Soniox 自动检测并转录 60 多种语言 的语音。当您知道音频中可能出现哪些语言时,提供language_hints 可以通过偏向识别这些语言来提高准确性。
语言提示 不限制 识别——它们仅 偏向 模型朝向指定的语言,同时仍允许检测其他语言(如果存在)。
说话人分离
启用说话人识别以区分不同的说话人:语言识别
启用自动语言检测和识别:上下文以提高准确性
提供特定领域的 上下文 以提高转录准确性:API 参考
构造函数参数
SonioxLoaderParams(必需)
| 参数 | 类型 | 必需 | 描述 |
|---|---|---|---|
audio | Uint8Array | string | 是 | 音频文件作为缓冲区或 URL |
audioFormat | SonioxAudioFormat | 否 | 音频文件格式 |
apiKey | string | 否 | Soniox API 密钥(默认为 SONIOX_API_KEY 环境变量) |
apiBaseUrl | string | 否 | API 基础 URL(默认为 https://api.soniox.com/v1) |
pollingIntervalMs | number | 否 | 轮询间隔(毫秒)(最小值:1000,默认值:1000) |
pollingTimeoutMs | number | 否 | 轮询超时(毫秒)(默认值:180000) |
SonioxLoaderOptions(可选)
| 参数 | 类型 | 描述 |
|---|---|---|
model | SonioxTranscriptionModelId | 使用的模型(默认:"stt-async-v4") |
translation | object | 翻译配置 |
language_hints | string[] | 转录的语言提示 |
language_hints_strict | boolean | 强制执行严格的语言提示 |
enable_speaker_diarization | boolean | 启用说话人识别 |
enable_language_identification | boolean | 启用语言检测 |
context | object | 用于提高准确性的上下文 |
支持的音频格式
aac- 高级音频编码aiff- 音频交换文件格式amr- 自适应多速率asf- 高级系统格式flac- 免费无损音频编解码器mp3- MPEG 音频层 IIIogg- Ogg Vorbiswav- 波形音频文件格式webm- WebM 音频
返回值
load() 方法返回一个包含单个 Document 对象的数组:
SonioxTranscriptResponse 类型的信息。
相关
Connect these docs to Claude, VSCode, and more via MCP for real-time answers.

