音频接口 (Audio)
音频接口提供强大的文本转语音(Text-to-Speech)能力,支持多语言、高质量的自然语音合成。
接口地址
文本转语音 (Text-to-Speech)
POST https://aiapi.services/v1/audio/speech鉴权方式
所有请求需要在HTTP头中包含您的API密钥:
Authorization: Bearer YOUR_API_KEY支持的模型
文本转语音 (TTS)
text-to-speech-multilingual- 多语言TTS,支持多种语言的自然语音合成text-to-speech-neural- 神经网络TTS,高质量自然语音合成text-to-speech-001- 标准TTS模型,基础文本转语音功能text-to-speech-standard- 标准TTS版本,稳定的语音合成服务
完整模型列表请查看 可用模型。
文本转语音 (Text-to-Speech)
请求参数
必需参数
| 参数 | 类型 | 说明 |
|---|---|---|
model | string | 模型ID,例如 text-to-speech-001 |
input | string | 要转换为语音的文本内容 |
voice | string | 语音类型:alloy、echo、fable、onyx、nova、shimmer |
可选参数
| 参数 | 类型 | 默认值 | 说明 |
|---|---|---|---|
response_format | string | mp3 | 输出格式:mp3、opus、aac、flac、wav、pcm |
speed | number | 1.0 | 语音速度(0.25 - 4.0) |
代码示例
cURL
curl https://aiapi.services/v1/audio/speech \
-H "Authorization: Bearer YOUR_API_KEY" \
-H "Content-Type: application/json" \
-d '{
"model": "text-to-speech-001",
"input": "今天天气真不错,适合出去散步。",
"voice": "alloy",
"speed": 1.0
}' \
--output speech.mp3响应格式
成功响应
响应为音频文件的二进制数据流(非JSON格式),HTTP响应头包含:
Content-Type: audio/mpeg # MP3格式
Content-Type: audio/opus # Opus格式
Content-Type: audio/aac # AAC格式
Content-Type: audio/flac # FLAC格式
Content-Type: audio/wav # WAV格式
Content-Type: audio/pcm # PCM格式
Content-Length: 45678 # 文件大小(字节)使用方式:
保存到文件
# 保存为文件
with open('output.mp3', 'wb') as f:
f.write(response.content)音频格式对比
| 格式 | 文件大小 | 质量 | 兼容性 | 推荐场景 |
|---|---|---|---|---|
| mp3 | 中等 | 良好 | 极佳 | 通用场景,默认格式 |
| opus | 最小 | 优秀 | 良好 | 带宽受限、实时通信 |
| aac | 中等 | 优秀 | 良好 | iOS/Mac应用 |
| flac | 大 | 无损 | 一般 | 高质量音频需求 |
| wav | 最大 | 无损 | 极佳 | 专业音频处理 |
| pcm | 最大 | 无损 | 较差 | 底层音频开发 |
文件大小估算
文本长度与音频文件大小的大致关系(MP3格式):
| 文本长度 | 音频时长 | MP3文件大小 |
|---|---|---|
| 100字符 | ~10秒 | ~20KB |
| 500字符 | ~50秒 | ~100KB |
| 1000字符 | ~100秒 | ~200KB |
| 4096字符(最大) | ~400秒 | ~800KB |
错误响应
当请求失败时,返回JSON格式的错误信息。详见错误处理文档。
{
"code": "invalid_request_error",
"message": "Invalid parameter: input text too long",
"data": null
}常见错误:
input_too_long- 文本超过最大长度限制(4096字符)invalid_voice- 不支持的语音类型quota_not_enough- 配额不足
语音类型说明
| 语音类型 | 特点 | 适用场景 |
|---|---|---|
| alloy | 中性、清晰 | 通用场景 |
| echo | 男性、稳重 | 商务、新闻 |
| fable | 温暖、友好 | 故事讲述 |
| onyx | 深沉、权威 | 正式场合 |
| nova | 女性、活力 | 广告、营销 |
| shimmer | 柔和、优雅 | 助手、客服 |
使用建议
性能优化建议:
- 单次请求文本长度建议不超过4096字符
- 对于长文本,建议分段处理
- 使用适当的语音速度,默认1.0最自然
注意事项:
- 生成的音频文件大小与文本长度成正比
- 不同语音类型的生成时间可能略有差异
- 建议使用HTTPS确保音频数据传输安全
相关资源
Last updated on