Skip to Content
简体中文音频接口

音频接口 (Audio)

音频接口提供强大的文本转语音(Text-to-Speech)能力,支持多语言、高质量的自然语音合成。

接口地址

文本转语音 (Text-to-Speech)

POST https://aiapi.services/v1/audio/speech

鉴权方式

所有请求需要在HTTP头中包含您的API密钥:

Authorization: Bearer YOUR_API_KEY

支持的模型

文本转语音 (TTS)

  • text-to-speech-multilingual - 多语言TTS,支持多种语言的自然语音合成
  • text-to-speech-neural - 神经网络TTS,高质量自然语音合成
  • text-to-speech-001 - 标准TTS模型,基础文本转语音功能
  • text-to-speech-standard - 标准TTS版本,稳定的语音合成服务

完整模型列表请查看 可用模型

文本转语音 (Text-to-Speech)

请求参数

必需参数

参数类型说明
modelstring模型ID,例如 text-to-speech-001
inputstring要转换为语音的文本内容
voicestring语音类型:alloyechofableonyxnovashimmer

可选参数

参数类型默认值说明
response_formatstringmp3输出格式:mp3opusaacflacwavpcm
speednumber1.0语音速度(0.25 - 4.0)

代码示例

curl https://aiapi.services/v1/audio/speech \ -H "Authorization: Bearer YOUR_API_KEY" \ -H "Content-Type: application/json" \ -d '{ "model": "text-to-speech-001", "input": "今天天气真不错,适合出去散步。", "voice": "alloy", "speed": 1.0 }' \ --output speech.mp3

响应格式

成功响应

响应为音频文件的二进制数据流(非JSON格式),HTTP响应头包含:

Content-Type: audio/mpeg # MP3格式 Content-Type: audio/opus # Opus格式 Content-Type: audio/aac # AAC格式 Content-Type: audio/flac # FLAC格式 Content-Type: audio/wav # WAV格式 Content-Type: audio/pcm # PCM格式 Content-Length: 45678 # 文件大小(字节)

使用方式:

# 保存为文件 with open('output.mp3', 'wb') as f: f.write(response.content)

音频格式对比

格式文件大小质量兼容性推荐场景
mp3中等良好极佳通用场景,默认格式
opus最小优秀良好带宽受限、实时通信
aac中等优秀良好iOS/Mac应用
flac无损一般高质量音频需求
wav最大无损极佳专业音频处理
pcm最大无损较差底层音频开发

文件大小估算

文本长度与音频文件大小的大致关系(MP3格式):

文本长度音频时长MP3文件大小
100字符~10秒~20KB
500字符~50秒~100KB
1000字符~100秒~200KB
4096字符(最大)~400秒~800KB

错误响应

当请求失败时,返回JSON格式的错误信息。详见错误处理文档

{ "code": "invalid_request_error", "message": "Invalid parameter: input text too long", "data": null }

常见错误:

  • input_too_long - 文本超过最大长度限制(4096字符)
  • invalid_voice - 不支持的语音类型
  • quota_not_enough - 配额不足

语音类型说明

语音类型特点适用场景
alloy中性、清晰通用场景
echo男性、稳重商务、新闻
fable温暖、友好故事讲述
onyx深沉、权威正式场合
nova女性、活力广告、营销
shimmer柔和、优雅助手、客服

使用建议

性能优化建议:

  • 单次请求文本长度建议不超过4096字符
  • 对于长文本,建议分段处理
  • 使用适当的语音速度,默认1.0最自然

注意事项:

  • 生成的音频文件大小与文本长度成正比
  • 不同语音类型的生成时间可能略有差异
  • 建议使用HTTPS确保音频数据传输安全

相关资源

Last updated on