音频接口 (Audio)

音频接口提供强大的文本转语音(Text-to-Speech)能力，支持多语言、高质量的自然语音合成。

接口地址

文本转语音 (Text-to-Speech)


POST https://aiapi.services/v1/audio/speech

鉴权方式

所有请求需要在HTTP头中包含您的API密钥：


Authorization: Bearer YOUR_API_KEY

支持的模型

文本转语音 (TTS)

text-to-speech-multilingual - 多语言TTS，支持多种语言的自然语音合成
text-to-speech-neural - 神经网络TTS，高质量自然语音合成
text-to-speech-001 - 标准TTS模型，基础文本转语音功能
text-to-speech-standard - 标准TTS版本，稳定的语音合成服务

完整模型列表请查看可用模型。

文本转语音 (Text-to-Speech)

请求参数

必需参数

参数	类型	说明
`model`	string	模型ID，例如 `text-to-speech-001`
`input`	string	要转换为语音的文本内容
`voice`	string	语音类型：`alloy`、`echo`、`fable`、`onyx`、`nova`、`shimmer`

可选参数

参数	类型	默认值	说明
`response_format`	string	`mp3`	输出格式：`mp3`、`opus`、`aac`、`flac`、`wav`、`pcm`
`speed`	number	1.0	语音速度（0.25 - 4.0）

代码示例

cURL


curl https://aiapi.services/v1/audio/speech \
  -H "Authorization: Bearer YOUR_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "text-to-speech-001",
    "input": "今天天气真不错，适合出去散步。",
    "voice": "alloy",
    "speed": 1.0
  }' \
  --output speech.mp3

Python


import requests
 
response = requests.post(
  'https://aiapi.services/v1/audio/speech',
  headers={
    'Authorization': 'Bearer YOUR_API_KEY',
    'Content-Type': 'application/json'
  },
  json={
    'model': 'text-to-speech-001',
    'input': '今天天气真不错，适合出去散步。',
    'voice': 'alloy',
    'speed': 1.0
  }
)
 
with open('speech.mp3', 'wb') as f:
  f.write(response.content)
 
print('语音文件已保存为 speech.mp3')

JavaScript


const response = await fetch('https://aiapi.services/v1/audio/speech', {
  method: 'POST',
  headers: {
    'Authorization': 'Bearer YOUR_API_KEY',
    'Content-Type': 'application/json'
  },
  body: JSON.stringify({
    model: 'text-to-speech-001',
    input: '今天天气真不错，适合出去散步。',
    voice: 'alloy',
    speed: 1.0
  })
});
 
const audioBlob = await response.blob();
const url = URL.createObjectURL(audioBlob);
 
// 播放音频
const audio = new Audio(url);
audio.play();

Go


package main
 
import (
  "bytes"
  "encoding/json"
  "fmt"
  "io"
  "net/http"
  "os"
)
 
func main() {
  url := "https://aiapi.services/v1/audio/speech"
 
  payload := map[string]interface{}{
    "model": "text-to-speech-001",
    "input": "今天天气真不错，适合出去散步。",
    "voice": "alloy",
    "speed": 1.0,
  }
 
  jsonData, _ := json.Marshal(payload)
  req, _ := http.NewRequest("POST", url, bytes.NewBuffer(jsonData))
  req.Header.Set("Authorization", "Bearer YOUR_API_KEY")
  req.Header.Set("Content-Type", "application/json")
 
  client := &http.Client{}
  resp, _ := client.Do(req)
  defer resp.Body.Close()
 
  out, _ := os.Create("speech.mp3")
  defer out.Close()
  io.Copy(out, resp.Body)
  fmt.Println("语音文件已保存为 speech.mp3")
}

Rust


use reqwest::header::{HeaderMap, HeaderValue, AUTHORIZATION, CONTENT_TYPE};
use serde_json::json;
use std::fs::File;
use std::io::Write;
 
#[tokio::main]
async fn main() -> Result<(), Box<dyn std::error::Error>> {
    let client = reqwest::Client::new();
 
    let mut headers = HeaderMap::new();
    headers.insert(AUTHORIZATION, HeaderValue::from_static("Bearer YOUR_API_KEY"));
    headers.insert(CONTENT_TYPE, HeaderValue::from_static("application/json"));
 
    let payload = json!({
        "model": "text-to-speech-001",
        "input": "今天天气真不错，适合出去散步。",
        "voice": "alloy",
        "speed": 1.0
    });
 
    let response = client
        .post("https://aiapi.services/v1/audio/speech")
        .headers(headers)
        .json(&payload)
        .send()
        .await?;
 
    let audio_data = response.bytes().await?;
 
    let mut file = File::create("speech.mp3")?;
    file.write_all(&audio_data)?;
 
    println!("语音文件已保存为 speech.mp3");
 
    Ok(())
}

PHP


<?php
 
$ch = curl_init();
curl_setopt($ch, CURLOPT_URL, "https://aiapi.services/v1/audio/speech");
curl_setopt($ch, CURLOPT_RETURNTRANSFER, true);
curl_setopt($ch, CURLOPT_POST, true);
curl_setopt($ch, CURLOPT_HTTPHEADER, [
    "Authorization: Bearer YOUR_API_KEY",
    "Content-Type: application/json"
]);
 
$data = [
    "model" => "text-to-speech-001",
    "input" => "今天天气真不错，适合出去散步。",
    "voice" => "alloy",
    "speed" => 1.0
];
 
curl_setopt($ch, CURLOPT_POSTFIELDS, json_encode($data));
$response = curl_exec($ch);
curl_close($ch);
 
file_put_contents('speech.mp3', $response);
echo "语音文件已保存为 speech.mp3\n";
?>

Ruby


require 'net/http'
require 'json'
 
uri = URI('https://aiapi.services/v1/audio/speech')
request = Net::HTTP::Post.new(uri)
request['Authorization'] = 'Bearer YOUR_API_KEY'
request['Content-Type'] = 'application/json'
 
request.body = {
  model: 'text-to-speech-001',
  input: '今天天气真不错，适合出去散步。',
  voice: 'alloy',
  speed: 1.0
}.to_json
 
response = Net::HTTP.start(uri.hostname, uri.port, use_ssl: true) do |http|
  http.request(request)
end
 
File.write('speech.mp3', response.body)
puts "语音文件已保存为 speech.mp3"

响应格式

成功响应

响应为音频文件的二进制数据流（非JSON格式），HTTP响应头包含:


Content-Type: audio/mpeg              # MP3格式
Content-Type: audio/opus              # Opus格式
Content-Type: audio/aac               # AAC格式
Content-Type: audio/flac              # FLAC格式
Content-Type: audio/wav               # WAV格式
Content-Type: audio/pcm               # PCM格式

Content-Length: 45678                 # 文件大小(字节)

使用方式:

保存到文件


# 保存为文件
with open('output.mp3', 'wb') as f:
    f.write(response.content)

流式播放


// 浏览器中播放
const audioBlob = await response.blob();
const audioUrl = URL.createObjectURL(audioBlob);
const audio = new Audio(audioUrl);
audio.play();

内存处理


# 内存中处理
from io import BytesIO
import pygame
 
audio_bytes = BytesIO(response.content)
pygame.mixer.init()
pygame.mixer.music.load(audio_bytes)
pygame.mixer.music.play()

音频格式对比

格式	文件大小	质量	兼容性	推荐场景
mp3	中等	良好	极佳	通用场景，默认格式
opus	最小	优秀	良好	带宽受限、实时通信
aac	中等	优秀	良好	iOS/Mac应用
flac	大	无损	一般	高质量音频需求
wav	最大	无损	极佳	专业音频处理
pcm	最大	无损	较差	底层音频开发

文件大小估算

文本长度与音频文件大小的大致关系(MP3格式):

文本长度	音频时长	MP3文件大小
100字符	~10秒	~20KB
500字符	~50秒	~100KB
1000字符	~100秒	~200KB
4096字符(最大)	~400秒	~800KB

错误响应

当请求失败时，返回JSON格式的错误信息。详见错误处理文档。


{
  "code": "invalid_request_error",
  "message": "Invalid parameter: input text too long",
  "data": null
}

常见错误:

input_too_long - 文本超过最大长度限制(4096字符)
invalid_voice - 不支持的语音类型
quota_not_enough - 配额不足

语音类型说明

语音类型	特点	适用场景
alloy	中性、清晰	通用场景
echo	男性、稳重	商务、新闻
fable	温暖、友好	故事讲述
onyx	深沉、权威	正式场合
nova	女性、活力	广告、营销
shimmer	柔和、优雅	助手、客服

使用建议

性能优化建议:

单次请求文本长度建议不超过4096字符
对于长文本，建议分段处理
使用适当的语音速度，默认1.0最自然

注意事项:

生成的音频文件大小与文本长度成正比
不同语音类型的生成时间可能略有差异
建议使用HTTPS确保音频数据传输安全

音频接口 (Audio)

接口地址

文本转语音 (Text-to-Speech)

鉴权方式

支持的模型

文本转语音 (TTS)

文本转语音 (Text-to-Speech)

请求参数

必需参数

可选参数

代码示例

cURL

Python

JavaScript

Go

Rust

PHP

Ruby

响应格式

成功响应

保存到文件

流式播放

内存处理

音频格式对比

文件大小估算

错误响应

语音类型说明

使用建议

相关资源