14a - 语音 AI 平台对比

本文是《AI Agent 实战手册》第 14 章第 1 节。上一节：13e-品牌一致性指南 | 下一节：14b-语音克隆与TTS-STT

概述

语音 AI 是构建下一代对话式应用的核心基础设施——从智能客服到电话销售 Agent，从语音助手到实时翻译，语音技术正在重塑人机交互方式。2025-2026 年，语音 AI 领域经历了剧烈变化：ElevenLabs 凭借 75ms 超低延迟的 Flash 模型巩固了 TTS 标杆地位；Deepgram 推出 Aura-2 TTS 和统一的 Voice Agent API，从纯 STT 厂商转型为全栈语音平台；Vapi.ai 成为开发者构建电话 AI Agent 的首选编排层；而 Play.ht（PlayAI）在被 Meta 收购后于 2025 年底关停独立服务。本文将系统对比六大主流语音 AI 平台，帮助你根据延迟、语音质量、语言支持、价格和 API 能力做出最优选择。

1. 语音 AI 技术栈概览

1.1 核心组件

构建一个完整的语音 AI Agent 通常需要三大核心组件协同工作：


用户语音输入 → [STT 语音识别] → 文本 → [LLM 推理] → 文本 → [TTS 语音合成] → 语音输出

组件	全称	功能	关键指标
STT	Speech-to-Text	将语音转为文本	准确率（WER）、延迟、语言数
TTS	Text-to-Speech	将文本转为语音	自然度（MOS）、延迟（TTFB）、情感表达
Voice Agent	语音 Agent 编排	统一管理 STT+LLM+TTS 流水线	端到端延迟、并发能力、中断处理

1.2 延迟的关键性

人类对话的自然响应窗口为 300-500ms。语音 AI Agent 的端到端延迟由三部分叠加：


总延迟 = STT 延迟 (100-500ms) + LLM 推理 (350ms-1s+) + TTS 延迟 (75-200ms)

⚠️ 关键洞察：即使单个组件延迟很低，叠加后总延迟很容易超过 800ms-2s，导致对话体验不自然。选择平台时必须关注端到端延迟，而非单组件指标。

1.3 平台定位分类

类型	代表平台	特点
TTS 专精	ElevenLabs、Resemble.ai	语音质量最高，克隆能力强
STT 专精	Deepgram、AssemblyAI	识别准确率高，企业级功能丰富
全栈编排	Vapi.ai、Deepgram Voice Agent API	统一 STT+LLM+TTS，开箱即用
国产平台	MiniMax Speech 2.5、科大讯飞、火山引擎 TTS	中文语音质量优秀，价格有竞争力
已停服	Play.ht（PlayAI）	2025 年被 Meta 收购后关停

2. 六大平台详细对比

2.1 总览对比表

平台	核心能力	TTS 延迟	STT 延迟	语言数	起步价	适用场景
ElevenLabs	TTS + 语音克隆 + 对话 AI	75ms (Flash)	通过 Scribe 支持	74+	$5/月（10K 字符）	高质量配音、语音克隆、对话 Agent
Deepgram	STT + TTS + Voice Agent API	90-200ms (Aura-2)	150ms (Nova-3)	36+ (STT)	$200 免费额度	企业级转录、实时语音 Agent
Vapi.ai	语音 Agent 编排平台	取决于 TTS 提供商	取决于 STT 提供商	取决于组件	$0.05/分钟起	电话 AI Agent、语音机器人
AssemblyAI	STT + 音频智能	无原生 TTS	实时流式	99+ (Universal-2)	$50 免费额度	转录、内容审核、音频分析
Resemble.ai	TTS + 语音克隆 + 深伪检测	实时流式	通过集成支持	24+	$0/起（按量付费）	企业语音克隆、安全合规
Play.ht ⚠️	TTS + 语音克隆	—	—	142 (历史)	已停服	⚠️ 2025.12 关停，需迁移

2.2 ElevenLabs — TTS 行业标杆

平台概述

ElevenLabs 是当前语音合成领域的标杆平台，以极高的语音自然度和超低延迟著称。其 Eleven v3 模型在 MOS（Mean Opinion Score）评分中达到 4.14，接近人类语音水平。平台服务超过 100 万用户，提供从内容创作到对话式 AI Agent 的全场景覆盖。

核心模型

模型	延迟	质量	适用场景
Eleven v3	~300ms	最高质量，情感丰富	有声书、高端配音
Multilingual v2	~250-300ms	多语言优化	多语言内容
Flash v2	~75ms	略低于 v3，仍然优秀	实时对话、语音 Agent
Turbo v2.5	~135ms	平衡质量与速度	交互式应用

价格体系

计划	月费	字符额度	语音克隆	关键特性
Free	$0	10,000 字符	3 个	基础功能体验
Starter	$5	30,000 字符	10 个	个人创作者
Creator	$22	100,000 字符	30 个	内容创作者
Pro	$99	500,000 字符	160 个	专业团队
Scale	$330	2,000,000 字符	660 个	企业级
Enterprise	定制	定制	无限	自定义 SLA、HIPAA

💡 Flash 模型省钱技巧：Flash 模型每字符消耗 0.5 个额度（标准模型消耗 1 个），相当于同样价格可生成双倍时长的音频。

API 能力


# ElevenLabs TTS 基础调用示例
from elevenlabs import ElevenLabs
 
client = ElevenLabs(api_key="your-api-key")
 
# 流式 TTS — 适合实时对话
audio_stream = client.text_to_speech.convert_as_stream(
    voice_id="JBFqnCBsd6RMkjVDRZzb",
    text="你好，我是你的 AI 助手，有什么可以帮你的吗？",
    model_id="eleven_flash_v2_5",  # 超低延迟模型
    output_format="mp3_44100_128"
)
 
# 对话式 AI Agent
conversation = client.conversational_ai.create_conversation(
    agent_id="your-agent-id",
    first_message="你好！请问有什么可以帮助你的？"
)

优势与局限

✅ 优势：

业界最高语音自然度（MOS 4.14）
Flash 模型 75ms 超低延迟
74+ 语言支持，中文表现优秀
强大的语音克隆（仅需 10 秒音频）
完善的对话式 AI Agent 平台

❌ 局限：

高用量场景成本较高
不同生成之间质量可能有波动
STT 能力（Scribe）相对较新，不如专业 STT 平台
字符额度制可能导致成本不可预测

2.3 Deepgram — 企业级语音基础设施

平台概述

Deepgram 是面向企业的语音 AI 基础设施平台，以极高的 STT 准确率和超低延迟著称。其 Nova-3 模型在 WER（Word Error Rate）上比竞品低 54.2%，每年处理超过 50,000 年时长的音频数据。2025 年推出的 Voice Agent API 将 STT、LLM 和 TTS 统一为单一 API，标志着从纯 STT 向全栈语音平台的转型。

核心模型

STT 模型：

模型	准确率	延迟	语言	适用场景
Nova-3 (单语)	最高	<300ms	英语优化	通话转录、会议记录
Nova-3 (多语)	高	<300ms	36+ 语言	多语言场景
Fluxi	高	超低	英语	实时语音 Agent（内置轮次检测）
Nova-2	较高	<300ms	36+ 语言	非英语转录

TTS 模型：

模型	延迟	质量	价格
Aura-2	90ms (TTFB)	企业级自然度	$0.030/千字符
Aura-1	<200ms	基础自然度	$0.015/千字符

价格体系

计划	费用	STT 价格	TTS 价格	Voice Agent
Pay As You Go	$200 免费额度	$0.0077/分钟 (Nova-3)	$0.030/千字符 (Aura-2)	$0.08/分钟
Growth	$4,000+/年	$0.0065/分钟	$0.027/千字符	$0.07/分钟
Enterprise	定制	定制	定制	定制

Voice Agent API 定价详情：

配置	Pay As You Go	Growth
Standard（全托管）	$0.08/分钟	$0.07/分钟
BYO TTS	$0.06/分钟	$0.05/分钟
BYO LLM	$0.07/分钟	$0.06/分钟
BYO LLM + TTS	$0.05/分钟	$0.04/分钟
Advanced	$0.16/分钟	$0.15/分钟

API 能力


# Deepgram STT 实时流式转录
from deepgram import DeepgramClient, LiveTranscriptionEvents, LiveOptions
 
deepgram = DeepgramClient(api_key="your-api-key")
 
# 创建实时连接
connection = deepgram.listen.live.v("1")
 
# 配置选项
options = LiveOptions(
    model="nova-3",
    language="zh",           # 中文
    smart_format=True,       # 智能格式化
    diarize=True,            # 说话人分离
    interim_results=True     # 中间结果（降低感知延迟）
)
 
connection.start(options)


// Deepgram Voice Agent API — 统一语音 Agent
import { createClient } from "@deepgram/sdk";
 
const deepgram = createClient("your-api-key");
 
const agent = deepgram.agent();
 
// 配置语音 Agent
await agent.configure({
  audio: {
    input: { encoding: "linear16", sample_rate: 16000 },
    output: { encoding: "linear16", sample_rate: 24000 }
  },
  agent: {
    listen: { model: "nova-3" },        // STT
    think: {
      provider: { type: "open_ai" },     // LLM
      model: "gpt-4o-mini"
    },
    speak: { model: "aura-2-en" }        // TTS
  }
});

优势与局限

✅ 优势：

STT 准确率业界领先（Nova-3 WER 最低）
Aura-2 TTS 延迟低至 90ms
Voice Agent API 统一编排，简化开发
企业级功能：HIPAA 合规、自托管部署
价格透明，大规模使用成本优势明显

❌ 局限：

TTS 语音自然度不及 ElevenLabs
TTS 语言支持有限（Aura-2 主要支持英语和西班牙语）
STT 支持 36 语言，少于部分竞品
定价结构较复杂（附加功能单独计费）

2.4 Vapi.ai — 开发者优先的语音 Agent 编排平台

平台概述

Vapi.ai 是一个专为开发者设计的语音 AI 编排平台，定位为”语音 Agent 的乐高积木”。它不直接提供 STT 或 TTS 模型，而是作为编排层，让开发者自由组合不同的 STT、LLM 和 TTS 提供商，快速构建、测试和部署电话 AI Agent。其核心价值在于将复杂的语音 Agent 基础设施抽象为简单的 API 调用。

架构特点


Vapi.ai 编排层
├── STT 选择：Deepgram / AssemblyAI / Google / Azure
├── LLM 选择：GPT-4o / Claude / Gemini / 自定义
├── TTS 选择：ElevenLabs / Deepgram / Azure / 自定义
└── 电话集成：Twilio / Vonage / 自定义 SIP

价格体系

Vapi 采用分层叠加的按量计费模式：

费用项	价格	说明
平台编排费	$0.05/分钟	Vapi 基础费用
STT 费用	取决于提供商	如 Deepgram $0.0077/分钟
LLM 费用	取决于模型	如 GPT-4o-mini token 费用
TTS 费用	取决于提供商	如 ElevenLabs 按字符计费
电话费用	~$0.01-0.05/分钟	Twilio/Vonage 通话费
实际总成本	$0.13-0.31/分钟	典型配置的综合成本

⚠️ 成本提醒：Vapi 的 $0.05/分钟起步价仅是编排层费用，实际使用中需要叠加 STT、LLM、TTS 和电话费用，总成本通常在 $0.13-0.31/分钟之间。

API 能力


// Vapi.ai 创建语音 Agent
import Vapi from "@vapi-ai/server-sdk";
 
const vapi = new Vapi({ token: "your-api-key" });
 
// 创建 AI 电话 Agent
const assistant = await vapi.assistants.create({
  name: "客服助手",
  model: {
    provider: "openai",
    model: "gpt-4o-mini",
    systemPrompt: `你是一个专业的中文客服助手。
      - 用友好、专业的语气回答问题
      - 如果无法解决，转接人工客服
      - 每次回复控制在 2-3 句话以内`
  },
  voice: {
    provider: "elevenlabs",
    voiceId: "your-voice-id"
  },
  transcriber: {
    provider: "deepgram",
    model: "nova-3",
    language: "zh"
  },
  firstMessage: "你好！我是智能客服助手，请问有什么可以帮你的？"
});
 
// 发起外呼
const call = await vapi.calls.create({
  assistantId: assistant.id,
  phoneNumberId: "your-phone-number-id",
  customer: { number: "+8613800138000" }
});

优势与局限

✅ 优势：

开发者友好，API 设计优秀
自由组合 STT/LLM/TTS 提供商（BYO 模式）
端到端延迟可控制在 500ms 以内
内置电话集成（Twilio/Vonage）
Webhook 支持，易于集成到现有系统

❌ 局限：

分层计费导致成本不透明
无可视化工作流设计器（低代码能力弱）
缺少角色权限管理和部署环境隔离
文档和入门引导相对简陋
依赖第三方提供商，故障排查链路长

2.5 AssemblyAI — 音频智能专家

平台概述

AssemblyAI 专注于语音识别和音频智能分析，其 Universal-3 Pro 模型支持实体识别、提示词控制等高级功能。平台的核心优势在于”转录+“能力——不仅将语音转为文本，还能自动提取摘要、情感、话题、意图等结构化信息。LeMUR 功能允许直接对转录结果进行 LLM 操作。

核心模型

模型	准确率	语言	特色功能	价格
Universal-3 Pro	最高	6 语言	实体识别、提示词控制	$0.21/小时
Universal-2	高	99 语言	广泛语言覆盖	$0.15/小时
Universal-Streaming	高	英语	实时转录、轮次检测	$0.15/小时
Universal-Streaming 多语	高	6 语言	实时多语言	$0.15/小时

附加功能定价

功能	价格	说明
说话人分离	$0.02/小时	识别不同说话人
PII 脱敏	$0.02/小时	自动识别和脱敏个人信息
情感分析	包含在 Audio Intelligence 中	句级情感标注
摘要生成	包含在 Audio Intelligence 中	自动生成音频摘要
话题检测	包含在 Audio Intelligence 中	自动识别讨论话题
意图识别	包含在 Audio Intelligence 中	识别说话人意图
提示词控制	$0.05/小时	用自然语言指令控制转录行为
关键词提示	$0.05/小时	提供关键词提升准确率

💡 免费额度：新用户获得 $50 免费额度，约可转录 185 小时预录音频或 333 小时流式音频。

API 能力


# AssemblyAI 转录 + 音频智能
import assemblyai as aai
 
aai.settings.api_key = "your-api-key"
 
# 配置转录器
config = aai.TranscriptionConfig(
    speech_model=aai.SpeechModel.best,       # Universal-3 Pro
    speaker_labels=True,                      # 说话人分离
    sentiment_analysis=True,                  # 情感分析
    auto_highlights=True,                     # 关键词高亮
    entity_detection=True,                    # 实体检测
    summarization=True,                       # 自动摘要
    summary_model=aai.SummarizationModel.informative,
    summary_type=aai.SummarizationType.bullets
)
 
transcriber = aai.Transcriber(config=config)
transcript = transcriber.transcribe("https://example.com/audio.mp3")
 
# 获取结构化结果
print(f"转录文本: {transcript.text}")
print(f"摘要: {transcript.summary}")
for sentiment in transcript.sentiment_analysis:
    print(f"[{sentiment.sentiment}] {sentiment.text}")
 
# LeMUR — 对转录结果进行 LLM 操作
result = transcript.lemur.task(
    prompt="请从这段客服通话中提取：1) 客户问题 2) 解决方案 3) 客户满意度",
    final_model=aai.LemurModel.claude3_5_sonnet
)
print(result.response)

优势与局限

✅ 优势：

Universal-2 支持 99 种语言，覆盖面最广
音频智能功能丰富（情感、摘要、话题、意图）
LeMUR 功能直接对转录结果做 LLM 分析
PII 脱敏支持 HIPAA/GDPR 合规
SDK 支持 Python、JavaScript 等多语言

❌ 局限：

无原生 TTS 能力，不能独立构建语音 Agent
附加功能单独计费，实际成本可能远超基础价
Universal-3 Pro 仅支持 6 种语言
实时流式转录的语言支持有限

2.6 Resemble.ai — 企业级语音克隆与安全

平台概述

Resemble.ai 专注于高保真语音克隆和企业级语音安全。其独特定位在于将语音生成与深伪检测结合——既能创建逼真的 AI 语音，又能检测和防御 AI 语音欺诈。Chatterbox 开源模型的发布进一步扩大了其在开发者社区的影响力。平台特别适合对安全合规有严格要求的企业场景。

核心能力

功能	说明	价格
Text-to-Speech	AI 语音合成	$0.03/分钟（$0.0005/秒）
Voice Agent	对话式语音 Agent	$0.06/分钟（$0.001/秒）
快速语音克隆	10 秒音频即可克隆	$2/月/语音
专业语音克隆	高保真克隆	$5/月/语音
语音设计	自定义语音创建	$2/月/语音
AI 变声器	实时语音转换	$0.0005/秒
Speech-to-Text	语音识别	$0.001/秒
深伪检测（音频）	检测 AI 生成音频	$0.04/秒
深伪检测（视频）	检测 AI 生成视频	$0.07/秒
AI 水印	音频溯源标记	$0.0005/秒

价格体系

计划	费用	特点
Flex（按量付费）	$0 起	充值额度，按量扣费，额度永不过期
Enterprise	定制	最高 80% 折扣、SOC 2、SSO、自托管
团队席位	$20/月/人	多人协作

API 能力


# Resemble.ai 语音克隆 + TTS
import resemble
 
resemble.api_key = "your-api-key"
 
# 创建快速语音克隆
voice = resemble.v2.voices.create(
    name="我的克隆语音",
    dataset_url="https://example.com/my-voice-sample.wav",
    clone_type="rapid"  # rapid 或 professional
)
 
# 使用克隆语音生成 TTS
audio = resemble.v2.clips.create_sync(
    voice_uuid=voice["uuid"],
    body="欢迎使用我们的智能客服系统，请问有什么可以帮助您的？",
    output_format="wav"
)
 
# 深伪检测
detection = resemble.v2.detect.create(
    audio_url="https://example.com/suspicious-audio.wav"
)
print(f"深伪概率: {detection['score']}")

优势与局限

✅ 优势：

仅需 10 秒音频即可快速克隆语音
深伪检测能力独特，安全合规优势明显
Flex 计划按量付费，额度永不过期
支持自托管部署（企业版）
Chatterbox 开源模型可本地运行
AI 水印技术支持内容溯源

❌ 局限：

TTS 语音自然度不及 ElevenLabs
语言支持数量有限（24+ 语言）
社区规模和生态不如头部平台
高级功能（深伪检测）成本较高

2.7 Play.ht（PlayAI）— ⚠️ 已停服

重要通知

⚠️ Play.ht（PlayAI）已于 2025 年 7 月被 Meta 收购，独立服务于 2025 年 12 月 31 日正式关停。 如果你正在使用 Play.ht，请尽快迁移到其他平台。

历史回顾

Play.ht 曾是一个广受欢迎的 TTS 平台，提供 900+ AI 语音、142 种语言支持和语音克隆功能。其 PlayDialog 模型在对话式语音生成方面表现出色。

迁移建议

原 Play.ht 用途	推荐迁移目标	理由
内容创作 TTS	ElevenLabs	语音质量最高，功能最全
API 集成	ElevenLabs / Deepgram Aura-2	API 成熟，文档完善
语音克隆	Resemble.ai / ElevenLabs	克隆质量高，安全合规
多语言 TTS	ElevenLabs	74+ 语言支持
低成本方案	Deepgram Aura-2	价格更低

3. 维度深度对比

3.1 延迟对比

延迟是语音 Agent 体验的决定性因素。以下是各平台在关键指标上的表现：

TTS 首字节延迟（TTFB）

平台	最低延迟模型	TTFB	标准模型 TTFB
ElevenLabs	Flash v2	~75ms	~250-300ms
Deepgram	Aura-2	~90ms	~200ms
Resemble.ai	实时模式	~150ms	~200ms
Vapi.ai	取决于 TTS 提供商	—	—
AssemblyAI	无原生 TTS	—	—

STT 处理延迟

平台	模型	流式延迟	批处理速度
Deepgram	Nova-3	~150ms	40x 实时速度
Deepgram	Fluxi	超低（内置轮次检测）	—
AssemblyAI	Universal-Streaming	~200ms	快速
AssemblyAI	Universal-3 Pro	—	标准
ElevenLabs	Scribe v2	实时	标准

端到端语音 Agent 延迟

方案	典型端到端延迟	说明
Deepgram Voice Agent API	400-600ms	统一优化，延迟最低
Vapi + Deepgram + ElevenLabs Flash	500-800ms	组合方案，灵活但延迟叠加
ElevenLabs 对话 AI	500-700ms	端到端方案
自建 STT+LLM+TTS	800ms-2s+	取决于组件选择和优化

3.2 语音质量对比

平台	MOS 评分（估计）	情感表达	语音克隆质量	中文质量
ElevenLabs	4.14 (v3)	⭐⭐⭐⭐⭐	⭐⭐⭐⭐⭐	⭐⭐⭐⭐
Deepgram Aura-2	~3.8	⭐⭐⭐	无	⭐⭐⭐
Resemble.ai	~3.9	⭐⭐⭐⭐	⭐⭐⭐⭐	⭐⭐⭐
Vapi.ai	取决于 TTS	取决于 TTS	取决于 TTS	取决于 TTS

3.3 语言支持对比

平台	能力	语言数	中文支持	多语言切换
ElevenLabs	TTS	74+	✅ 普通话	✅ 自动检测
Deepgram	STT	36+	✅ 普通话、粤语	✅ 自动检测
Deepgram	TTS	有限	❌ 英语/西班牙语为主	❌
AssemblyAI	STT (Universal-2)	99	✅ 普通话	✅ 自动检测
AssemblyAI	STT (Universal-3 Pro)	6	❌	✅
Resemble.ai	TTS	24+	✅ 普通话	✅

3.4 API 能力对比

能力	ElevenLabs	Deepgram	Vapi.ai	AssemblyAI	Resemble.ai
REST API	✅	✅	✅	✅	✅
WebSocket 流式	✅	✅	✅	✅	✅
Python SDK	✅	✅	✅	✅	✅
TypeScript SDK	✅	✅	✅	✅	✅
Webhook 回调	✅	✅	✅	✅	✅
电话集成	✅ (对话 AI)	✅ (Voice Agent)	✅ (核心功能)	❌	❌
自托管部署	❌	✅ (Enterprise)	❌	✅ (Enterprise)	✅ (Enterprise)
HIPAA 合规	✅ (Enterprise)	✅	❌	✅	✅ (Enterprise)
SOC 2	✅	✅	❌	✅	✅

3.5 价格综合对比

TTS 成本对比（生成 1 小时音频）

平台	模型	估算成本	说明
ElevenLabs	Flash v2	~$15-30	取决于计划和字符数
ElevenLabs	v3	~$30-60	高质量模型消耗更多额度
Deepgram	Aura-2	~$10-15	按字符计费
Deepgram	Aura-1	~$5-8	基础模型更便宜
Resemble.ai	TTS	~$1.80	$0.03/分钟，性价比高

STT 成本对比（转录 1 小时音频）

平台	模型	成本	说明
Deepgram	Nova-3	$0.46	$0.0077/分钟
AssemblyAI	Universal-2	$0.15	基础转录
AssemblyAI	Universal-3 Pro	$0.21	含实体识别
ElevenLabs	Scribe v2	包含在计划中	按小时计费

语音 Agent 成本对比（运行 1 小时通话）

方案	估算成本	说明
Deepgram Voice Agent (Standard)	$4.80	$0.08/分钟
Vapi + Deepgram + ElevenLabs	$7.80-18.60	$0.13-0.31/分钟
ElevenLabs 对话 AI	$5-15	取决于计划
Resemble.ai Voice Agent	$3.60	$0.06/分钟

4. 场景选型指南

4.1 决策流程图


你需要什么语音 AI 能力？
│
├── 主要需要 TTS（语音合成）
│   ├── 追求最高语音质量 → ElevenLabs
│   ├── 需要语音克隆 + 安全合规 → Resemble.ai
│   └── 追求低成本大规模 → Deepgram Aura-2
│
├── 主要需要 STT（语音识别）
│   ├── 需要最高准确率 → Deepgram Nova-3
│   ├── 需要 99 语言覆盖 → AssemblyAI Universal-2
│   └── 需要音频智能分析 → AssemblyAI + LeMUR
│
├── 需要完整语音 Agent
│   ├── 快速搭建，统一方案 → Deepgram Voice Agent API
│   ├── 需要自由组合组件 → Vapi.ai
│   └── 需要最高语音质量 → ElevenLabs 对话 AI
│
└── 需要电话 AI Agent
    ├── 开发者自建 → Vapi.ai + Twilio
    ├── 企业级方案 → Deepgram Voice Agent + SIP
    └── 快速原型 → ElevenLabs 对话 AI

4.2 按场景推荐

场景	首选方案	备选方案	关键考量
有声书/播客制作	ElevenLabs v3	Resemble.ai	语音质量优先
多语言内容本地化	ElevenLabs Multilingual v2	—	74+ 语言支持
实时客服语音 Agent	Deepgram Voice Agent API	Vapi.ai	延迟和成本
电话外呼销售 Agent	Vapi.ai + ElevenLabs	Deepgram Voice Agent	灵活性和语音质量
会议转录 + 分析	AssemblyAI	Deepgram	音频智能功能
呼叫中心质检	AssemblyAI + LeMUR	Deepgram + 自建	情感分析、合规
游戏/应用内语音	ElevenLabs Flash	Deepgram Aura-2	低延迟
企业安全合规	Resemble.ai	ElevenLabs Enterprise	深伪检测、自托管
低预算 MVP	Deepgram (免费额度)	Resemble.ai Flex	成本控制
大规模生产部署	Deepgram Enterprise	ElevenLabs Scale	并发和 SLA

4.3 技术栈组合推荐

方案 A：高质量对话 Agent（推荐）


STT: Deepgram Nova-3 ($0.0077/分钟)
LLM: GPT-4o-mini 或 Claude 3.5 Haiku
TTS: ElevenLabs Flash v2 (75ms 延迟)
编排: Vapi.ai ($0.05/分钟)
电话: Twilio
预估成本: ~$0.15-0.25/分钟

方案 B：低成本高并发 Agent


STT: Deepgram Fluxi
LLM: GPT-4o-mini
TTS: Deepgram Aura-2 (90ms 延迟)
编排: Deepgram Voice Agent API ($0.08/分钟)
预估成本: ~$0.08-0.12/分钟

方案 C：企业安全合规方案


STT: Deepgram Nova-3 (HIPAA)
LLM: Azure OpenAI (企业合规)
TTS: Resemble.ai (深伪检测 + 水印)
编排: 自建
部署: 自托管 / VPC
预估成本: 定制

5. 快速上手工作流

工具推荐

工具	用途	价格	适用场景
ElevenLabs	TTS + 语音克隆	$5/月起	高质量语音生成
Deepgram	STT + TTS + Voice Agent	$200 免费额度	企业级语音基础设施
Vapi.ai	语音 Agent 编排	$0.05/分钟起	电话 AI Agent 开发
AssemblyAI	STT + 音频智能	$50 免费额度	转录和音频分析
Resemble.ai	语音克隆 + 安全	$0 起（按量付费）	企业语音安全
Twilio	电话基础设施	$0.0085/分钟起	电话集成

操作步骤

步骤 1：评估需求

在选择平台之前，明确以下问题：


需求评估清单：
□ 核心需求是 TTS、STT 还是完整语音 Agent？
□ 目标延迟要求是多少？（<300ms / <500ms / <1s）
□ 需要支持哪些语言？
□ 月度预算是多少？
□ 是否需要语音克隆？
□ 是否有合规要求（HIPAA/GDPR/SOC 2）？
□ 预计并发量是多少？
□ 是否需要自托管部署？

步骤 2：注册免费账号并测试


# 1. ElevenLabs — 注册获取 API Key
# https://elevenlabs.io → Sign Up → API Keys
 
# 2. Deepgram — 注册获取 $200 免费额度
# https://console.deepgram.com → Sign Up
 
# 3. AssemblyAI — 注册获取 $50 免费额度
# https://www.assemblyai.com → Get Started
 
# 4. Resemble.ai — 注册 Flex 计划
# https://app.resemble.ai → Sign Up
 
# 5. Vapi.ai — 注册开发者账号
# https://dashboard.vapi.ai → Sign Up

步骤 3：运行基准测试


# 简单的延迟基准测试脚本
import time
import asyncio
 
async def benchmark_tts(provider: str, text: str):
    """测量 TTS 首字节延迟"""
    start = time.perf_counter()
 
    if provider == "elevenlabs":
        from elevenlabs import ElevenLabs
        client = ElevenLabs(api_key="your-key")
        stream = client.text_to_speech.convert_as_stream(
            voice_id="your-voice-id",
            text=text,
            model_id="eleven_flash_v2_5"
        )
        first_chunk = next(iter(stream))
 
    elif provider == "deepgram":
        from deepgram import DeepgramClient
        client = DeepgramClient(api_key="your-key")
        response = await client.speak.v("1").stream(
            {"text": text},
            options={"model": "aura-2-en"}
        )
        first_chunk = await response.read(1024)
 
    ttfb = (time.perf_counter() - start) * 1000
    print(f"{provider} TTFB: {ttfb:.0f}ms")
    return ttfb
 
# 测试文本
test_text = "Hello, I am your AI assistant. How can I help you today?"
 
# 运行基准测试
# asyncio.run(benchmark_tts("elevenlabs", test_text))
# asyncio.run(benchmark_tts("deepgram", test_text))

步骤 4：选择方案并集成

根据基准测试结果和需求评估，选择最适合的方案。参考上文”技术栈组合推荐”进行集成。

提示词模板


你是一个语音 AI 平台选型顾问。请根据以下需求帮我推荐最合适的语音 AI 技术栈：

项目类型：[客服机器人 / 电话销售 / 内容创作 / 会议转录 / ...]
核心需求：[TTS / STT / 完整语音 Agent]
目标语言：[中文 / 英文 / 多语言]
延迟要求：[<300ms / <500ms / <1s / 无严格要求]
月度预算：[$X]
预计用量：[X 小时/月 或 X 次通话/月]
合规要求：[HIPAA / GDPR / SOC 2 / 无]
部署方式：[云端 / 自托管 / 混合]

请推荐：
1. 首选方案（含具体平台和模型选择）
2. 备选方案
3. 预估月度成本
4. 关键风险和注意事项

实战案例

案例 1：中文智能客服语音 Agent

需求：为电商平台搭建 7×24 小时中文语音客服，处理订单查询、退换货等常见问题。

技术选型：

STT：Deepgram Nova-3（中文支持好，延迟低）
LLM：GPT-4o-mini（成本低，响应快）
TTS：ElevenLabs Flash v2（中文语音质量高）
编排：Vapi.ai（快速搭建，电话集成方便）
电话：Twilio

架构：


客户来电 → Twilio → Vapi.ai 编排层
                      ├── Deepgram Nova-3 (STT)
                      ├── GPT-4o-mini (LLM + 业务逻辑)
                      ├── ElevenLabs Flash (TTS)
                      └── Webhook → 后端系统（订单查询等）

成本估算（月均 1000 通电话，平均 3 分钟/通）：

Vapi 编排：3000 分钟 × $0.05 = $150
Deepgram STT：3000 分钟 × $0.0077 = $23
ElevenLabs TTS：约 $50-100（取决于字符数）
LLM 费用：约 $20-30
Twilio 电话：约 $30-50
月度总成本：约 $273-353

案例 2：多语言会议转录 + 智能分析

需求：为跨国团队提供实时会议转录，自动生成摘要、行动项和情感分析报告。

技术选型：

STT：AssemblyAI Universal-2（99 语言覆盖）
音频智能：AssemblyAI（情感分析 + 摘要 + 话题检测）
LLM 分析：AssemblyAI LeMUR（直接对转录结果操作）

关键代码：


import assemblyai as aai
 
aai.settings.api_key = "your-api-key"
 
# 配置全功能转录
config = aai.TranscriptionConfig(
    language_detection=True,      # 自动语言检测
    speaker_labels=True,          # 说话人分离
    sentiment_analysis=True,      # 情感分析
    auto_chapters=True,           # 自动章节
    entity_detection=True,        # 实体检测
    summarization=True,
    summary_type=aai.SummarizationType.bullets
)
 
transcriber = aai.Transcriber(config=config)
transcript = transcriber.transcribe("meeting-recording.mp3")
 
# 使用 LeMUR 提取行动项
action_items = transcript.lemur.task(
    prompt="""请从会议记录中提取：
    1. 所有行动项（包括负责人和截止日期）
    2. 关键决策
    3. 未解决的问题
    请用中文输出，格式化为 Markdown 表格。"""
)
print(action_items.response)

成本估算（月均 40 小时会议录音）：

基础转录：40 小时 × $0.15 = $6
说话人分离：40 小时 × $0.02 = $0.80
情感分析：包含在 Audio Intelligence 中
LeMUR 分析：约 $5-10
月度总成本：约 $12-17

案例分析

两个案例展示了语音 AI 平台选型的核心逻辑：

案例 1 选择了多平台组合方案，通过 Vapi.ai 编排层将最优的 STT（Deepgram）和 TTS（ElevenLabs）组合在一起，牺牲了一定的成本换取最佳体验
案例 2 选择了单平台方案（AssemblyAI），利用其丰富的音频智能功能和 LeMUR 集成，简化了架构复杂度

避坑指南

❌ 常见错误

只看单组件延迟，忽略端到端延迟
- 问题：ElevenLabs TTS 75ms + Deepgram STT 150ms 看起来很快，但加上 LLM 推理和网络传输，实际端到端延迟可能超过 1 秒
- 正确做法：始终测量端到端延迟，目标控制在 500ms 以内；使用流式处理减少感知延迟
被起步价误导，忽略叠加成本
- 问题：Vapi.ai 标价 $0.05/分钟，但实际使用中 STT + LLM + TTS + 电话费叠加后达到 $0.13-0.31/分钟
- 正确做法：计算完整的分钟成本，包括所有组件费用；使用各平台的成本计算器
在 Demo 环境测试通过就上生产
- 问题：50 并发通话时表现完美，5000 并发时延迟飙升、质量下降
- 正确做法：进行压力测试，确认平台在目标并发量下的表现；了解各计划的并发限制
忽略 Play.ht 已停服的事实
- 问题：仍在使用 Play.ht API 或计划基于 Play.ht 开发新项目
- 正确做法：立即迁移到 ElevenLabs、Deepgram 或 Resemble.ai
选择语言支持最多的平台而非最适合的
- 问题：AssemblyAI Universal-2 支持 99 语言，但其最新的 Universal-3 Pro 仅支持 6 语言且准确率更高
- 正确做法：根据实际需要的语言选择，优先考虑目标语言的质量而非总语言数
忽略安全合规要求
- 问题：处理医疗或金融语音数据时使用不支持 HIPAA/SOC 2 的平台
- 正确做法：在选型阶段就确认合规认证；考虑 Deepgram、AssemblyAI 或 Resemble.ai 的企业版
过度依赖单一平台
- 问题：将所有语音能力绑定在一个平台上，该平台出现故障或政策变更时无法快速切换（如 Play.ht 被收购关停）
- 正确做法：设计抽象层，使 STT/TTS 提供商可替换；保持至少一个备选方案

✅ 最佳实践

使用流式处理降低感知延迟：STT 使用 interim results，TTS 使用流式输出，LLM 使用 streaming，三者并行处理可将感知延迟降低 40-60%
实施分级语音质量策略：实时对话使用低延迟模型（ElevenLabs Flash / Deepgram Aura-2），离线内容使用高质量模型（ElevenLabs v3）
建立成本监控和预警：设置每日/每月用量上限，监控每次通话的成本，避免意外超支
设计优雅的降级方案：当主 TTS 提供商延迟过高时，自动切换到备选提供商；当 STT 识别置信度低时，请求用户重复
定期进行 A/B 测试：语音 AI 领域发展极快，每季度评估新模型和新平台，持续优化技术栈
关注中文场景的特殊需求：中文语音识别需要考虑方言、口音、中英混合等场景；TTS 需要关注声调准确性和自然度

参考来源

ElevenLabs API Pricing （2025 年持续更新）
Deepgram Pricing & Plans （2025 年持续更新）
Deepgram Voice Agent API GA （2025 年 6 月）
Deepgram Aura-2 TTFB 优化（2025 年 1 月）
AssemblyAI Pricing （2025 年持续更新）
Resemble.ai Pricing （2025 年持续更新）
Vapi.ai Pricing 2026 Cost Breakdown （2025 年 12 月）
Vapi.ai Review — Features, Pricing & More （2025 年 6 月）
Meta Acquires PlayAI （2025 年 7 月）
Play.ht Shutdown & Alternatives （2026 年 1 月）
Voice AI Infrastructure Guide （2025 年 12 月）
Best AI Voice Models 2026 （2026 年 1 月）
Deepgram vs ElevenLabs Comparison （2025 年 12 月）
Enterprise Voice AI Platform Comparison 2026 （2026 年 1 月）
ElevenLabs Review 2026 （2026 年 1 月）

📖 返回总览与导航 | 上一节：13e-品牌一致性指南 | 下一节：14b-语音克隆与TTS-STT

14a - 语音 AI 平台对比

概述

1. 语音 AI 技术栈概览

1.1 核心组件

1.2 延迟的关键性

1.3 平台定位分类

2. 六大平台详细对比

2.1 总览对比表

2.2 ElevenLabs — TTS 行业标杆

平台概述

核心模型

价格体系

API 能力

优势与局限

2.3 Deepgram — 企业级语音基础设施

平台概述

核心模型

价格体系

API 能力

优势与局限

2.4 Vapi.ai — 开发者优先的语音 Agent 编排平台

平台概述

架构特点

价格体系

API 能力

优势与局限

2.5 AssemblyAI — 音频智能专家

平台概述

核心模型

附加功能定价

API 能力

优势与局限

2.6 Resemble.ai — 企业级语音克隆与安全

平台概述

核心能力

价格体系

API 能力

优势与局限

2.7 Play.ht（PlayAI）— ⚠️ 已停服

重要通知

历史回顾

迁移建议

3. 维度深度对比

3.1 延迟对比

TTS 首字节延迟（TTFB）

STT 处理延迟

端到端语音 Agent 延迟

3.2 语音质量对比

3.3 语言支持对比

3.4 API 能力对比

3.5 价格综合对比

TTS 成本对比（生成 1 小时音频）

STT 成本对比（转录 1 小时音频）

语音 Agent 成本对比（运行 1 小时通话）

4. 场景选型指南

4.1 决策流程图

4.2 按场景推荐

4.3 技术栈组合推荐

方案 A：高质量对话 Agent（推荐）

方案 B：低成本高并发 Agent

方案 C：企业安全合规方案

5. 快速上手工作流

工具推荐

操作步骤

步骤 1：评估需求

步骤 2：注册免费账号并测试

步骤 3：运行基准测试

步骤 4：选择方案并集成

提示词模板

实战案例

案例 1：中文智能客服语音 Agent

案例 2：多语言会议转录 + 智能分析

案例分析

避坑指南

❌ 常见错误

✅ 最佳实践

相关资源与延伸阅读

参考来源