07e - Claude-GPT-Gemini 对比

本文是《AI Agent 实战手册》第 7 章第 5 节。上一节：07d-API集成指南 | 下一节：08a-MCP概念入门

概述

2025 年，三大 AI 模型家族——Anthropic Claude、OpenAI GPT/o 系列、Google Gemini——在编码、推理、多模态和长上下文等维度展开了激烈竞争。Claude Opus 4 在编码基准（SWE-bench 72.5%）上领先，Gemini 2.5 Pro 凭借百万级上下文窗口和极具竞争力的价格成为性价比之王，OpenAI o3 则在推理和工具集成方面表现均衡。本节将从基准数据、价格、能力维度进行正面对比，帮助你根据实际场景选择最合适的模型。

1. 模型家族概览

三大厂商当前模型矩阵（2025 年中）

厂商	旗舰模型	中端模型	轻量模型	推理专用
Anthropic	Claude Opus 4	Claude Sonnet 4	Claude Haiku 3.5	Sonnet 4（扩展思考）
OpenAI	GPT-4o	GPT-4o mini	—	o3 / o4-mini
Google	Gemini 2.5 Pro	Gemini 2.5 Flash	Gemini 2.5 Flash-Lite	2.5 Pro（Deep Think）

工具推荐

工具	用途	价格	适用场景
Chatbot Arena (LMSYS)	模型盲测对比排名	免费	获取真实用户偏好排名
Vellum LLM Leaderboard	多维度基准排行榜	免费	查看 SWE-bench、MMLU 等基准分数
Artificial Analysis	模型性能与价格对比	免费	延迟、吞吐量、性价比分析
OpenRouter	统一 API 网关	按用量（加价约 0-5%）	一个 API Key 调用所有模型
LiteLLM	开源模型代理	免费（自托管）	统一接口、负载均衡、成本追踪

2. 基准性能对比

2.1 编码能力

编码是 AI 模型最核心的应用场景之一。以下是主要编码基准的对比：

基准	Claude Opus 4	OpenAI o3	Gemini 2.5 Pro	说明
SWE-bench Verified	72.5%	69.1%	63.2%	解决真实 GitHub Issue 的能力
Terminal-bench	43.2%	—	—	终端操作与系统管理
HumanEval	92.0%	92.4%	99.0%	函数级代码生成
LiveCodeBench v5	70.3%	71.7%	75.6%	实时编程竞赛题
Aider Polyglot（全文件）	72.1%	71.6%	76.5%	多语言代码编辑

关键发现：

Claude Opus 4 在真实软件工程任务（SWE-bench）上领先，适合大型代码库的调试和重构
Gemini 2.5 Pro 在函数级代码生成和多语言编辑上表现出色
o3 在各项编码基准上表现均衡，没有明显短板

2.2 推理与数学

基准	Claude Opus 4	OpenAI o3	Gemini 2.5 Pro	说明
MMLU Pro	82.9%	85.6%	79.9%	多学科知识推理
GPQA Diamond	74.8%	83.3%	71.4%	研究生级科学问答
AIME 2025	83.6%	88.9%	83.0%	数学竞赛
MATH-500	96.4%	98.0%	95.2%	高中到大学数学

关键发现：

o3 是推理和数学的王者，在所有推理基准上均领先
Claude Opus 4 紧随其后，推理能力同样强劲
Gemini 2.5 Pro 推理能力稍弱，但差距不大

2.3 多模态能力

能力维度	Claude Opus 4	OpenAI o3/GPT-4o	Gemini 2.5 Pro
图像理解	✅ 强	✅ 强	✅ 强
视频理解	❌ 不支持	❌ 不支持	✅ 原生支持
音频理解	❌ 不支持	✅ 支持（GPT-4o）	✅ 原生支持
PDF 解析	✅ 支持	✅ 支持	✅ 原生支持
图像生成	❌ 不支持	✅ 支持（GPT-4o）	✅ 支持
MMMU（多模态理解）	72.0%	69.1%	79.6%

关键发现：

Gemini 2.5 Pro 在多模态方面遥遥领先，是唯一原生支持视频和音频输入的模型
GPT-4o 支持音频和图像生成，多模态能力排第二
Claude 在多模态方面相对较弱，仅支持图像和 PDF 输入

2.4 上下文窗口

维度	Claude Opus 4	OpenAI o3	Gemini 2.5 Pro
最大输入	200K tokens	200K tokens	1M tokens
最大输出	32K tokens	100K tokens	64K tokens
长文本保真度	高	中	极高
”大海捞针”测试	优秀	良好	优秀

关键发现：

Gemini 2.5 Pro 的 1M token 上下文窗口是绝对优势，适合处理超大代码库和长文档
Claude 和 o3 的 200K 上下文对大多数场景已足够
Gemini 在长上下文场景下的信息检索准确度最高

3. API 价格对比

3.1 旗舰模型价格（每百万 token）

模型	输入价格	输出价格	上下文窗口	性价比评级
Claude Opus 4	$15.00	$75.00	200K	⭐⭐
Claude Sonnet 4	$3.00	$15.00	200K	⭐⭐⭐⭐
OpenAI o3	$2.00	$8.00	200K	⭐⭐⭐⭐
OpenAI GPT-4o	$2.50	$10.00	128K	⭐⭐⭐
Gemini 2.5 Pro	$1.25	$10.00	1M	⭐⭐⭐⭐⭐

3.2 轻量/经济模型价格（每百万 token）

模型	输入价格	输出价格	上下文窗口	适用场景
Claude Haiku 3.5	$0.80	$4.00	200K	分类、摘要、简单问答
OpenAI GPT-4o mini	$0.15	$0.60	128K	高吞吐量轻量任务
OpenAI o4-mini	$1.10	$4.40	200K	轻量推理任务
Gemini 2.5 Flash	$0.15	$0.60	1M	高速处理、批量任务
Gemini 2.5 Flash-Lite	$0.10	$0.40	—	极致低成本场景

3.3 成本优化选项

优化方式	Claude	OpenAI	Gemini
Prompt 缓存	✅ 最高 90% 折扣	✅ 50% 折扣	✅ 支持
批处理 API	✅ 50% 折扣	✅ 50% 折扣	✅ 50% 折扣
免费额度	无	有限	✅ 每日 1000 次请求

操作步骤

如何估算月度 API 成本


月度成本 = (日均请求数 × 平均输入 token × 输入单价) + (日均请求数 × 平均输出 token × 输出单价) × 30

示例：每天 1000 次请求，平均输入 2000 token，输出 500 token

Claude Sonnet 4: (1000 × 2000 × $3/1M + 1000 × 500 × $15/1M) × 30 = ($6 + $7.5) × 30 = $405/月
Gemini 2.5 Pro:  (1000 × 2000 × $1.25/1M + 1000 × 500 × $10/1M) × 30 = ($2.5 + $5) × 30 = $225/月
OpenAI o3:       (1000 × 2000 × $2/1M + 1000 × 500 × $8/1M) × 30 = ($4 + $4) × 30 = $240/月

4. Agentic 能力对比

2025 年，AI Agent 能力成为模型竞争的新战场：

能力	Claude Opus 4	OpenAI o3	Gemini 2.5 Pro
工具调用	✅ 优秀	✅ 优秀	✅ 良好
多步骤规划	✅ 最强	✅ 强	✅ 良好
自我纠错	✅ 最强	✅ 强	✅ 良好
长时间自主运行	✅ 支持（7+ 小时）	✅ 支持	✅ 支持
Computer Use	✅ 原生支持	❌ 不支持	❌ 不支持
代码执行沙箱	✅ Claude Code	✅ Code Interpreter	✅ AI Studio
MCP 支持	✅ 原生	✅ 支持	✅ 支持

提示词模板

模型选择决策 Prompt


你是一位 AI 架构师。请根据以下项目需求，推荐最合适的 AI 模型：

项目类型：[Web 应用 / 数据分析 / 内容生成 / 代码开发]
核心需求：[编码 / 推理 / 多模态 / 长文档处理]
预算范围：[低 (<$100/月) / 中 ($100-500/月) / 高 (>$500/月)]
上下文需求：[小 (<50K token) / 中 (50-200K) / 大 (>200K)]
延迟要求：[实时 (<2s) / 准实时 (<10s) / 批处理 (不限)]

请从 Claude (Opus 4/Sonnet 4/Haiku 3.5)、OpenAI (o3/GPT-4o/GPT-4o mini)、
Gemini (2.5 Pro/2.5 Flash) 中推荐，并说明理由。

5. 场景选择指南

5.1 按任务类型选择

任务类型	首选模型	备选模型	理由
大型代码库重构	Claude Opus 4	o3	SWE-bench 最高分，长时间自主编码
日常编码辅助	Claude Sonnet 4	Gemini 2.5 Pro	性能与价格平衡
数学/科学推理	o3	Claude Opus 4	AIME、GPQA 基准领先
视频/音频分析	Gemini 2.5 Pro	GPT-4o	唯一原生支持视频音频
超长文档处理	Gemini 2.5 Pro	Claude Opus 4	1M token 上下文窗口
高吞吐量分类	GPT-4o mini	Gemini 2.5 Flash	极低成本，高速度
Computer Use 自动化	Claude Opus 4	—	唯一原生支持
多模态内容生成	GPT-4o	Gemini 2.5 Pro	图像生成 + 文本

5.2 按预算选择

月预算	推荐方案	配置说明
< $50	Gemini 2.5 Flash + 免费额度	利用 Google 免费层，Flash 处理溢出
$50-200	Gemini 2.5 Pro（主力）+ Claude Sonnet 4（编码）	Pro 处理日常任务，Sonnet 处理复杂编码
$200-500	Claude Sonnet 4（主力）+ Gemini 2.5 Pro（长上下文）	编码用 Claude，长文档用 Gemini
> $500	Claude Opus 4（复杂任务）+ Sonnet 4（日常）+ Flash（批量）	分层路由，按任务复杂度分配模型

5.3 决策流程图


开始选择模型
    │
    ├─ 需要处理视频/音频？
    │   └─ 是 → Gemini 2.5 Pro
    │
    ├─ 上下文 > 200K token？
    │   └─ 是 → Gemini 2.5 Pro
    │
    ├─ 核心任务是复杂编码/Agent？
    │   ├─ 预算充足 → Claude Opus 4
    │   └─ 预算有限 → Claude Sonnet 4
    │
    ├─ 核心任务是数学/科学推理？
    │   └─ 是 → OpenAI o3
    │
    ├─ 需要极低成本高吞吐？
    │   ├─ 需要推理 → o4-mini
    │   └─ 不需要推理 → GPT-4o mini / Gemini 2.5 Flash
    │
    └─ 通用任务，追求性价比
        └─ Gemini 2.5 Pro

6. 国产大模型加入对比

2025-2026 年，中国国产大模型在编码和推理能力上实现了惊人的追赶。DeepSeek 和 Qwen 已跻身全球第一梯队，且价格优势极为明显。

6.1 扩展对比：加入 DeepSeek V4 和 Qwen 3.5

基准	Claude Opus 4	OpenAI o3	Gemini 2.5 Pro	DeepSeek V4	Qwen 3.5
SWE-bench Verified	72.5%	69.1%	63.2%	70.8%	68.5%
HumanEval	92.0%	92.4%	99.0%	95.2%	93.8%
MMLU Pro	82.9%	85.6%	79.9%	83.1%	81.7%
AIME 2025	83.6%	88.9%	83.0%	85.2%	82.4%
上下文窗口	200K	200K	1M	128K	128K

6.2 价格对比（每百万 token）

模型	输入价格	输出价格	性价比评级	备注
Claude Opus 4	$15.00	$75.00	⭐⭐	最强编码，但最贵
OpenAI o3	$2.00	$8.00	⭐⭐⭐⭐	推理最强
Gemini 2.5 Pro	$1.25	$10.00	⭐⭐⭐⭐⭐	长上下文 + 多模态
DeepSeek V4	$0.07	$0.28	⭐⭐⭐⭐⭐+	价格仅为 Claude 的 1/200，开源
Qwen 3.5	$0.15	$0.60	⭐⭐⭐⭐⭐	价格极低，开源，中文优秀

💡 关键发现：DeepSeek V4 的 API 价格约为 Claude Opus 4 的 1/200、Gemini 2.5 Pro 的 1/18，但编码能力（SWE-bench 70.8%）已接近 Claude Opus 4（72.5%）。对于预算敏感的项目，国产模型是极具竞争力的选择。

6.3 国产模型的独特优势

优势维度	DeepSeek	Qwen 3.5
开源许可	MIT（完全自由商用）	Apache 2.0（完全自由商用）
本地部署	✅ 支持（需要高端 GPU）	✅ 支持（多种尺寸可选）
中文能力	优秀	极优秀（阿里中文数据优势）
API 稳定性	良好（偶有高峰限流）	优秀（阿里云基础设施）
生态集成	Ollama、vLLM、LiteLLM	阿里云百炼、Ollama、vLLM

6.4 更新后的场景选择指南

任务类型	首选模型	低成本替代	理由
大型代码库重构	Claude Opus 4	DeepSeek V4	DeepSeek 编码能力接近，价格低 200 倍
日常编码辅助	Claude Sonnet 4	Qwen 3.5 / DeepSeek V4	国产模型性价比极高
数学/科学推理	o3	DeepSeek R1	R1 推理能力接近 o3，开源免费
中文内容生成	Gemini 2.5 Pro	Qwen 3.5	Qwen 中文能力最强
超长文档处理	Gemini 2.5 Pro	—	1M 上下文无替代
预算极低（<$10/月）	—	DeepSeek V4 API	极低价格覆盖大量请求

6.5 更新后的决策流程图


开始选择模型
    │
    ├─ 预算极度敏感（<$10/月）？
    │   └─ 是 → DeepSeek V4 API 或 Google AI Studio 免费层
    │
    ├─ 需要处理视频/音频？
    │   └─ 是 → Gemini 2.5 Pro
    │
    ├─ 上下文 > 200K token？
    │   └─ 是 → Gemini 2.5 Pro
    │
    ├─ 核心任务是复杂编码/Agent？
    │   ├─ 预算充足 → Claude Opus 4
    │   ├─ 预算有限 → Claude Sonnet 4
    │   └─ 极低预算 → DeepSeek V4
    │
    ├─ 核心任务是中文内容？
    │   └─ 是 → Qwen 3.5
    │
    ├─ 核心任务是数学/科学推理？
    │   ├─ 预算充足 → OpenAI o3
    │   └─ 预算有限 → DeepSeek R1（开源免费）
    │
    └─ 通用任务，追求性价比
        ├─ 全球服务 → Gemini 2.5 Pro
        └─ 国内服务 → Qwen 3.5 或 DeepSeek V4

7. 实战案例：多模型路由架构

案例背景

一个 SaaS 产品需要同时处理代码审查、客户问答和文档分析，月预算 $300。

架构设计


用户请求
    │
    ▼
┌─────────────┐
│  路由层      │  ← 根据任务类型和复杂度分发
│  (LiteLLM)  │
└──────┬──────┘
       │
  ┌────┼────────────┐
  │    │            │
  ▼    ▼            ▼
Claude  Gemini     GPT-4o
Sonnet4 2.5 Pro    mini
  │      │          │
代码审查  文档分析   客户问答
(~40%)   (~30%)    (~30%)

成本估算


Claude Sonnet 4（代码审查）：400 次/天 × 3000 token × $3/1M + 400 × 1000 × $15/1M
  = $3.6 + $6 = $9.6/天 → $288/月

Gemini 2.5 Pro（文档分析）：300 次/天 × 5000 token × $1.25/1M + 300 × 2000 × $10/1M
  = $1.875 + $6 = $7.875/天 → $236/月（使用批处理 50% 折扣 → $118/月）

GPT-4o mini（客户问答）：300 次/天 × 1000 token × $0.15/1M + 300 × 500 × $0.60/1M
  = $0.045 + $0.09 = $0.135/天 → $4/月

总计：约 $288 + $118 + $4 = $410/月
优化后（Claude 使用 Prompt 缓存）：约 $300/月 ✅

案例分析

关键决策：不同任务使用不同模型，而非一个模型处理所有任务
成本节省：相比全部使用 Claude Opus 4，节省约 80%
质量保证：每个任务都使用该领域最强的模型

避坑指南

❌ 常见错误

只看基准分数选模型
- 问题：基准分数不等于实际使用体验，不同基准侧重不同
- 正确做法：用你的实际任务做 A/B 测试，基准仅作参考
忽略价格差异直接用旗舰模型
- 问题：Claude Opus 4 的输出价格是 Gemini 2.5 Pro 的 7.5 倍
- 正确做法：先用轻量模型验证，只在必要时升级到旗舰
不考虑上下文窗口限制
- 问题：把超长文档塞进 128K 窗口的模型，导致信息丢失
- 正确做法：超过 200K token 的任务直接选 Gemini 2.5 Pro
忽视多模态需求
- 问题：需要处理视频却选了不支持视频的模型
- 正确做法：有视频/音频需求时，Gemini 是目前唯一选择
没有使用成本优化手段
- 问题：每次请求都发送完整 prompt，成本居高不下
- 正确做法：善用 Prompt 缓存（最高省 90%）和批处理 API（省 50%）

✅ 最佳实践

建立模型路由层（LiteLLM / OpenRouter），根据任务类型自动分发到最合适的模型
定期（每季度）重新评估模型选择，因为模型更新和价格变动频繁
对关键任务设置 fallback 机制：主模型不可用时自动切换到备选模型
使用 Prompt 缓存减少重复系统提示的成本
监控每个模型的实际使用量和质量指标，用数据驱动优化决策

参考来源

Claude Opus 4 Launch Post — Anthropic （2025 年 5 月）
OpenAI o3 Release — OpenAI （2025 年 4 月）
Gemini 2.5 Pro Announcement — Google DeepMind （2025 年 3 月）
Claude Opus 4 vs Gemini 2.5 Pro vs OpenAI o3 — Leanware （2025 年 5 月）
OpenAI o3-pro vs Claude 4 Opus vs Gemini 2.5 Pro — Composio （2025 年 6 月）
AI API Pricing Comparison 2026 — Intuition Labs （2025 年 12 月）
SWE-bench Verified Leaderboard — vals.ai （2025 年，持续更新）
MMLU Pro Leaderboard — vals.ai （2025 年 5 月）
Gemini vs Claude vs GPT — MagicDoor （2025 年 7 月）
Gemini API Pricing — Google AI （2025 年，持续更新）

📖 返回总览与导航 | 上一节：07d-API集成指南 | 下一节：08a-MCP概念入门

07e - Claude-GPT-Gemini 对比

概述

1. 模型家族概览

三大厂商当前模型矩阵（2025 年中）

工具推荐

2. 基准性能对比

2.1 编码能力

2.2 推理与数学

2.3 多模态能力

2.4 上下文窗口

3. API 价格对比

3.1 旗舰模型价格（每百万 token）

3.2 轻量/经济模型价格（每百万 token）

3.3 成本优化选项

操作步骤

如何估算月度 API 成本

4. Agentic 能力对比

提示词模板

模型选择决策 Prompt

5. 场景选择指南

5.1 按任务类型选择

5.2 按预算选择

5.3 决策流程图

6. 国产大模型加入对比

6.1 扩展对比：加入 DeepSeek V4 和 Qwen 3.5

6.2 价格对比（每百万 token）

6.3 国产模型的独特优势

6.4 更新后的场景选择指南

6.5 更新后的决策流程图

7. 实战案例：多模型路由架构

案例背景

架构设计

成本估算

案例分析

避坑指南

❌ 常见错误

✅ 最佳实践

相关资源与延伸阅读

参考来源