07a - Gemini 模型家族能力概览(2.5 → 3.1)
本文是《AI Agent 实战手册》第 7 章第 1 节。 上一节:Skill 设计模式与排错 | 下一节:百万 Token 上下文实战
概述
从 2025 年初的 Gemini 2.5 Pro 到 2025 年 11 月的 Gemini 3 Pro,再到 2026 年 2 月的 Gemini 3.1 Pro,Google DeepMind 在不到一年的时间内完成了三代旗舰模型的迭代。每一代都在推理深度、多模态理解、Agentic 能力和性价比上实现了显著跃升。本节将系统梳理 Gemini 模型家族从 2.5 到 3.1 的完整演进脉络、各代变体对比、竞品定位和关键差异化优势,帮助你在实际项目中做出最优模型选择。
1. Gemini 模型演进时间线
关键里程碑
| 时间 | 事件 | 意义 |
|---|---|---|
| 2025 年 3 月 | Gemini 2.5 Pro 发布 | 首个”思考模型”,引入可调思考预算,1M 上下文窗口 |
| 2025 年 6 月 | Gemini 2.5 Pro / Flash GA | 正式商用,价格体系确立 |
| 2025 年 8 月 | Gemini 2.5 Flash-Lite 发布 | 极致性价比变体,$0.10/1M 输入 |
| 2025 年 11 月 18 日 | Gemini 3 Pro 发布 | 全新架构,推理能力大幅跃升,Google Antigravity IDE 同步发布 |
| 2025 年 12 月 | Gemini 3 Flash 发布 | 高性价比变体,$0.50/1M 输入,编码能力接近 Pro |
| 2026 年 2 月 19 日 | Gemini 3.1 Pro 发布 | ARC-AGI-2 得分翻倍(77.1%),Agentic 编码能力登顶 |
架构演进
Gemini 2.5(2025 上半年) Gemini 3(2025 Q4) Gemini 3.1(2026 Q1)
┌─────────────────────┐ ┌─────────────────────┐ ┌─────────────────────┐
│ 首代思考模型 │ │ 全新 MoE 架构 │ │ Deep Think 内置 │
│ 可调思考预算 │ ──→ │ 原生 Agentic 能力 │ ──→ │ 三级思考控制 │
│ 1M 上下文窗口 │ │ Computer Use │ │ ARC-AGI-2: 77.1% │
│ SWE-Bench: 63.8% │ │ SWE-Bench: 76.2% │ │ SWE-Bench: 80.6% │
└─────────────────────┘ └─────────────────────┘ └─────────────────────┘工具推荐
| 工具 | 用途 | 价格 | 适用场景 |
|---|---|---|---|
| Google AI Studio | 在线测试和原型开发 | 免费 | 快速实验、Prompt 调试、免费层 API 调用 |
| Vertex AI | 企业级 AI 平台 | 按用量计费 | 生产部署、合规需求、企业安全 |
| Gemini API(Developer) | 开发者 API | 免费层 + 付费层 | 应用集成、自动化工作流 |
| Google Antigravity | Agent-first IDE | 免费预览 | Agentic 编码、多 Agent 协作开发 |
| Gemini CLI | 终端 AI 助手 | 免费(开源) | 命令行工作流、脚本集成、自动化 |
| Cursor | AI 编码 IDE | $20/月(Pro) | 使用 Gemini 作为编码后端 |
| GitHub Copilot | AI 编码助手 | $10/月起 | Gemini 3.1 Pro 已集成为可选模型 |
操作步骤
步骤 1:获取 API Key
前往 Google AI Studio 注册并创建 API Key。免费层即可使用 Gemini 模型,无需绑定信用卡。
# 设置环境变量
export GEMINI_API_KEY="your-api-key-here"步骤 2:选择合适的模型
决策树:
├── 需要最高推理质量 + 最新能力? → gemini-3.1-pro-preview
├── 需要强推理 + 稳定 GA? → gemini-3-pro
├── 需要速度与质量平衡? → gemini-3-flash
├── 需要极低成本/高吞吐? → gemini-2.5-flash-lite
├── 仍在使用旧版? → gemini-2.5-pro(仍可用,但建议迁移)
└── 需要 Agentic 自定义工具? → gemini-3.1-pro-preview-customtools步骤 3:快速调用示例(Python)
from google import genai
client = genai.Client(api_key="your-api-key")
# 使用最新的 Gemini 3.1 Pro
response = client.models.generate_content(
model="gemini-3.1-pro-preview",
contents="分析 Rust 异步运行时 Tokio 的调度器实现原理",
config={
"thinking_config": {"thinking_budget": 16384}
}
)
print(response.text)提示词模板
你是一位资深 [领域] 专家。请对以下 [任务类型] 进行深度分析:
[具体内容或代码]
要求:
1. 先列出关键发现
2. 给出详细分析
3. 提供可操作的改进建议
4. 如有代码,给出优化后的版本
请用中文回答,使用 Markdown 格式。2. 三代模型变体全览
Gemini 2.5 系列(2025 上半年)
Gemini 2.5 是 Google 首个”思考模型”家族,引入了可控思考预算的概念。
| 模型 | 模型 ID | 定位 | 上下文窗口 | 思考模式 | 状态 |
|---|---|---|---|---|---|
| 2.5 Pro | gemini-2.5-pro | 旗舰推理模型 | 1M tokens | 默认开启,可调预算 | GA |
| 2.5 Flash | gemini-2.5-flash | 高性价比推理 | 1M tokens | 默认开启,可调预算 | GA |
| 2.5 Flash-Lite | gemini-2.5-flash-lite | 极致性价比 | 1M tokens | 默认关闭,可开启 | GA |
Gemini 3 系列(2025 年 11 月)
Gemini 3 采用全新的稀疏混合专家(Sparse MoE)架构从头构建,在推理、多模态和 Agentic 能力上实现了代际跃升。
| 模型 | 模型 ID | 定位 | 上下文窗口 | 关键特性 | 状态 |
|---|---|---|---|---|---|
| 3 Pro | gemini-3-pro | 旗舰全能模型 | 1M tokens | Deep Think 模式、Computer Use、Agentic 编码 | GA |
| 3 Flash | gemini-3-flash | 高性价比全能 | 1M tokens | 90%+ Pro 能力、3x 速度、编码能力接近 Pro | GA |
| 3 Deep Think | — | 极限推理模式 | 1M tokens | Pro 的增强推理模式,Ultra 用户可用 | Preview |
Gemini 3.1 系列(2026 年 2 月)
Gemini 3.1 Pro 将 Deep Think 协议直接内置到核心模型中,引入三级思考控制(Low / Medium / High),推理能力实现 2.5 倍跃升。
| 模型 | 模型 ID | 定位 | 上下文窗口 | 关键特性 | 状态 |
|---|---|---|---|---|---|
| 3.1 Pro | gemini-3.1-pro-preview | 最强推理模型 | 1M tokens | 三级思考、ARC-AGI-2: 77.1%、Agentic 编码登顶 | Preview |
| 3.1 Pro Custom Tools | gemini-3.1-pro-preview-customtools | Agentic 专用 | 1M tokens | 精确 Function Call、更少工具调用完成任务 | Preview |
3. API 价格体系
Gemini 系列采用按 token 计费模式,提供免费层、标准付费层和批处理折扣。以下为截至 2026 年 2 月的官方定价(信息来源:Google AI 官方定价页 ,最后验证:2026-02-19)。
全系列价格对比
| 模型 | 输入(≤200K) | 输入(>200K) | 输出(含思考) | 批处理折扣 |
|---|---|---|---|---|
| Gemini 3.1 Pro | $2.00 / 1M | $4.00 / 1M | $12.00 / 1M | 50%($1.00 / $6.00) |
| Gemini 3 Pro | $2.00 / 1M | $4.00 / 1M | $12.00 / 1M | 50% |
| Gemini 3 Flash | $0.50 / 1M | — | $3.00 / 1M | 50%($0.25 / $1.50) |
| Gemini 2.5 Pro | $1.25 / 1M | $2.50 / 1M | $10.00 / 1M | 50% |
| Gemini 2.5 Flash | $0.30 / 1M | — | $2.50 / 1M | 50% |
| Gemini 2.5 Flash-Lite | $0.10 / 1M | — | $0.40 / 1M | 50% |
上下文缓存价格
上下文缓存(Context Caching)可为重复使用的长上下文节省高达 75% 的成本:
| 模型 | 缓存输入价格 | 缓存存储 |
|---|---|---|
| Gemini 3.1 Pro / 3 Pro | $0.20 / 1M tokens | $4.50 / 1M tokens / 小时 |
| Gemini 3 Flash | $0.05 / 1M tokens | $1.00 / 1M tokens / 小时 |
| Gemini 2.5 Pro | $0.125 / 1M tokens | $4.50 / 1M tokens / 小时 |
跨厂商成本对比(2026 年 2 月)
| 模型 | 输入(/1M tokens) | 输出(/1M tokens) | 上下文窗口 |
|---|---|---|---|
| Gemini 3.1 Pro | $2.00 | $12.00 | 1M |
| Gemini 3 Flash | $0.50 | $3.00 | 1M |
| Claude Opus 4.6 | $5.00 | $25.00 | 1M(beta) |
| Claude Sonnet 4.5 | $3.00 | $15.00 | 1M(beta) |
| GPT-5.2 | $1.75 | $14.00 | 400K |
💡 关键洞察:Gemini 3.1 Pro 的输入价格仅为 Claude Opus 4.6 的 40%,输出价格不到其一半,且上下文窗口为稳定的 1M tokens。对于需要处理大量输入的场景(如代码库分析、长文档处理),成本优势显著。Gemini 3 Flash 更是以 $0.50 的输入价格提供了接近 Pro 级别的编码能力。
4. 基准测试与竞品定位
三代模型基准成绩演进
| 基准测试 | Gemini 2.5 Pro | Gemini 3 Pro | Gemini 3.1 Pro | 说明 |
|---|---|---|---|---|
| SWE-Bench Verified | 63.8% | 76.2% | 80.6% | 真实代码问题解决 |
| ARC-AGI-2 | 4.9% | 31.1% | 77.1% | 新颖推理(防记忆) |
| GPQA Diamond | 86.4% | 91.9% | 94.3% | 博士级科学推理 |
| AIME 2025 | 88.0% | 95.0% | — | 数学竞赛 |
| MMMU-Pro | 68.0% | 81.0% | — | 多模态推理 |
| Terminal-Bench 2.0 | — | 54.2% | 68.5% | Agentic 终端编码 |
| LiveCodeBench Pro | — | 2,439 Elo | — | 算法编码 |
ARC-AGI-2 的跃升尤为惊人:从 2.5 Pro 的 4.9% 到 3 Pro 的 31.1%,再到 3.1 Pro 的 77.1%,不到一年提升了 15 倍。这一基准专门测试模型面对从未见过的问题时的真正推理能力。
Gemini 3.1 Pro vs 竞品(2026 年 2 月)
| 基准测试 | Gemini 3.1 Pro | Claude Opus 4.6 | Claude Sonnet 4.5 | GPT-5.2 |
|---|---|---|---|---|
| ARC-AGI-2 | 77.1% | 68.8% | 60.4% | 52.9% |
| GPQA Diamond | 94.3% | 91.3% | 74.1% | 93.2% |
| SWE-Bench Verified | 80.6% | 80.8% | 79.6% | 80.0% |
| Terminal-Bench 2.0 | 68.5% | 65.4% | 59.1% | 60.0% |
| 输入价格 | $2.00 | $5.00 | $3.00 | $1.75 |
| 输出价格 | $12.00 | $25.00 | $15.00 | $14.00 |
| 上下文窗口 | 1M | 1M(beta) | 1M(beta) | 400K |
竞品定位矩阵
推理深度
↑
Claude Opus 4.6 ● │ ● Gemini 3.1 Pro
(专家任务/安全) │ (推理/多模态/长上下文)
│
──────────────────┼──────────────────→ 多模态 + Agentic 能力
│
GPT-5.2 ● │ ● Gemini 3 Flash
(生态/通用/低价) │ (性价比/速度/编码)
│| 维度 | Gemini 3.1 Pro | Claude Opus 4.6 | GPT-5.2 |
|---|---|---|---|
| 核心优势 | 推理登顶、多模态原生、1M 上下文、Google 生态 | 专家级办公任务、Agent Teams、安全对齐 | 生态最广、价格最低、400K 上下文 |
| 上下文窗口 | 1M tokens(稳定) | 1M tokens(beta) | 400K tokens |
| 多模态 | 原生文本/图像/音频/视频 | 文本/图像 | 文本/图像/音频 |
| 思考模式 | 三级思考(Low/Medium/High) | Extended Thinking | 推理模式 |
| Agentic 能力 | Function Calling + Computer Use + Grounding + Code Execution | Tool Use + Computer Use + Agent Teams | Function Calling + Plugins |
| 开发工具集成 | Antigravity、Gemini CLI、Android Studio、GitHub Copilot | Claude Code、Kiro | ChatGPT、GitHub Copilot |
| 价格竞争力 | ⭐⭐⭐⭐($2/$12) | ⭐⭐⭐($5/$25) | ⭐⭐⭐⭐⭐($1.75/$14) |
| 适合场景 | 复杂推理、大代码库分析、多模态任务 | 高风险决策、法律/金融分析、长文写作 | 通用任务、预算敏感、插件生态 |
5. 关键差异化优势
5.1 思考模型架构演进
从 2.5 Pro 的可调思考预算,到 3 Pro 的 Deep Think 模式,再到 3.1 Pro 的三级思考控制,Gemini 的”思考”能力持续进化:
# Gemini 2.5 Pro:数值型思考预算
config_25 = {"thinking_config": {"thinking_budget": 8192}}
# Gemini 3 Pro:Deep Think 模式(Ultra 用户)
# 在 AI Studio 中选择 Deep Think 模式
# Gemini 3.1 Pro:三级思考控制
# Low —— 快速响应,适合简单任务
# Medium —— 平衡模式,日常开发
# High —— 深度推理,复杂架构设计和数学证明
config_31 = {"thinking_config": {"thinking_level": "HIGH"}}实际影响:三级思考控制让开发者可以在同一模型上灵活切换——简单的代码格式化用 Low 级别快速完成,复杂的架构重构用 High 级别深度分析,无需切换模型即可优化成本和延迟。
5.2 百万级上下文窗口
1M token 的上下文窗口从 2.5 Pro 延续至 3.1 Pro,始终是 Gemini 最显著的差异化优势:
- 等效容量:约 75 万字中文 / 150 万字英文 / 3 万行代码
- 视频处理:可处理长达 3 小时的视频内容
- 长上下文可靠性:Gemini 3 Pro 在 128K 8-needle 检索测试中得分 77%,远超 Claude(47.1%)和 GPT(61.6%)
- 实际应用:一次性分析整个中型代码库、处理完整法律合同、分析长篇研究论文
5.3 原生多模态能力
Gemini 从架构层面就是多模态的,3 代模型在视觉理解上实现了质的飞跃:
| 能力 | Gemini 2.5 Pro | Gemini 3 Pro | 竞品最佳 |
|---|---|---|---|
| MMMU-Pro(图文推理) | 68.0% | 81.0% | GPT-5.2: 76.0% |
| Video-MMMU(视频理解) | 83.6% | 87.6% | GPT-5.2: 80.4% |
| ScreenSpot-Pro(屏幕理解) | 11.4% | 72.7% | Claude: 36.2% |
| OCR(OmniDocBench) | 0.145 | 0.115 | 越低越好 |
详见 多模态能力实战
5.4 Agentic 能力生态
Gemini 3/3.1 Pro 提供了业界最丰富的 Agent 工具集:
| 能力 | 说明 | 引入版本 | 状态 |
|---|---|---|---|
| Function Calling | 结构化工具调用 | 2.5 Pro | GA |
| Grounding with Google Search | 实时搜索增强 | 2.5 Pro | GA |
| Grounding with Google Maps | 地理信息增强 | 2.5 Pro | GA |
| Code Execution | 服务端代码执行 | 2.5 Pro | GA |
| URL Context | 网页内容获取 | 2.5 Pro | GA |
| Computer Use | 浏览器 GUI 控制 | 3 Pro | GA |
| File Search | 文件检索 | 3 Pro | GA |
| Deep Research Agent | 自主深度研究 | 3 Pro | GA |
| Custom Tools Endpoint | Agentic 精确工具调用 | 3.1 Pro | Preview |
| Agentic 编码(edit-then-test) | 自主编写、测试、修复代码 | 3.1 Pro | Preview |
5.5 Google 开发者生态
Gemini 3/3.1 时代,Google 构建了完整的 AI 开发工具链:
- Google Antigravity:Agent-first IDE(基于 VS Code),支持多 Agent 协作编码,可自主操作编辑器、终端和浏览器
- Gemini CLI:开源终端 AI 助手(GitHub 近 100K stars),集成到现有脚本和管线
- Vertex AI:企业级部署,SLA 保障,合规支持
- Google Workspace:直接在 Docs、Sheets、Gmail、Meet 中使用
- Android Studio:移动开发原生集成
- GitHub Copilot:Gemini 3.1 Pro 已作为可选模型集成
实战案例:用 Gemini 3.1 Pro 分析大型代码库
场景
一个包含 300+ 文件的 TypeScript 项目需要进行架构审查和重构建议。选择 Gemini 3.1 Pro 是因为其 1M 上下文窗口可以一次性容纳整个代码库,且 SWE-Bench 80.6% 的成绩保证了代码理解质量。
操作流程
import os
from google import genai
client = genai.Client(api_key=os.environ["GEMINI_API_KEY"])
# 1. 收集项目文件
project_files = []
for root, dirs, files in os.walk("./src"):
for f in files:
if f.endswith((".ts", ".tsx")):
path = os.path.join(root, f)
with open(path) as fh:
project_files.append(f"// File: {path}\n{fh.read()}")
codebase = "\n\n".join(project_files)
# 2. 利用 Gemini 3.1 Pro 的深度推理一次性分析
response = client.models.generate_content(
model="gemini-3.1-pro-preview",
contents=f"""作为资深架构师,请分析以下 TypeScript 项目代码库:
{codebase}
请提供:
1. 架构概览(组件关系图,用 Mermaid 格式)
2. 代码质量评估(命名、结构、复杂度)
3. 潜在问题和技术债务
4. 重构建议(按优先级排序)
5. 性能优化机会
""",
config={"thinking_config": {"thinking_level": "HIGH"}}
)
print(response.text)案例分析
- 为什么选 Gemini 3.1 Pro:300+ 文件的代码库可能超过 60 万 token,只有 Gemini 的 1M 上下文窗口能一次性容纳。3.1 Pro 的 ARC-AGI-2 得分 77.1% 意味着它能更好地理解从未见过的代码模式
- 思考级别选择:架构分析是复杂推理任务,使用 HIGH 级别以获得最深入的分析
- 成本估算:假设输入 60 万 token + 输出 8000 token,成本约 $1.20(输入)+ $0.096(输出)≈ $1.30,远低于人工审查成本
- 对比 2.5 Pro:同样的任务在 2.5 Pro 上成本约 $0.83(输入更便宜),但 3.1 Pro 的推理质量显著更高,SWE-Bench 从 63.8% 提升到 80.6%
避坑指南
❌ 常见错误
-
盲目追新,忽视稳定性需求
- 问题:Gemini 3.1 Pro 目前仍为 Preview 状态,可能存在延迟波动(首日测试有超过 100 秒的响应)
- 正确做法:生产环境优先使用 GA 状态的 Gemini 3 Pro;对延迟敏感的场景用 Gemini 3 Flash
-
忽略 200K token 价格阶梯
- 问题:当 prompt 超过 200K token 时,Gemini 3/3.1 Pro 的输入价格翻倍($2 → $4),输出也上涨($12 → $18)
- 正确做法:使用上下文缓存(Context Caching)降低重复输入成本,缓存可节省高达 75%
-
所有任务都用 Pro
- 问题:Gemini 3 Flash 在 SWE-Bench 上得分 78%,实际上超过了 3 Pro 的 76.2%,且价格仅为 1/4
- 正确做法:日常编码任务优先用 Flash($0.50/$3.00),仅在需要深度推理时升级到 Pro
-
免费层用于生产环境
- 问题:免费层有严格的速率限制,且数据会被用于改进产品
- 正确做法:生产环境务必使用付费层,数据不会被用于模型训练
-
忽视 Grounding 搜索的额外费用
- 问题:Grounding with Google Search 免费额度有限(Flash/Flash-Lite 共享 1500 RPD),超出后 $35/1000 次(Flash)或 $14/1000 次(3 Pro 专属定价)
- 正确做法:监控 Grounding 调用量,非必要场景关闭 Grounding
-
忽略 Gemini 3.1 Pro 的专家任务短板
- 问题:在 GDPval-AA(专家级办公任务)基准上,Claude Opus 4.6 以 1,606 Elo 大幅领先 Gemini 3.1 Pro 的 1,317 Elo
- 正确做法:高风险的法律分析、金融建模、复杂长文写作等专家任务,仍应考虑 Claude Opus
✅ 最佳实践
- 分层模型策略:Flash 处理 80% 的日常任务,Pro 处理 15% 的复杂推理,3.1 Pro Preview 用于 5% 的前沿实验
- 善用上下文缓存:对重复使用的长上下文启用 Context Caching,最高可节省 75% 成本
- 批处理 API:非实时场景使用 Batch API 获得 50% 成本折扣
- 思考级别优化:简单任务用 Low,日常开发用 Medium,复杂推理用 High,避免为简单任务支付不必要的思考 token 费用
- 结合 Antigravity / Gemini CLI:利用 Google 的 Agent-first 工具链实现端到端的 Agentic 开发工作流
相关资源与延伸阅读
| 资源 | 类型 | 说明 |
|---|---|---|
| Google AI Studio | 在线工具 | 免费试用所有 Gemini 模型,快速原型开发 |
| Gemini API 官方文档 | 官方文档 | API 参考、SDK 指南、最佳实践 |
| Gemini CLI GitHub | 开源工具 | 终端 AI 助手,支持脚本集成和自动化 |
| Google Antigravity | IDE | Agent-first 开发环境,免费预览 |
| Vertex AI Gemini 文档 | 企业文档 | 企业级部署、安全、合规指南 |
| Gemini 3.1 Pro Model Card | 模型卡片 | 官方能力说明和限制 |
| Artificial Analysis: Gemini 评测 | 第三方评测 | 独立基准测试和性能分析 |
| Gemini API Pricing | 定价页 | 最新官方定价,持续更新 |
参考来源
- Gemini 3.1 Pro on Gemini CLI, Gemini Enterprise, and Vertex AI (2026-02-19,Google Cloud 官方博客)
- Gemini 3.1 Pro Preview — Artificial Analysis (2026-02-19,第三方独立评测)
- Gemini 3.1 Pro Model Card — Google DeepMind (2026-02-19,官方模型卡片)
- Google Launches Gemini 3: Most Intelligent AI (2025-11-18,Gemini 3 发布报道)
- Gemini 3 Benchmarks & Pricing — GrowthJockey (2025-12,第三方综合评测)
- Gemini Developer API Pricing (持续更新,Google 官方定价页,最后验证 2026-02-19)
- Gemini 2.5: Updates to our family of thinking models (2025-06-17,Google 官方博客)
- Choosing Antigravity or Gemini CLI — Google Cloud Blog (2026-02,Google 官方)
📖 返回 总览与导航 | 上一节:Skill 设计模式与排错 | 下一节:百万 Token 上下文实战