07a - Gemini 模型家族能力概览（2.5 → 3.1）

本文是《AI Agent 实战手册》第 7 章第 1 节。上一节：Skill 设计模式与排错 | 下一节：百万 Token 上下文实战

概述

从 2025 年初的 Gemini 2.5 Pro 到 2025 年 11 月的 Gemini 3 Pro，再到 2026 年 2 月的 Gemini 3.1 Pro，Google DeepMind 在不到一年的时间内完成了三代旗舰模型的迭代。每一代都在推理深度、多模态理解、Agentic 能力和性价比上实现了显著跃升。本节将系统梳理 Gemini 模型家族从 2.5 到 3.1 的完整演进脉络、各代变体对比、竞品定位和关键差异化优势，帮助你在实际项目中做出最优模型选择。

1. Gemini 模型演进时间线

关键里程碑

时间	事件	意义
2025 年 3 月	Gemini 2.5 Pro 发布	首个”思考模型”，引入可调思考预算，1M 上下文窗口
2025 年 6 月	Gemini 2.5 Pro / Flash GA	正式商用，价格体系确立
2025 年 8 月	Gemini 2.5 Flash-Lite 发布	极致性价比变体，$0.10/1M 输入
2025 年 11 月 18 日	Gemini 3 Pro 发布	全新架构，推理能力大幅跃升，Google Antigravity IDE 同步发布
2025 年 12 月	Gemini 3 Flash 发布	高性价比变体，$0.50/1M 输入，编码能力接近 Pro
2026 年 2 月 19 日	Gemini 3.1 Pro 发布	ARC-AGI-2 得分翻倍（77.1%），Agentic 编码能力登顶

架构演进


Gemini 2.5（2025 上半年）          Gemini 3（2025 Q4）              Gemini 3.1（2026 Q1）
┌─────────────────────┐     ┌─────────────────────┐     ┌─────────────────────┐
│ 首代思考模型         │     │ 全新 MoE 架构        │     │ Deep Think 内置      │
│ 可调思考预算         │ ──→ │ 原生 Agentic 能力    │ ──→ │ 三级思考控制          │
│ 1M 上下文窗口       │     │ Computer Use         │     │ ARC-AGI-2: 77.1%    │
│ SWE-Bench: 63.8%    │     │ SWE-Bench: 76.2%     │     │ SWE-Bench: 80.6%    │
└─────────────────────┘     └─────────────────────┘     └─────────────────────┘

工具推荐

工具	用途	价格	适用场景
Google AI Studio	在线测试和原型开发	免费	快速实验、Prompt 调试、免费层 API 调用
Vertex AI	企业级 AI 平台	按用量计费	生产部署、合规需求、企业安全
Gemini API（Developer）	开发者 API	免费层 + 付费层	应用集成、自动化工作流
Google Antigravity	Agent-first IDE	免费预览	Agentic 编码、多 Agent 协作开发
Gemini CLI	终端 AI 助手	免费（开源）	命令行工作流、脚本集成、自动化
Cursor	AI 编码 IDE	$20/月（Pro）	使用 Gemini 作为编码后端
GitHub Copilot	AI 编码助手	$10/月起	Gemini 3.1 Pro 已集成为可选模型

操作步骤

步骤 1：获取 API Key

前往 Google AI Studio 注册并创建 API Key。免费层即可使用 Gemini 模型，无需绑定信用卡。


# 设置环境变量
export GEMINI_API_KEY="your-api-key-here"

步骤 2：选择合适的模型


决策树：
├── 需要最高推理质量 + 最新能力？ → gemini-3.1-pro-preview
├── 需要强推理 + 稳定 GA？ → gemini-3-pro
├── 需要速度与质量平衡？ → gemini-3-flash
├── 需要极低成本/高吞吐？ → gemini-2.5-flash-lite
├── 仍在使用旧版？ → gemini-2.5-pro（仍可用，但建议迁移）
└── 需要 Agentic 自定义工具？ → gemini-3.1-pro-preview-customtools

步骤 3：快速调用示例（Python）


from google import genai
 
client = genai.Client(api_key="your-api-key")
 
# 使用最新的 Gemini 3.1 Pro
response = client.models.generate_content(
    model="gemini-3.1-pro-preview",
    contents="分析 Rust 异步运行时 Tokio 的调度器实现原理",
    config={
        "thinking_config": {"thinking_budget": 16384}
    }
)
print(response.text)

提示词模板


你是一位资深 [领域] 专家。请对以下 [任务类型] 进行深度分析：

[具体内容或代码]

要求：
1. 先列出关键发现
2. 给出详细分析
3. 提供可操作的改进建议
4. 如有代码，给出优化后的版本

请用中文回答，使用 Markdown 格式。

2. 三代模型变体全览

Gemini 2.5 系列（2025 上半年）

Gemini 2.5 是 Google 首个”思考模型”家族，引入了可控思考预算的概念。

模型	模型 ID	定位	上下文窗口	思考模式	状态
2.5 Pro	`gemini-2.5-pro`	旗舰推理模型	1M tokens	默认开启，可调预算	GA
2.5 Flash	`gemini-2.5-flash`	高性价比推理	1M tokens	默认开启，可调预算	GA
2.5 Flash-Lite	`gemini-2.5-flash-lite`	极致性价比	1M tokens	默认关闭，可开启	GA

Gemini 3 系列（2025 年 11 月）

Gemini 3 采用全新的稀疏混合专家（Sparse MoE）架构从头构建，在推理、多模态和 Agentic 能力上实现了代际跃升。

模型	模型 ID	定位	上下文窗口	关键特性	状态
3 Pro	`gemini-3-pro`	旗舰全能模型	1M tokens	Deep Think 模式、Computer Use、Agentic 编码	GA
3 Flash	`gemini-3-flash`	高性价比全能	1M tokens	90%+ Pro 能力、3x 速度、编码能力接近 Pro	GA
3 Deep Think	—	极限推理模式	1M tokens	Pro 的增强推理模式，Ultra 用户可用	Preview

Gemini 3.1 系列（2026 年 2 月）

Gemini 3.1 Pro 将 Deep Think 协议直接内置到核心模型中，引入三级思考控制（Low / Medium / High），推理能力实现 2.5 倍跃升。

模型	模型 ID	定位	上下文窗口	关键特性	状态
3.1 Pro	`gemini-3.1-pro-preview`	最强推理模型	1M tokens	三级思考、ARC-AGI-2: 77.1%、Agentic 编码登顶	Preview
3.1 Pro Custom Tools	`gemini-3.1-pro-preview-customtools`	Agentic 专用	1M tokens	精确 Function Call、更少工具调用完成任务	Preview

3. API 价格体系

Gemini 系列采用按 token 计费模式，提供免费层、标准付费层和批处理折扣。以下为截至 2026 年 2 月的官方定价（信息来源：Google AI 官方定价页，最后验证：2026-02-19）。

全系列价格对比

模型	输入（≤200K）	输入（>200K）	输出（含思考）	批处理折扣
Gemini 3.1 Pro	$2.00 / 1M	$4.00 / 1M	$12.00 / 1M	50%（$1.00 / $6.00）
Gemini 3 Pro	$2.00 / 1M	$4.00 / 1M	$12.00 / 1M	50%
Gemini 3 Flash	$0.50 / 1M	—	$3.00 / 1M	50%（$0.25 / $1.50）
Gemini 2.5 Pro	$1.25 / 1M	$2.50 / 1M	$10.00 / 1M	50%
Gemini 2.5 Flash	$0.30 / 1M	—	$2.50 / 1M	50%
Gemini 2.5 Flash-Lite	$0.10 / 1M	—	$0.40 / 1M	50%

上下文缓存价格

上下文缓存（Context Caching）可为重复使用的长上下文节省高达 75% 的成本：

模型	缓存输入价格	缓存存储
Gemini 3.1 Pro / 3 Pro	$0.20 / 1M tokens	$4.50 / 1M tokens / 小时
Gemini 3 Flash	$0.05 / 1M tokens	$1.00 / 1M tokens / 小时
Gemini 2.5 Pro	$0.125 / 1M tokens	$4.50 / 1M tokens / 小时

跨厂商成本对比（2026 年 2 月）

模型	输入（/1M tokens）	输出（/1M tokens）	上下文窗口
Gemini 3.1 Pro	$2.00	$12.00	1M
Gemini 3 Flash	$0.50	$3.00	1M
Claude Opus 4.6	$5.00	$25.00	1M（beta）
Claude Sonnet 4.5	$3.00	$15.00	1M（beta）
GPT-5.2	$1.75	$14.00	400K

💡 关键洞察：Gemini 3.1 Pro 的输入价格仅为 Claude Opus 4.6 的 40%，输出价格不到其一半，且上下文窗口为稳定的 1M tokens。对于需要处理大量输入的场景（如代码库分析、长文档处理），成本优势显著。Gemini 3 Flash 更是以 $0.50 的输入价格提供了接近 Pro 级别的编码能力。

4. 基准测试与竞品定位

三代模型基准成绩演进

基准测试	Gemini 2.5 Pro	Gemini 3 Pro	Gemini 3.1 Pro	说明
SWE-Bench Verified	63.8%	76.2%	80.6%	真实代码问题解决
ARC-AGI-2	4.9%	31.1%	77.1%	新颖推理（防记忆）
GPQA Diamond	86.4%	91.9%	94.3%	博士级科学推理
AIME 2025	88.0%	95.0%	—	数学竞赛
MMMU-Pro	68.0%	81.0%	—	多模态推理
Terminal-Bench 2.0	—	54.2%	68.5%	Agentic 终端编码
LiveCodeBench Pro	—	2,439 Elo	—	算法编码

ARC-AGI-2 的跃升尤为惊人：从 2.5 Pro 的 4.9% 到 3 Pro 的 31.1%，再到 3.1 Pro 的 77.1%，不到一年提升了 15 倍。这一基准专门测试模型面对从未见过的问题时的真正推理能力。

Gemini 3.1 Pro vs 竞品（2026 年 2 月）

基准测试	Gemini 3.1 Pro	Claude Opus 4.6	Claude Sonnet 4.5	GPT-5.2
ARC-AGI-2	77.1%	68.8%	60.4%	52.9%
GPQA Diamond	94.3%	91.3%	74.1%	93.2%
SWE-Bench Verified	80.6%	80.8%	79.6%	80.0%
Terminal-Bench 2.0	68.5%	65.4%	59.1%	60.0%
输入价格	$2.00	$5.00	$3.00	$1.75
输出价格	$12.00	$25.00	$15.00	$14.00
上下文窗口	1M	1M（beta）	1M（beta）	400K

竞品定位矩阵


                    推理深度
                      ↑
  Claude Opus 4.6 ●   │   ● Gemini 3.1 Pro
  （专家任务/安全）     │   （推理/多模态/长上下文）
                      │
  ──────────────────┼──────────────────→ 多模态 + Agentic 能力
                      │
  GPT-5.2 ●           │   ● Gemini 3 Flash
  （生态/通用/低价）    │   （性价比/速度/编码）
                      │

维度	Gemini 3.1 Pro	Claude Opus 4.6	GPT-5.2
核心优势	推理登顶、多模态原生、1M 上下文、Google 生态	专家级办公任务、Agent Teams、安全对齐	生态最广、价格最低、400K 上下文
上下文窗口	1M tokens（稳定）	1M tokens（beta）	400K tokens
多模态	原生文本/图像/音频/视频	文本/图像	文本/图像/音频
思考模式	三级思考（Low/Medium/High）	Extended Thinking	推理模式
Agentic 能力	Function Calling + Computer Use + Grounding + Code Execution	Tool Use + Computer Use + Agent Teams	Function Calling + Plugins
开发工具集成	Antigravity、Gemini CLI、Android Studio、GitHub Copilot	Claude Code、Kiro	ChatGPT、GitHub Copilot
价格竞争力	⭐⭐⭐⭐（$2/$12）	⭐⭐⭐（$5/$25）	⭐⭐⭐⭐⭐（$1.75/$14）
适合场景	复杂推理、大代码库分析、多模态任务	高风险决策、法律/金融分析、长文写作	通用任务、预算敏感、插件生态

5. 关键差异化优势

5.1 思考模型架构演进

从 2.5 Pro 的可调思考预算，到 3 Pro 的 Deep Think 模式，再到 3.1 Pro 的三级思考控制，Gemini 的”思考”能力持续进化：


# Gemini 2.5 Pro：数值型思考预算
config_25 = {"thinking_config": {"thinking_budget": 8192}}
 
# Gemini 3 Pro：Deep Think 模式（Ultra 用户）
# 在 AI Studio 中选择 Deep Think 模式
 
# Gemini 3.1 Pro：三级思考控制
# Low —— 快速响应，适合简单任务
# Medium —— 平衡模式，日常开发
# High —— 深度推理，复杂架构设计和数学证明
config_31 = {"thinking_config": {"thinking_level": "HIGH"}}

实际影响：三级思考控制让开发者可以在同一模型上灵活切换——简单的代码格式化用 Low 级别快速完成，复杂的架构重构用 High 级别深度分析，无需切换模型即可优化成本和延迟。

5.2 百万级上下文窗口

1M token 的上下文窗口从 2.5 Pro 延续至 3.1 Pro，始终是 Gemini 最显著的差异化优势：

等效容量：约 75 万字中文 / 150 万字英文 / 3 万行代码
视频处理：可处理长达 3 小时的视频内容
长上下文可靠性：Gemini 3 Pro 在 128K 8-needle 检索测试中得分 77%，远超 Claude（47.1%）和 GPT（61.6%）
实际应用：一次性分析整个中型代码库、处理完整法律合同、分析长篇研究论文

详见百万 Token 上下文实战

5.3 原生多模态能力

Gemini 从架构层面就是多模态的，3 代模型在视觉理解上实现了质的飞跃：

能力	Gemini 2.5 Pro	Gemini 3 Pro	竞品最佳
MMMU-Pro（图文推理）	68.0%	81.0%	GPT-5.2: 76.0%
Video-MMMU（视频理解）	83.6%	87.6%	GPT-5.2: 80.4%
ScreenSpot-Pro（屏幕理解）	11.4%	72.7%	Claude: 36.2%
OCR（OmniDocBench）	0.145	0.115	越低越好

详见多模态能力实战

5.4 Agentic 能力生态

Gemini 3/3.1 Pro 提供了业界最丰富的 Agent 工具集：

能力	说明	引入版本	状态
Function Calling	结构化工具调用	2.5 Pro	GA
Grounding with Google Search	实时搜索增强	2.5 Pro	GA
Grounding with Google Maps	地理信息增强	2.5 Pro	GA
Code Execution	服务端代码执行	2.5 Pro	GA
URL Context	网页内容获取	2.5 Pro	GA
Computer Use	浏览器 GUI 控制	3 Pro	GA
File Search	文件检索	3 Pro	GA
Deep Research Agent	自主深度研究	3 Pro	GA
Custom Tools Endpoint	Agentic 精确工具调用	3.1 Pro	Preview
Agentic 编码（edit-then-test）	自主编写、测试、修复代码	3.1 Pro	Preview

5.5 Google 开发者生态

Gemini 3/3.1 时代，Google 构建了完整的 AI 开发工具链：

Google Antigravity：Agent-first IDE（基于 VS Code），支持多 Agent 协作编码，可自主操作编辑器、终端和浏览器
Gemini CLI：开源终端 AI 助手（GitHub 近 100K stars），集成到现有脚本和管线
Vertex AI：企业级部署，SLA 保障，合规支持
Google Workspace：直接在 Docs、Sheets、Gmail、Meet 中使用
Android Studio：移动开发原生集成
GitHub Copilot：Gemini 3.1 Pro 已作为可选模型集成

实战案例：用 Gemini 3.1 Pro 分析大型代码库

场景

一个包含 300+ 文件的 TypeScript 项目需要进行架构审查和重构建议。选择 Gemini 3.1 Pro 是因为其 1M 上下文窗口可以一次性容纳整个代码库，且 SWE-Bench 80.6% 的成绩保证了代码理解质量。

操作流程


import os
from google import genai
 
client = genai.Client(api_key=os.environ["GEMINI_API_KEY"])
 
# 1. 收集项目文件
project_files = []
for root, dirs, files in os.walk("./src"):
    for f in files:
        if f.endswith((".ts", ".tsx")):
            path = os.path.join(root, f)
            with open(path) as fh:
                project_files.append(f"// File: {path}\n{fh.read()}")
 
codebase = "\n\n".join(project_files)
 
# 2. 利用 Gemini 3.1 Pro 的深度推理一次性分析
response = client.models.generate_content(
    model="gemini-3.1-pro-preview",
    contents=f"""作为资深架构师，请分析以下 TypeScript 项目代码库：
 
{codebase}
 
请提供：
1. 架构概览（组件关系图，用 Mermaid 格式）
2. 代码质量评估（命名、结构、复杂度）
3. 潜在问题和技术债务
4. 重构建议（按优先级排序）
5. 性能优化机会
""",
    config={"thinking_config": {"thinking_level": "HIGH"}}
)
 
print(response.text)

案例分析

为什么选 Gemini 3.1 Pro：300+ 文件的代码库可能超过 60 万 token，只有 Gemini 的 1M 上下文窗口能一次性容纳。3.1 Pro 的 ARC-AGI-2 得分 77.1% 意味着它能更好地理解从未见过的代码模式
思考级别选择：架构分析是复杂推理任务，使用 HIGH 级别以获得最深入的分析
成本估算：假设输入 60 万 token + 输出 8000 token，成本约 $1.20（输入）+ $0.096（输出）≈ $1.30，远低于人工审查成本
对比 2.5 Pro：同样的任务在 2.5 Pro 上成本约 $0.83（输入更便宜），但 3.1 Pro 的推理质量显著更高，SWE-Bench 从 63.8% 提升到 80.6%

避坑指南

❌ 常见错误

盲目追新，忽视稳定性需求
- 问题：Gemini 3.1 Pro 目前仍为 Preview 状态，可能存在延迟波动（首日测试有超过 100 秒的响应）
- 正确做法：生产环境优先使用 GA 状态的 Gemini 3 Pro；对延迟敏感的场景用 Gemini 3 Flash
忽略 200K token 价格阶梯
- 问题：当 prompt 超过 200K token 时，Gemini 3/3.1 Pro 的输入价格翻倍（$2 → $4），输出也上涨（$12 → $18）
- 正确做法：使用上下文缓存（Context Caching）降低重复输入成本，缓存可节省高达 75%
所有任务都用 Pro
- 问题：Gemini 3 Flash 在 SWE-Bench 上得分 78%，实际上超过了 3 Pro 的 76.2%，且价格仅为 1/4
- 正确做法：日常编码任务优先用 Flash（$0.50/$3.00），仅在需要深度推理时升级到 Pro
免费层用于生产环境
- 问题：免费层有严格的速率限制，且数据会被用于改进产品
- 正确做法：生产环境务必使用付费层，数据不会被用于模型训练
忽视 Grounding 搜索的额外费用
- 问题：Grounding with Google Search 免费额度有限（Flash/Flash-Lite 共享 1500 RPD），超出后 $35/1000 次（Flash）或 $14/1000 次（3 Pro 专属定价）
- 正确做法：监控 Grounding 调用量，非必要场景关闭 Grounding
忽略 Gemini 3.1 Pro 的专家任务短板
- 问题：在 GDPval-AA（专家级办公任务）基准上，Claude Opus 4.6 以 1,606 Elo 大幅领先 Gemini 3.1 Pro 的 1,317 Elo
- 正确做法：高风险的法律分析、金融建模、复杂长文写作等专家任务，仍应考虑 Claude Opus

✅ 最佳实践

分层模型策略：Flash 处理 80% 的日常任务，Pro 处理 15% 的复杂推理，3.1 Pro Preview 用于 5% 的前沿实验
善用上下文缓存：对重复使用的长上下文启用 Context Caching，最高可节省 75% 成本
批处理 API：非实时场景使用 Batch API 获得 50% 成本折扣
思考级别优化：简单任务用 Low，日常开发用 Medium，复杂推理用 High，避免为简单任务支付不必要的思考 token 费用
结合 Antigravity / Gemini CLI：利用 Google 的 Agent-first 工具链实现端到端的 Agentic 开发工作流

资源	类型	说明
Google AI Studio	在线工具	免费试用所有 Gemini 模型，快速原型开发
Gemini API 官方文档	官方文档	API 参考、SDK 指南、最佳实践
Gemini CLI GitHub	开源工具	终端 AI 助手，支持脚本集成和自动化
Google Antigravity	IDE	Agent-first 开发环境，免费预览
Vertex AI Gemini 文档	企业文档	企业级部署、安全、合规指南
Gemini 3.1 Pro Model Card	模型卡片	官方能力说明和限制
Artificial Analysis: Gemini 评测	第三方评测	独立基准测试和性能分析
Gemini API Pricing	定价页	最新官方定价，持续更新

参考来源

Gemini 3.1 Pro on Gemini CLI, Gemini Enterprise, and Vertex AI （2026-02-19，Google Cloud 官方博客）
Gemini 3.1 Pro Preview — Artificial Analysis （2026-02-19，第三方独立评测）
Gemini 3.1 Pro Model Card — Google DeepMind （2026-02-19，官方模型卡片）
Google Launches Gemini 3: Most Intelligent AI （2025-11-18，Gemini 3 发布报道）
Gemini 3 Benchmarks & Pricing — GrowthJockey （2025-12，第三方综合评测）
Gemini Developer API Pricing （持续更新，Google 官方定价页，最后验证 2026-02-19）
Gemini 2.5: Updates to our family of thinking models （2025-06-17，Google 官方博客）
Choosing Antigravity or Gemini CLI — Google Cloud Blog （2026-02，Google 官方）

📖 返回总览与导航 | 上一节：Skill 设计模式与排错 | 下一节：百万 Token 上下文实战