Skip to Content

07a - Gemini 模型家族能力概览(2.5 → 3.1)

本文是《AI Agent 实战手册》第 7 章第 1 节。 上一节:Skill 设计模式与排错 | 下一节:百万 Token 上下文实战

概述

从 2025 年初的 Gemini 2.5 Pro 到 2025 年 11 月的 Gemini 3 Pro,再到 2026 年 2 月的 Gemini 3.1 Pro,Google DeepMind 在不到一年的时间内完成了三代旗舰模型的迭代。每一代都在推理深度、多模态理解、Agentic 能力和性价比上实现了显著跃升。本节将系统梳理 Gemini 模型家族从 2.5 到 3.1 的完整演进脉络、各代变体对比、竞品定位和关键差异化优势,帮助你在实际项目中做出最优模型选择。


1. Gemini 模型演进时间线

关键里程碑

时间事件意义
2025 年 3 月Gemini 2.5 Pro 发布首个”思考模型”,引入可调思考预算,1M 上下文窗口
2025 年 6 月Gemini 2.5 Pro / Flash GA正式商用,价格体系确立
2025 年 8 月Gemini 2.5 Flash-Lite 发布极致性价比变体,$0.10/1M 输入
2025 年 11 月 18 日Gemini 3 Pro 发布全新架构,推理能力大幅跃升,Google Antigravity IDE 同步发布
2025 年 12 月Gemini 3 Flash 发布高性价比变体,$0.50/1M 输入,编码能力接近 Pro
2026 年 2 月 19 日Gemini 3.1 Pro 发布ARC-AGI-2 得分翻倍(77.1%),Agentic 编码能力登顶

架构演进

Gemini 2.5(2025 上半年) Gemini 3(2025 Q4) Gemini 3.1(2026 Q1) ┌─────────────────────┐ ┌─────────────────────┐ ┌─────────────────────┐ │ 首代思考模型 │ │ 全新 MoE 架构 │ │ Deep Think 内置 │ │ 可调思考预算 │ ──→ │ 原生 Agentic 能力 │ ──→ │ 三级思考控制 │ │ 1M 上下文窗口 │ │ Computer Use │ │ ARC-AGI-2: 77.1% │ │ SWE-Bench: 63.8% │ │ SWE-Bench: 76.2% │ │ SWE-Bench: 80.6% │ └─────────────────────┘ └─────────────────────┘ └─────────────────────┘

工具推荐

工具用途价格适用场景
Google AI Studio 在线测试和原型开发免费快速实验、Prompt 调试、免费层 API 调用
Vertex AI 企业级 AI 平台按用量计费生产部署、合规需求、企业安全
Gemini API(Developer) 开发者 API免费层 + 付费层应用集成、自动化工作流
Google Antigravity Agent-first IDE免费预览Agentic 编码、多 Agent 协作开发
Gemini CLI 终端 AI 助手免费(开源)命令行工作流、脚本集成、自动化
Cursor AI 编码 IDE$20/月(Pro)使用 Gemini 作为编码后端
GitHub Copilot AI 编码助手$10/月起Gemini 3.1 Pro 已集成为可选模型

操作步骤

步骤 1:获取 API Key

前往 Google AI Studio  注册并创建 API Key。免费层即可使用 Gemini 模型,无需绑定信用卡。

# 设置环境变量 export GEMINI_API_KEY="your-api-key-here"

步骤 2:选择合适的模型

决策树: ├── 需要最高推理质量 + 最新能力? → gemini-3.1-pro-preview ├── 需要强推理 + 稳定 GA? → gemini-3-pro ├── 需要速度与质量平衡? → gemini-3-flash ├── 需要极低成本/高吞吐? → gemini-2.5-flash-lite ├── 仍在使用旧版? → gemini-2.5-pro(仍可用,但建议迁移) └── 需要 Agentic 自定义工具? → gemini-3.1-pro-preview-customtools

步骤 3:快速调用示例(Python)

from google import genai client = genai.Client(api_key="your-api-key") # 使用最新的 Gemini 3.1 Pro response = client.models.generate_content( model="gemini-3.1-pro-preview", contents="分析 Rust 异步运行时 Tokio 的调度器实现原理", config={ "thinking_config": {"thinking_budget": 16384} } ) print(response.text)

提示词模板

你是一位资深 [领域] 专家。请对以下 [任务类型] 进行深度分析: [具体内容或代码] 要求: 1. 先列出关键发现 2. 给出详细分析 3. 提供可操作的改进建议 4. 如有代码,给出优化后的版本 请用中文回答,使用 Markdown 格式。

2. 三代模型变体全览

Gemini 2.5 系列(2025 上半年)

Gemini 2.5 是 Google 首个”思考模型”家族,引入了可控思考预算的概念。

模型模型 ID定位上下文窗口思考模式状态
2.5 Progemini-2.5-pro旗舰推理模型1M tokens默认开启,可调预算GA
2.5 Flashgemini-2.5-flash高性价比推理1M tokens默认开启,可调预算GA
2.5 Flash-Litegemini-2.5-flash-lite极致性价比1M tokens默认关闭,可开启GA

Gemini 3 系列(2025 年 11 月)

Gemini 3 采用全新的稀疏混合专家(Sparse MoE)架构从头构建,在推理、多模态和 Agentic 能力上实现了代际跃升。

模型模型 ID定位上下文窗口关键特性状态
3 Progemini-3-pro旗舰全能模型1M tokensDeep Think 模式、Computer Use、Agentic 编码GA
3 Flashgemini-3-flash高性价比全能1M tokens90%+ Pro 能力、3x 速度、编码能力接近 ProGA
3 Deep Think极限推理模式1M tokensPro 的增强推理模式,Ultra 用户可用Preview

Gemini 3.1 系列(2026 年 2 月)

Gemini 3.1 Pro 将 Deep Think 协议直接内置到核心模型中,引入三级思考控制(Low / Medium / High),推理能力实现 2.5 倍跃升。

模型模型 ID定位上下文窗口关键特性状态
3.1 Progemini-3.1-pro-preview最强推理模型1M tokens三级思考、ARC-AGI-2: 77.1%、Agentic 编码登顶Preview
3.1 Pro Custom Toolsgemini-3.1-pro-preview-customtoolsAgentic 专用1M tokens精确 Function Call、更少工具调用完成任务Preview

3. API 价格体系

Gemini 系列采用按 token 计费模式,提供免费层、标准付费层和批处理折扣。以下为截至 2026 年 2 月的官方定价(信息来源:Google AI 官方定价页 ,最后验证:2026-02-19)。

全系列价格对比

模型输入(≤200K)输入(>200K)输出(含思考)批处理折扣
Gemini 3.1 Pro$2.00 / 1M$4.00 / 1M$12.00 / 1M50%($1.00 / $6.00)
Gemini 3 Pro$2.00 / 1M$4.00 / 1M$12.00 / 1M50%
Gemini 3 Flash$0.50 / 1M$3.00 / 1M50%($0.25 / $1.50)
Gemini 2.5 Pro$1.25 / 1M$2.50 / 1M$10.00 / 1M50%
Gemini 2.5 Flash$0.30 / 1M$2.50 / 1M50%
Gemini 2.5 Flash-Lite$0.10 / 1M$0.40 / 1M50%

上下文缓存价格

上下文缓存(Context Caching)可为重复使用的长上下文节省高达 75% 的成本:

模型缓存输入价格缓存存储
Gemini 3.1 Pro / 3 Pro$0.20 / 1M tokens$4.50 / 1M tokens / 小时
Gemini 3 Flash$0.05 / 1M tokens$1.00 / 1M tokens / 小时
Gemini 2.5 Pro$0.125 / 1M tokens$4.50 / 1M tokens / 小时

跨厂商成本对比(2026 年 2 月)

模型输入(/1M tokens)输出(/1M tokens)上下文窗口
Gemini 3.1 Pro$2.00$12.001M
Gemini 3 Flash$0.50$3.001M
Claude Opus 4.6$5.00$25.001M(beta)
Claude Sonnet 4.5$3.00$15.001M(beta)
GPT-5.2$1.75$14.00400K

💡 关键洞察:Gemini 3.1 Pro 的输入价格仅为 Claude Opus 4.6 的 40%,输出价格不到其一半,且上下文窗口为稳定的 1M tokens。对于需要处理大量输入的场景(如代码库分析、长文档处理),成本优势显著。Gemini 3 Flash 更是以 $0.50 的输入价格提供了接近 Pro 级别的编码能力。


4. 基准测试与竞品定位

三代模型基准成绩演进

基准测试Gemini 2.5 ProGemini 3 ProGemini 3.1 Pro说明
SWE-Bench Verified63.8%76.2%80.6%真实代码问题解决
ARC-AGI-24.9%31.1%77.1%新颖推理(防记忆)
GPQA Diamond86.4%91.9%94.3%博士级科学推理
AIME 202588.0%95.0%数学竞赛
MMMU-Pro68.0%81.0%多模态推理
Terminal-Bench 2.054.2%68.5%Agentic 终端编码
LiveCodeBench Pro2,439 Elo算法编码

ARC-AGI-2 的跃升尤为惊人:从 2.5 Pro 的 4.9% 到 3 Pro 的 31.1%,再到 3.1 Pro 的 77.1%,不到一年提升了 15 倍。这一基准专门测试模型面对从未见过的问题时的真正推理能力。

Gemini 3.1 Pro vs 竞品(2026 年 2 月)

基准测试Gemini 3.1 ProClaude Opus 4.6Claude Sonnet 4.5GPT-5.2
ARC-AGI-277.1%68.8%60.4%52.9%
GPQA Diamond94.3%91.3%74.1%93.2%
SWE-Bench Verified80.6%80.8%79.6%80.0%
Terminal-Bench 2.068.5%65.4%59.1%60.0%
输入价格$2.00$5.00$3.00$1.75
输出价格$12.00$25.00$15.00$14.00
上下文窗口1M1M(beta)1M(beta)400K

竞品定位矩阵

推理深度 Claude Opus 4.6 ● │ ● Gemini 3.1 Pro (专家任务/安全) │ (推理/多模态/长上下文) ──────────────────┼──────────────────→ 多模态 + Agentic 能力 GPT-5.2 ● │ ● Gemini 3 Flash (生态/通用/低价) │ (性价比/速度/编码)
维度Gemini 3.1 ProClaude Opus 4.6GPT-5.2
核心优势推理登顶、多模态原生、1M 上下文、Google 生态专家级办公任务、Agent Teams、安全对齐生态最广、价格最低、400K 上下文
上下文窗口1M tokens(稳定)1M tokens(beta)400K tokens
多模态原生文本/图像/音频/视频文本/图像文本/图像/音频
思考模式三级思考(Low/Medium/High)Extended Thinking推理模式
Agentic 能力Function Calling + Computer Use + Grounding + Code ExecutionTool Use + Computer Use + Agent TeamsFunction Calling + Plugins
开发工具集成Antigravity、Gemini CLI、Android Studio、GitHub CopilotClaude Code、KiroChatGPT、GitHub Copilot
价格竞争力⭐⭐⭐⭐($2/$12)⭐⭐⭐($5/$25)⭐⭐⭐⭐⭐($1.75/$14)
适合场景复杂推理、大代码库分析、多模态任务高风险决策、法律/金融分析、长文写作通用任务、预算敏感、插件生态

5. 关键差异化优势

5.1 思考模型架构演进

从 2.5 Pro 的可调思考预算,到 3 Pro 的 Deep Think 模式,再到 3.1 Pro 的三级思考控制,Gemini 的”思考”能力持续进化:

# Gemini 2.5 Pro:数值型思考预算 config_25 = {"thinking_config": {"thinking_budget": 8192}} # Gemini 3 Pro:Deep Think 模式(Ultra 用户) # 在 AI Studio 中选择 Deep Think 模式 # Gemini 3.1 Pro:三级思考控制 # Low —— 快速响应,适合简单任务 # Medium —— 平衡模式,日常开发 # High —— 深度推理,复杂架构设计和数学证明 config_31 = {"thinking_config": {"thinking_level": "HIGH"}}

实际影响:三级思考控制让开发者可以在同一模型上灵活切换——简单的代码格式化用 Low 级别快速完成,复杂的架构重构用 High 级别深度分析,无需切换模型即可优化成本和延迟。

5.2 百万级上下文窗口

1M token 的上下文窗口从 2.5 Pro 延续至 3.1 Pro,始终是 Gemini 最显著的差异化优势:

  • 等效容量:约 75 万字中文 / 150 万字英文 / 3 万行代码
  • 视频处理:可处理长达 3 小时的视频内容
  • 长上下文可靠性:Gemini 3 Pro 在 128K 8-needle 检索测试中得分 77%,远超 Claude(47.1%)和 GPT(61.6%)
  • 实际应用:一次性分析整个中型代码库、处理完整法律合同、分析长篇研究论文

详见 百万 Token 上下文实战

5.3 原生多模态能力

Gemini 从架构层面就是多模态的,3 代模型在视觉理解上实现了质的飞跃:

能力Gemini 2.5 ProGemini 3 Pro竞品最佳
MMMU-Pro(图文推理)68.0%81.0%GPT-5.2: 76.0%
Video-MMMU(视频理解)83.6%87.6%GPT-5.2: 80.4%
ScreenSpot-Pro(屏幕理解)11.4%72.7%Claude: 36.2%
OCR(OmniDocBench)0.1450.115越低越好

详见 多模态能力实战

5.4 Agentic 能力生态

Gemini 3/3.1 Pro 提供了业界最丰富的 Agent 工具集:

能力说明引入版本状态
Function Calling结构化工具调用2.5 ProGA
Grounding with Google Search实时搜索增强2.5 ProGA
Grounding with Google Maps地理信息增强2.5 ProGA
Code Execution服务端代码执行2.5 ProGA
URL Context网页内容获取2.5 ProGA
Computer Use浏览器 GUI 控制3 ProGA
File Search文件检索3 ProGA
Deep Research Agent自主深度研究3 ProGA
Custom Tools EndpointAgentic 精确工具调用3.1 ProPreview
Agentic 编码(edit-then-test)自主编写、测试、修复代码3.1 ProPreview

5.5 Google 开发者生态

Gemini 3/3.1 时代,Google 构建了完整的 AI 开发工具链:

  • Google Antigravity:Agent-first IDE(基于 VS Code),支持多 Agent 协作编码,可自主操作编辑器、终端和浏览器
  • Gemini CLI:开源终端 AI 助手(GitHub 近 100K stars),集成到现有脚本和管线
  • Vertex AI:企业级部署,SLA 保障,合规支持
  • Google Workspace:直接在 Docs、Sheets、Gmail、Meet 中使用
  • Android Studio:移动开发原生集成
  • GitHub Copilot:Gemini 3.1 Pro 已作为可选模型集成

实战案例:用 Gemini 3.1 Pro 分析大型代码库

场景

一个包含 300+ 文件的 TypeScript 项目需要进行架构审查和重构建议。选择 Gemini 3.1 Pro 是因为其 1M 上下文窗口可以一次性容纳整个代码库,且 SWE-Bench 80.6% 的成绩保证了代码理解质量。

操作流程

import os from google import genai client = genai.Client(api_key=os.environ["GEMINI_API_KEY"]) # 1. 收集项目文件 project_files = [] for root, dirs, files in os.walk("./src"): for f in files: if f.endswith((".ts", ".tsx")): path = os.path.join(root, f) with open(path) as fh: project_files.append(f"// File: {path}\n{fh.read()}") codebase = "\n\n".join(project_files) # 2. 利用 Gemini 3.1 Pro 的深度推理一次性分析 response = client.models.generate_content( model="gemini-3.1-pro-preview", contents=f"""作为资深架构师,请分析以下 TypeScript 项目代码库: {codebase} 请提供: 1. 架构概览(组件关系图,用 Mermaid 格式) 2. 代码质量评估(命名、结构、复杂度) 3. 潜在问题和技术债务 4. 重构建议(按优先级排序) 5. 性能优化机会 """, config={"thinking_config": {"thinking_level": "HIGH"}} ) print(response.text)

案例分析

  • 为什么选 Gemini 3.1 Pro:300+ 文件的代码库可能超过 60 万 token,只有 Gemini 的 1M 上下文窗口能一次性容纳。3.1 Pro 的 ARC-AGI-2 得分 77.1% 意味着它能更好地理解从未见过的代码模式
  • 思考级别选择:架构分析是复杂推理任务,使用 HIGH 级别以获得最深入的分析
  • 成本估算:假设输入 60 万 token + 输出 8000 token,成本约 $1.20(输入)+ $0.096(输出)≈ $1.30,远低于人工审查成本
  • 对比 2.5 Pro:同样的任务在 2.5 Pro 上成本约 $0.83(输入更便宜),但 3.1 Pro 的推理质量显著更高,SWE-Bench 从 63.8% 提升到 80.6%

避坑指南

❌ 常见错误

  1. 盲目追新,忽视稳定性需求

    • 问题:Gemini 3.1 Pro 目前仍为 Preview 状态,可能存在延迟波动(首日测试有超过 100 秒的响应)
    • 正确做法:生产环境优先使用 GA 状态的 Gemini 3 Pro;对延迟敏感的场景用 Gemini 3 Flash
  2. 忽略 200K token 价格阶梯

    • 问题:当 prompt 超过 200K token 时,Gemini 3/3.1 Pro 的输入价格翻倍($2 → $4),输出也上涨($12 → $18)
    • 正确做法:使用上下文缓存(Context Caching)降低重复输入成本,缓存可节省高达 75%
  3. 所有任务都用 Pro

    • 问题:Gemini 3 Flash 在 SWE-Bench 上得分 78%,实际上超过了 3 Pro 的 76.2%,且价格仅为 1/4
    • 正确做法:日常编码任务优先用 Flash($0.50/$3.00),仅在需要深度推理时升级到 Pro
  4. 免费层用于生产环境

    • 问题:免费层有严格的速率限制,且数据会被用于改进产品
    • 正确做法:生产环境务必使用付费层,数据不会被用于模型训练
  5. 忽视 Grounding 搜索的额外费用

    • 问题:Grounding with Google Search 免费额度有限(Flash/Flash-Lite 共享 1500 RPD),超出后 $35/1000 次(Flash)或 $14/1000 次(3 Pro 专属定价)
    • 正确做法:监控 Grounding 调用量,非必要场景关闭 Grounding
  6. 忽略 Gemini 3.1 Pro 的专家任务短板

    • 问题:在 GDPval-AA(专家级办公任务)基准上,Claude Opus 4.6 以 1,606 Elo 大幅领先 Gemini 3.1 Pro 的 1,317 Elo
    • 正确做法:高风险的法律分析、金融建模、复杂长文写作等专家任务,仍应考虑 Claude Opus

✅ 最佳实践

  1. 分层模型策略:Flash 处理 80% 的日常任务,Pro 处理 15% 的复杂推理,3.1 Pro Preview 用于 5% 的前沿实验
  2. 善用上下文缓存:对重复使用的长上下文启用 Context Caching,最高可节省 75% 成本
  3. 批处理 API:非实时场景使用 Batch API 获得 50% 成本折扣
  4. 思考级别优化:简单任务用 Low,日常开发用 Medium,复杂推理用 High,避免为简单任务支付不必要的思考 token 费用
  5. 结合 Antigravity / Gemini CLI:利用 Google 的 Agent-first 工具链实现端到端的 Agentic 开发工作流

相关资源与延伸阅读

资源类型说明
Google AI Studio 在线工具免费试用所有 Gemini 模型,快速原型开发
Gemini API 官方文档 官方文档API 参考、SDK 指南、最佳实践
Gemini CLI GitHub 开源工具终端 AI 助手,支持脚本集成和自动化
Google Antigravity IDEAgent-first 开发环境,免费预览
Vertex AI Gemini 文档 企业文档企业级部署、安全、合规指南
Gemini 3.1 Pro Model Card 模型卡片官方能力说明和限制
Artificial Analysis: Gemini 评测 第三方评测独立基准测试和性能分析
Gemini API Pricing 定价页最新官方定价,持续更新

参考来源


📖 返回 总览与导航 | 上一节:Skill 设计模式与排错 | 下一节:百万 Token 上下文实战

Last updated on