01c - 核心概念扫盲
本文是《AI Agent 实战手册》第 1 章第 3 节。 上一节:2026 工具链全景图 | 下一节:12 种 Prompt 模式扫盲
概述
AI Agent 生态在 2025-2026 年快速膨胀,新概念层出不穷。本节系统梳理 20+ 个核心概念,给出简明定义、类比说明和概念间的关系图谱,帮助读者建立完整的认知框架,为后续章节的深入学习打下基础。
1. 概念速查表
下表按”从底层到上层”的逻辑排列,方便读者快速定位。
| # | 概念 | 英文 | 一句话定义 | 类比 |
|---|---|---|---|---|
| 1 | Agent | Agent | 能自主感知环境、做出决策并执行动作以达成目标的 AI 系统 | 一个能独立完成任务的数字员工 |
| 2 | Tool | Tool | Agent 可调用的外部能力单元(API、函数、命令行等) | Agent 工具箱里的螺丝刀、锤子 |
| 3 | MCP | Model Context Protocol | Anthropic 发布的开放协议,标准化 AI 模型与外部工具/数据源的连接方式 | AI 世界的 USB-C 接口 |
| 4 | A2A | Agent-to-Agent Protocol | Google 发布的开放标准,让不同 Agent 之间能发现、通信和协作 | Agent 之间的外交协议 |
| 5 | Skills | Skills | AI 编码助手的能力扩展模板,封装特定领域的知识和工作流 | 给 Agent 安装的”技能包” |
| 6 | RAG | Retrieval-Augmented Generation | 先从知识库检索相关信息,再交给 LLM 生成回答的技术 | 开卷考试——先查资料再答题 |
| 7 | Guardrails | Guardrails | 对 Agent 输入/输出施加的安全约束和质量控制机制 | 高速公路的护栏 |
| 8 | Agentic Loop | Agentic Loop | Agent 的核心执行循环:接收指令→推理规划→调用工具→观察结果→自我修正→输出 | 一个不断”想-做-看-改”的工作循环 |
| 9 | Context Engineering | Context Engineering | 通过精心组织项目文件、规则、工具连接和记忆来优化 AI 输出质量的方法论 | 给 AI 准备一份完美的工作简报 |
| 10 | Steering | Steering | 通过规则文件(如 CLAUDE.md、.cursorrules、Kiro Steering)引导 AI 行为的机制 | 给 AI 写的”员工手册” |
| 11 | Subagent | Subagent | 由主 Agent 派生的子任务执行者,拥有独立上下文和工具权限 | 主管分派给下属的专项任务 |
| 12 | Vector DB | Vector Database | 专门存储和检索向量嵌入的数据库,是 RAG 系统的核心存储层 | 一个能”按语义相似度”搜索的图书馆 |
| 13 | Embedding | Embedding | 将文本/图像等数据转换为高维向量表示的过程 | 把自然语言翻译成数学语言 |
| 14 | Fine-tuning | Fine-tuning | 在预训练模型基础上,用特定领域数据进一步训练以提升专项能力 | 通才医生进修成专科医生 |
| 15 | Prompt Chaining | Prompt Chaining | 将复杂任务拆分为多个 Prompt 步骤,前一步的输出作为后一步的输入 | 流水线作业——每站完成一道工序 |
| 16 | AgentOps | AgentOps | AI Agent 的可观测性、成本追踪和运维管理体系 | DevOps 的 AI Agent 版本 |
| 17 | Human-in-the-Loop | Human-in-the-Loop (HITL) | 在 Agent 自主执行过程中设置人工审批/确认节点的模式 | 自动驾驶中的人工接管按钮 |
| 18 | Metaprompt | Metaprompt | 用推理模型(如 o1、Claude)生成生产级 Prompt 的技术——“用 AI 写 Prompt” | 请一位资深编辑帮你写采访提纲 |
| 19 | PBT | Property-Based Testing | 基于属性的测试方法:定义”永远应该成立的规则”,自动生成大量随机输入验证 | 不是检查一道题的答案,而是验证解题公式本身是否正确 |
| 20 | Vibe Coding | Vibe Coding | 用自然语言描述意图,由 AI Agent 生成代码的开发方式(Andrej Karpathy 于 2025 年 2 月提出) | “说人话”写代码——你描述想要什么,AI 来实现 |
2. 核心概念详解
2.1 Agent(智能体)
Agent 是 2025-2026 年 AI 领域最核心的概念。与传统的聊天机器人不同,Agent 具备三个关键能力:
- 自主规划:能将复杂目标分解为可执行的步骤
- 工具使用:能调用外部 API、数据库、文件系统等工具
- 自我修正:能根据执行结果调整策略,处理错误和异常
典型的 Agent 产品包括 Claude Code、Cursor Agent Mode、Kiro、Devin 等。
2.2 Tool(工具)
Tool 是 Agent 与外部世界交互的接口。每个 Tool 通常包含:
- 名称和描述:告诉 Agent 这个工具能做什么
- 输入参数 Schema:定义调用时需要传入的参数
- 执行逻辑:实际完成操作的代码
常见 Tool 类型:文件读写、Shell 命令执行、Web 搜索、数据库查询、API 调用等。
2.3 MCP(Model Context Protocol)
MCP 是 Anthropic 于 2024 年 11 月发布的开放协议,旨在标准化 AI 模型与外部工具/数据源的连接方式。核心架构:
- Client-Server 模型:AI 应用(Client)通过 MCP 协议连接 MCP Server
- 三大原语:Tools(工具调用)、Resources(数据资源)、Prompts(提示模板)
- 传输层:支持 stdio、SSE、Streamable HTTP 三种传输方式
- JSON-RPC 2.0:底层消息格式
详见 MCP 概念入门
2.4 A2A(Agent-to-Agent Protocol)
A2A 是 Google 于 2025 年 4 月发布的开放标准,解决的是不同 Agent 之间如何发现和协作的问题。与 MCP 的关系:
- MCP = 纵向集成:连接 AI 模型与工具/数据源(Agent ↔ Tool)
- A2A = 横向协作:连接不同 Agent 之间的通信(Agent ↔ Agent)
A2A 的核心概念包括 Agent Card(Agent 的”名片”,描述能力和接口)、Task(协作任务的生命周期管理)和 Message(Agent 间的通信消息)。
详见 A2A 协议详解
2.5 Skills(技能)
Skills 是 AI 编码助手的能力扩展机制,本质上是一组结构化的指令和工作流模板。不同工具的 Skills 实现:
| 工具 | Skills 形式 | 存放位置 |
|---|---|---|
| Claude Code | Markdown 文件 | 项目根目录或 ~/.claude/ |
| Kiro | Skills 文件 + Steering | .kiro/skills/ |
| Cursor | Rules 文件 | .cursor/rules/ |
Skills 的层次关系:Tool(原子能力)→ MCP(标准化连接)→ Skills(领域知识封装)→ Subagent(自主执行单元)
2.6 RAG(检索增强生成)
RAG 解决了 LLM 的两大痛点:知识截止日期和幻觉问题。完整的 RAG 流水线:
文档摄入 → 分块(Chunking) → 嵌入(Embedding) → 存入 Vector DB
↓
用户提问 → 查询嵌入 → 相似度检索 → 取回相关片段 → LLM 生成回答关键组件:Embedding 模型(如 OpenAI text-embedding-3-small)、Vector DB(如 Pinecone、Qdrant)、检索策略(语义搜索、混合搜索、重排序)。
详见 RAG 概念与架构
2.7 Guardrails(护栏)
Guardrails 是确保 Agent 安全可控运行的约束机制,覆盖整个执行链路:
- 输入护栏:Prompt 注入检测、PII 过滤、内容分类
- 执行护栏:工具调用权限控制、沙箱隔离、超时限制
- 输出护栏:内容安全过滤、格式验证、事实核查
- 人工护栏:Human-in-the-Loop 审批节点
2.8 Agentic Loop(Agent 执行循环)
Agentic Loop 是 Agent 的核心运行机制,典型流程:
用户指令 → 推理规划 → 选择工具 → 执行工具 → 观察结果
↑ ↓
└──── 自我修正 ←── 结果不满意? ←────┘
↓ 满意
输出结果常见的循环模式包括:
- ReAct(Reasoning + Acting):交替进行推理和行动
- Plan-Act-Verify:先规划再执行再验证
- OODA(Observe-Orient-Decide-Act):军事决策循环的 AI 版本
2.9 Context Engineering(上下文工程)
Context Engineering 是 2025 年兴起的方法论,核心思想是:AI 输出质量取决于你给它的上下文质量。四大支柱:
- 项目文件:代码、文档、配置——AI 需要理解的项目信息
- 规则文件:CLAUDE.md、Steering、.cursorrules——行为引导
- 工具连接:MCP Server、API——AI 可调用的外部能力
- 记忆管理:会话历史、长期记忆——跨会话的知识积累
Context Engineering 与 Prompt Engineering 的区别:Prompt Engineering 关注”怎么问”,Context Engineering 关注”AI 看到什么”。后者的影响面更广、效果更持久。
详见 上下文工程方法论
2.10 Steering(行为引导)
Steering 是 Context Engineering 的核心实践之一,通过规则文件引导 AI 编码助手的行为。常见形式:
- CLAUDE.md:Claude Code 的项目级指令文件
- Kiro Steering:
.kiro/steering/目录下的引导规则 - .cursorrules:Cursor 的项目级规则文件
Steering 文件通常包含:编码规范、架构约束、技术栈偏好、禁止事项、工作流指引等。
详见 规则文件编写指南
2.11 Subagent(子智能体)
Subagent 是由主 Agent 派生的独立执行单元,用于并行处理子任务。关键特性:
- 隔离上下文:Subagent 拥有独立的上下文窗口,不会污染主 Agent
- 受限权限:可以限制 Subagent 可用的工具集
- 结果汇报:完成后将结果返回给主 Agent
典型场景:Claude Code 在执行复杂任务时,会自动派生 Subagent 处理独立的子任务(如搜索代码库、运行测试),主 Agent 负责协调和整合。
2.12 Vector DB(向量数据库)
Vector DB 是专门为存储和检索高维向量设计的数据库,是 RAG 系统的核心基础设施。
| 数据库 | 类型 | 价格 | 特点 |
|---|---|---|---|
| Pinecone | 云托管 | 免费起步,$70/月(Standard) | 全托管,开箱即用 |
| Qdrant | 开源/云 | 免费(开源),$25/月起(Cloud) | Rust 编写,高性能 |
| ChromaDB | 开源 | 免费 | 轻量级,适合原型 |
| pgvector | PostgreSQL 扩展 | 随 PostgreSQL | 无需额外基础设施 |
| Weaviate | 开源/云 | 免费(开源),按用量计费(Cloud) | 内置向量化模块 |
| Milvus | 开源/云 | 免费(开源),$65/月起(Zilliz Cloud) | 大规模生产级 |
详见 向量数据库对比
2.13 Embedding(嵌入)
Embedding 是将非结构化数据(文本、图像、音频)转换为固定维度的数值向量的过程。这些向量捕捉了数据的语义信息——语义相近的内容在向量空间中距离更近。
常用 Embedding 模型:
- OpenAI text-embedding-3-small:1536 维,$0.02/百万 token,性价比之选
- OpenAI text-embedding-3-large:3072 维,$0.13/百万 token,高精度场景
- Cohere embed-v4:多语言支持优秀
- 开源方案:BGE、E5、GTE 系列,可本地部署
2.14 Fine-tuning(微调)
Fine-tuning 是在预训练大模型基础上,用特定领域的数据集进一步训练,使模型在该领域表现更好。
何时需要 Fine-tuning:
- Prompt Engineering 和 RAG 都无法满足需求时
- 需要模型学习特定的输出格式或风格
- 需要降低推理成本(微调后可用更小的模型达到同等效果)
何时不需要:
- 大多数场景下,RAG + 好的 Prompt 就够了
- Fine-tuning 成本高、维护复杂,应作为最后手段
2.15 Prompt Chaining(提示链)
Prompt Chaining 将复杂任务拆分为多个顺序执行的 Prompt 步骤,每步的输出作为下一步的输入。三种模式:
- 顺序链:A → B → C,线性执行
- 条件分支:根据中间结果选择不同路径
- 并行扇出/扇入:同时执行多个子任务,汇总结果
[需求分析] → [架构设计] → [代码生成] → [测试生成] → [文档生成]
↓ 如果是前端
[组件拆分] → [样式生成]2.16 AgentOps(Agent 运维)
AgentOps 是专门针对 AI Agent 的可观测性和运维管理体系,与传统 APM(Application Performance Monitoring)的区别:
| 维度 | 传统 APM | AgentOps |
|---|---|---|
| 监控对象 | 请求延迟、错误率 | Token 消耗、推理质量、工具调用成功率 |
| 成本追踪 | 服务器资源 | 模型 API 调用费用 |
| 调试方式 | 日志、堆栈追踪 | Trace(完整的推理链路回放) |
| 质量指标 | 功能正确性 | 输出相关性、忠实度、安全性 |
主流 AgentOps 平台:LangSmith、Langfuse(开源可自托管)、Helicone、Braintrust、Arize Phoenix。
详见 AgentOps 概念
2.17 Human-in-the-Loop(人机协作)
HITL 是在 Agent 自主执行流程中设置人工审批节点的设计模式。适用场景:
- 高风险操作:删除数据、发送邮件、执行支付
- 不确定决策:Agent 置信度低时请求人工确认
- 合规要求:法规要求人工审批的场景
实现方式:工具调用前审批、输出发布前审核、定期人工抽检。
2.18 Metaprompt(元提示)
Metaprompt 是”用 AI 写 Prompt”的技术——将 Prompt 编写任务本身交给推理能力强的模型(如 Claude、o1)来完成。
工作流程:
- 任务分析:明确目标 Prompt 的用途和约束
- 元提示设计:编写指导 AI 生成 Prompt 的指令
- 推理模型执行:让强推理模型生成候选 Prompt
- 提取与验证:从输出中提取生产级 Prompt 并测试
2.19 PBT(基于属性的测试)
PBT 是一种测试方法论,核心思想是定义”永远应该成立的属性(Property)“,然后自动生成大量随机输入来验证这些属性是否成立。
与传统单元测试的对比:
| 维度 | 单元测试 | PBT |
|---|---|---|
| 输入 | 手动编写固定用例 | 自动生成随机输入 |
| 验证 | 检查特定输出值 | 验证通用属性是否成立 |
| 覆盖 | 有限的已知场景 | 广泛的输入空间探索 |
| 发现 Bug | 只能发现预想到的问题 | 能发现意想不到的边界情况 |
主流 PBT 框架:fast-check(TypeScript)、Hypothesis(Python)、QuickCheck(Haskell/Erlang)、proptest(Rust)。
详见 PBT 深度指南
2.20 Vibe Coding(氛围编程)
Vibe Coding 由 AI 研究者 Andrej Karpathy 于 2025 年 2 月提出,描述一种全新的开发方式:开发者用自然语言描述意图,AI Agent 负责生成代码实现。
Vibe Coding 的演进阶段:
- 初级(2025 初):单次 Prompt 生成代码,人工检查
- 中级(2025 中):多轮对话迭代,Agent 自主修复错误
- 高级(2026):Spec-Driven Agentic Engineering——结构化需求 + Agent 执行 + 人工审查
⚠️ 纯 Vibe Coding(不审查代码)适合原型和学习,生产项目建议采用 Spec-Driven 工作流。详见 Spec-Driven 工作流全景
3. 概念关系图
以下 Mermaid 图展示了 20 个核心概念之间的层次和关系:
图谱解读
- 从下到上:基础层提供数据能力,连接层提供标准化接口,能力层提供增强技术,架构层构建 Agent 系统,工程层提供方法论
- MCP 是枢纽:连接 Agent 与 Tool、Skills 的核心协议
- Context Engineering 是方法论:Steering 是其核心实践之一
- Guardrails + HITL 保安全:约束 Agentic Loop 的执行边界
- RAG 依赖 Embedding + Vector DB:三者构成知识检索的完整链路
4. 概念分组:按学习路径
如果你是初学者,建议按以下顺序学习这些概念:
第一组:入门必知(Day 1)
| 概念 | 为什么先学 |
|---|---|
| Agent | 一切的核心,理解什么是 AI Agent |
| Tool | Agent 的基本能力单元 |
| Agentic Loop | Agent 如何工作的核心机制 |
| Vibe Coding | 你即将采用的开发方式 |
第二组:工程实践(Week 1)
| 概念 | 为什么要学 |
|---|---|
| Context Engineering | 决定 AI 输出质量的关键方法论 |
| Steering | 最直接的 AI 行为控制手段 |
| Prompt Chaining | 处理复杂任务的基本模式 |
| Skills | 扩展 AI 助手能力的标准方式 |
| Guardrails | 确保 AI 安全可控 |
| Human-in-the-Loop | 关键节点的人工把关 |
第三组:架构进阶(Week 2-3)
| 概念 | 为什么要学 |
|---|---|
| MCP | 标准化工具连接,构建可扩展系统 |
| A2A | 多 Agent 协作的基础协议 |
| Subagent | 并行处理和任务分解 |
| Metaprompt | 系统化生成高质量 Prompt |
| PBT | 高质量测试保障 |
第四组:数据与知识(Week 3-4)
| 概念 | 为什么要学 |
|---|---|
| Embedding | 理解语义表示的基础 |
| Vector DB | RAG 系统的存储层 |
| RAG | 构建知识增强的 AI 应用 |
| Fine-tuning | 模型定制的最后手段 |
第五组:运维管理(持续)
| 概念 | 为什么要学 |
|---|---|
| AgentOps | 生产环境的 Agent 监控和成本管理 |
实战案例:概念串联——用 Agent 构建一个代码审查助手
以下案例展示如何将多个核心概念串联起来,构建一个实际的 AI 应用:
场景描述
构建一个自动代码审查 Agent,能够:
- 读取 PR 中的代码变更
- 根据团队编码规范进行审查
- 给出改进建议
涉及的概念
1. Agent → 代码审查 Agent 本体
2. Tool → GitHub API(读取 PR)、文件系统(读取规范)
3. MCP → 通过 MCP Server 连接 GitHub
4. Steering → 团队编码规范写入 Steering 文件
5. Context Eng. → 精心组织代码上下文和规范文档
6. RAG → 从团队知识库检索相关的历史审查意见
7. Agentic Loop → 逐文件审查 → 生成建议 → 自检 → 输出
8. Guardrails → 限制 Agent 只能读取不能修改代码
9. HITL → 严重问题标记为需人工确认
10. AgentOps → 追踪审查质量和 Token 消耗架构简图
开发者提交 PR
↓
[GitHub MCP Server] ← Tool + MCP
↓
[代码审查 Agent] ← Agent + Agentic Loop
├── 读取 Steering 规则 ← Steering + Context Eng.
├── 检索历史审查意见 ← RAG + Vector DB + Embedding
├── 逐文件分析 + 生成建议
├── 安全检查 ← Guardrails
└── 严重问题 → 人工确认 ← HITL
↓
输出审查报告 → AgentOps 记录避坑指南
❌ 常见错误
-
把 Agent 当聊天机器人用
- 问题:只用 Agent 做问答,没有利用其工具调用和自主规划能力
- 正确做法:给 Agent 配置合适的 Tool 和 MCP 连接,让它真正”动手做事”
-
忽视 Context Engineering,只关注 Prompt
- 问题:花大量时间优化单条 Prompt,却不管 AI 看到的项目上下文
- 正确做法:先写好 Steering 文件和项目文档,再优化具体 Prompt
-
不设 Guardrails 就上生产
- 问题:Agent 在生产环境中执行了不可逆的危险操作
- 正确做法:始终为生产 Agent 配置权限控制、输出过滤和 HITL 审批
-
RAG 和 Fine-tuning 搞混
- 问题:想让模型了解公司内部知识就去做 Fine-tuning,成本高效果差
- 正确做法:90% 的场景用 RAG 就够了,Fine-tuning 是最后手段
-
忽略 AgentOps
- 问题:Agent 上线后不监控,月底收到天价账单才发现 Token 浪费
- 正确做法:从第一天就接入 AgentOps 平台,设置成本告警
✅ 最佳实践
- 先理解概念层次(Tool → MCP → Skills → Agent),再动手构建
- 从单 Agent + 少量 Tool 开始,逐步增加复杂度
- Steering 文件是投入产出比最高的 Context Engineering 实践,优先编写
- 每个 Agent 都应该有明确的 Guardrails 边界
- 用 AgentOps 持续监控 Agent 的质量和成本
相关资源与延伸阅读
协议与标准
- Model Context Protocol 官方规范 — MCP 协议的官方文档和规范,理解 AI Agent 连接外部工具的标准
- Agent2Agent Protocol (A2A) — Google 推出的 Agent 间通信协议,与 MCP 互补
- Awesome MCP Servers — 最全面的 MCP Server 目录,按类别分类的数百个实现
学习资源
- LangChain Academy — 免费的 AI Agent 开发课程,涵盖 Tool Calling、Agent 架构等核心概念
- Anthropic Cookbook — Anthropic 官方示例集,包含 Tool Use、Agent 模式等实战代码
- DeepLearning.AI Short Courses — Andrew Ng 团队的免费短课程,多门涉及 AI Agent 开发
社区与讨论
- r/LocalLLaMA — 本地 LLM 社区,讨论开源模型和 Agent 框架
- AI Agent Frameworks Comparison — Firecrawl — 开源 AI Agent 框架全面对比
- MCP Index — MCP Server 搜索引擎,快速发现可用的 MCP 集成
实践工具
参考来源
- MCP vs A2A: The Complete Guide to AI Agent Protocols in 2026 (2025-11)
- Context Engineering for Coding Agents - Martin Fowler (2025-12)
- A developer’s guide to MCP, A2A, and ACP - Educative (2025-10)
- What Is Vibe Coding? Definition, Origin & 2026 Guide (2025-12)
- Context Engineering for AI Coding 101 - Packmind (2025-12)
- From Vibe Coding to Agentic Engineering - TeamDay (2025-12)
- Property-Based Testing in Rust - LambdaClass (2025-08)
- AI Agent Protocols 2026 - Ruh.ai (2026-01)
📖 返回 总览与导航 | 上一节:2026 工具链全景图 | 下一节:12 种 Prompt 模式扫盲