Skip to Content

01c - 核心概念扫盲

本文是《AI Agent 实战手册》第 1 章第 3 节。 上一节:2026 工具链全景图 | 下一节:12 种 Prompt 模式扫盲

概述

AI Agent 生态在 2025-2026 年快速膨胀,新概念层出不穷。本节系统梳理 20+ 个核心概念,给出简明定义、类比说明和概念间的关系图谱,帮助读者建立完整的认知框架,为后续章节的深入学习打下基础。


1. 概念速查表

下表按”从底层到上层”的逻辑排列,方便读者快速定位。

#概念英文一句话定义类比
1AgentAgent能自主感知环境、做出决策并执行动作以达成目标的 AI 系统一个能独立完成任务的数字员工
2ToolToolAgent 可调用的外部能力单元(API、函数、命令行等)Agent 工具箱里的螺丝刀、锤子
3MCPModel Context ProtocolAnthropic 发布的开放协议,标准化 AI 模型与外部工具/数据源的连接方式AI 世界的 USB-C 接口
4A2AAgent-to-Agent ProtocolGoogle 发布的开放标准,让不同 Agent 之间能发现、通信和协作Agent 之间的外交协议
5SkillsSkillsAI 编码助手的能力扩展模板,封装特定领域的知识和工作流给 Agent 安装的”技能包”
6RAGRetrieval-Augmented Generation先从知识库检索相关信息,再交给 LLM 生成回答的技术开卷考试——先查资料再答题
7GuardrailsGuardrails对 Agent 输入/输出施加的安全约束和质量控制机制高速公路的护栏
8Agentic LoopAgentic LoopAgent 的核心执行循环:接收指令→推理规划→调用工具→观察结果→自我修正→输出一个不断”想-做-看-改”的工作循环
9Context EngineeringContext Engineering通过精心组织项目文件、规则、工具连接和记忆来优化 AI 输出质量的方法论给 AI 准备一份完美的工作简报
10SteeringSteering通过规则文件(如 CLAUDE.md、.cursorrules、Kiro Steering)引导 AI 行为的机制给 AI 写的”员工手册”
11SubagentSubagent由主 Agent 派生的子任务执行者,拥有独立上下文和工具权限主管分派给下属的专项任务
12Vector DBVector Database专门存储和检索向量嵌入的数据库,是 RAG 系统的核心存储层一个能”按语义相似度”搜索的图书馆
13EmbeddingEmbedding将文本/图像等数据转换为高维向量表示的过程把自然语言翻译成数学语言
14Fine-tuningFine-tuning在预训练模型基础上,用特定领域数据进一步训练以提升专项能力通才医生进修成专科医生
15Prompt ChainingPrompt Chaining将复杂任务拆分为多个 Prompt 步骤,前一步的输出作为后一步的输入流水线作业——每站完成一道工序
16AgentOpsAgentOpsAI Agent 的可观测性、成本追踪和运维管理体系DevOps 的 AI Agent 版本
17Human-in-the-LoopHuman-in-the-Loop (HITL)在 Agent 自主执行过程中设置人工审批/确认节点的模式自动驾驶中的人工接管按钮
18MetapromptMetaprompt用推理模型(如 o1、Claude)生成生产级 Prompt 的技术——“用 AI 写 Prompt”请一位资深编辑帮你写采访提纲
19PBTProperty-Based Testing基于属性的测试方法:定义”永远应该成立的规则”,自动生成大量随机输入验证不是检查一道题的答案,而是验证解题公式本身是否正确
20Vibe CodingVibe Coding用自然语言描述意图,由 AI Agent 生成代码的开发方式(Andrej Karpathy 于 2025 年 2 月提出)“说人话”写代码——你描述想要什么,AI 来实现

2. 核心概念详解

2.1 Agent(智能体)

Agent 是 2025-2026 年 AI 领域最核心的概念。与传统的聊天机器人不同,Agent 具备三个关键能力:

  • 自主规划:能将复杂目标分解为可执行的步骤
  • 工具使用:能调用外部 API、数据库、文件系统等工具
  • 自我修正:能根据执行结果调整策略,处理错误和异常

典型的 Agent 产品包括 Claude Code、Cursor Agent Mode、Kiro、Devin 等。

2.2 Tool(工具)

Tool 是 Agent 与外部世界交互的接口。每个 Tool 通常包含:

  • 名称和描述:告诉 Agent 这个工具能做什么
  • 输入参数 Schema:定义调用时需要传入的参数
  • 执行逻辑:实际完成操作的代码

常见 Tool 类型:文件读写、Shell 命令执行、Web 搜索、数据库查询、API 调用等。

2.3 MCP(Model Context Protocol)

MCP 是 Anthropic 于 2024 年 11 月发布的开放协议,旨在标准化 AI 模型与外部工具/数据源的连接方式。核心架构:

  • Client-Server 模型:AI 应用(Client)通过 MCP 协议连接 MCP Server
  • 三大原语:Tools(工具调用)、Resources(数据资源)、Prompts(提示模板)
  • 传输层:支持 stdio、SSE、Streamable HTTP 三种传输方式
  • JSON-RPC 2.0:底层消息格式

详见 MCP 概念入门

2.4 A2A(Agent-to-Agent Protocol)

A2A 是 Google 于 2025 年 4 月发布的开放标准,解决的是不同 Agent 之间如何发现和协作的问题。与 MCP 的关系:

  • MCP = 纵向集成:连接 AI 模型与工具/数据源(Agent ↔ Tool)
  • A2A = 横向协作:连接不同 Agent 之间的通信(Agent ↔ Agent)

A2A 的核心概念包括 Agent Card(Agent 的”名片”,描述能力和接口)、Task(协作任务的生命周期管理)和 Message(Agent 间的通信消息)。

详见 A2A 协议详解

2.5 Skills(技能)

Skills 是 AI 编码助手的能力扩展机制,本质上是一组结构化的指令和工作流模板。不同工具的 Skills 实现:

工具Skills 形式存放位置
Claude CodeMarkdown 文件项目根目录或 ~/.claude/
KiroSkills 文件 + Steering.kiro/skills/
CursorRules 文件.cursor/rules/

Skills 的层次关系:Tool(原子能力)→ MCP(标准化连接)→ Skills(领域知识封装)→ Subagent(自主执行单元)

详见 工具到 Skills 的概念层次

2.6 RAG(检索增强生成)

RAG 解决了 LLM 的两大痛点:知识截止日期和幻觉问题。完整的 RAG 流水线:

文档摄入 → 分块(Chunking) → 嵌入(Embedding) → 存入 Vector DB 用户提问 → 查询嵌入 → 相似度检索 → 取回相关片段 → LLM 生成回答

关键组件:Embedding 模型(如 OpenAI text-embedding-3-small)、Vector DB(如 Pinecone、Qdrant)、检索策略(语义搜索、混合搜索、重排序)。

详见 RAG 概念与架构

2.7 Guardrails(护栏)

Guardrails 是确保 Agent 安全可控运行的约束机制,覆盖整个执行链路:

  • 输入护栏:Prompt 注入检测、PII 过滤、内容分类
  • 执行护栏:工具调用权限控制、沙箱隔离、超时限制
  • 输出护栏:内容安全过滤、格式验证、事实核查
  • 人工护栏:Human-in-the-Loop 审批节点

详见 Guardrails 实现

2.8 Agentic Loop(Agent 执行循环)

Agentic Loop 是 Agent 的核心运行机制,典型流程:

用户指令 → 推理规划 → 选择工具 → 执行工具 → 观察结果 ↑ ↓ └──── 自我修正 ←── 结果不满意? ←────┘ ↓ 满意 输出结果

常见的循环模式包括:

  • ReAct(Reasoning + Acting):交替进行推理和行动
  • Plan-Act-Verify:先规划再执行再验证
  • OODA(Observe-Orient-Decide-Act):军事决策循环的 AI 版本

详见 核心 Agent 循环模式

2.9 Context Engineering(上下文工程)

Context Engineering 是 2025 年兴起的方法论,核心思想是:AI 输出质量取决于你给它的上下文质量。四大支柱:

  1. 项目文件:代码、文档、配置——AI 需要理解的项目信息
  2. 规则文件:CLAUDE.md、Steering、.cursorrules——行为引导
  3. 工具连接:MCP Server、API——AI 可调用的外部能力
  4. 记忆管理:会话历史、长期记忆——跨会话的知识积累

Context Engineering 与 Prompt Engineering 的区别:Prompt Engineering 关注”怎么问”,Context Engineering 关注”AI 看到什么”。后者的影响面更广、效果更持久。

详见 上下文工程方法论

2.10 Steering(行为引导)

Steering 是 Context Engineering 的核心实践之一,通过规则文件引导 AI 编码助手的行为。常见形式:

  • CLAUDE.md:Claude Code 的项目级指令文件
  • Kiro Steering.kiro/steering/ 目录下的引导规则
  • .cursorrules:Cursor 的项目级规则文件

Steering 文件通常包含:编码规范、架构约束、技术栈偏好、禁止事项、工作流指引等。

详见 规则文件编写指南

2.11 Subagent(子智能体)

Subagent 是由主 Agent 派生的独立执行单元,用于并行处理子任务。关键特性:

  • 隔离上下文:Subagent 拥有独立的上下文窗口,不会污染主 Agent
  • 受限权限:可以限制 Subagent 可用的工具集
  • 结果汇报:完成后将结果返回给主 Agent

典型场景:Claude Code 在执行复杂任务时,会自动派生 Subagent 处理独立的子任务(如搜索代码库、运行测试),主 Agent 负责协调和整合。

2.12 Vector DB(向量数据库)

Vector DB 是专门为存储和检索高维向量设计的数据库,是 RAG 系统的核心基础设施。

数据库类型价格特点
Pinecone云托管免费起步,$70/月(Standard)全托管,开箱即用
Qdrant开源/云免费(开源),$25/月起(Cloud)Rust 编写,高性能
ChromaDB开源免费轻量级,适合原型
pgvectorPostgreSQL 扩展随 PostgreSQL无需额外基础设施
Weaviate开源/云免费(开源),按用量计费(Cloud)内置向量化模块
Milvus开源/云免费(开源),$65/月起(Zilliz Cloud)大规模生产级

详见 向量数据库对比

2.13 Embedding(嵌入)

Embedding 是将非结构化数据(文本、图像、音频)转换为固定维度的数值向量的过程。这些向量捕捉了数据的语义信息——语义相近的内容在向量空间中距离更近。

常用 Embedding 模型:

  • OpenAI text-embedding-3-small:1536 维,$0.02/百万 token,性价比之选
  • OpenAI text-embedding-3-large:3072 维,$0.13/百万 token,高精度场景
  • Cohere embed-v4:多语言支持优秀
  • 开源方案:BGE、E5、GTE 系列,可本地部署

2.14 Fine-tuning(微调)

Fine-tuning 是在预训练大模型基础上,用特定领域的数据集进一步训练,使模型在该领域表现更好。

何时需要 Fine-tuning:

  • Prompt Engineering 和 RAG 都无法满足需求时
  • 需要模型学习特定的输出格式或风格
  • 需要降低推理成本(微调后可用更小的模型达到同等效果)

何时不需要:

  • 大多数场景下,RAG + 好的 Prompt 就够了
  • Fine-tuning 成本高、维护复杂,应作为最后手段

2.15 Prompt Chaining(提示链)

Prompt Chaining 将复杂任务拆分为多个顺序执行的 Prompt 步骤,每步的输出作为下一步的输入。三种模式:

  • 顺序链:A → B → C,线性执行
  • 条件分支:根据中间结果选择不同路径
  • 并行扇出/扇入:同时执行多个子任务,汇总结果
[需求分析] → [架构设计] → [代码生成] → [测试生成] → [文档生成] ↓ 如果是前端 [组件拆分] → [样式生成]

详见 Prompt 链与动态组装

2.16 AgentOps(Agent 运维)

AgentOps 是专门针对 AI Agent 的可观测性和运维管理体系,与传统 APM(Application Performance Monitoring)的区别:

维度传统 APMAgentOps
监控对象请求延迟、错误率Token 消耗、推理质量、工具调用成功率
成本追踪服务器资源模型 API 调用费用
调试方式日志、堆栈追踪Trace(完整的推理链路回放)
质量指标功能正确性输出相关性、忠实度、安全性

主流 AgentOps 平台:LangSmith、Langfuse(开源可自托管)、Helicone、Braintrust、Arize Phoenix。

详见 AgentOps 概念

2.17 Human-in-the-Loop(人机协作)

HITL 是在 Agent 自主执行流程中设置人工审批节点的设计模式。适用场景:

  • 高风险操作:删除数据、发送邮件、执行支付
  • 不确定决策:Agent 置信度低时请求人工确认
  • 合规要求:法规要求人工审批的场景

实现方式:工具调用前审批、输出发布前审核、定期人工抽检。

2.18 Metaprompt(元提示)

Metaprompt 是”用 AI 写 Prompt”的技术——将 Prompt 编写任务本身交给推理能力强的模型(如 Claude、o1)来完成。

工作流程:

  1. 任务分析:明确目标 Prompt 的用途和约束
  2. 元提示设计:编写指导 AI 生成 Prompt 的指令
  3. 推理模型执行:让强推理模型生成候选 Prompt
  4. 提取与验证:从输出中提取生产级 Prompt 并测试

详见 Metaprompt 概念与动机

2.19 PBT(基于属性的测试)

PBT 是一种测试方法论,核心思想是定义”永远应该成立的属性(Property)“,然后自动生成大量随机输入来验证这些属性是否成立。

与传统单元测试的对比:

维度单元测试PBT
输入手动编写固定用例自动生成随机输入
验证检查特定输出值验证通用属性是否成立
覆盖有限的已知场景广泛的输入空间探索
发现 Bug只能发现预想到的问题能发现意想不到的边界情况

主流 PBT 框架:fast-check(TypeScript)、Hypothesis(Python)、QuickCheck(Haskell/Erlang)、proptest(Rust)。

详见 PBT 深度指南

2.20 Vibe Coding(氛围编程)

Vibe Coding 由 AI 研究者 Andrej Karpathy 于 2025 年 2 月提出,描述一种全新的开发方式:开发者用自然语言描述意图,AI Agent 负责生成代码实现。

Vibe Coding 的演进阶段:

  • 初级(2025 初):单次 Prompt 生成代码,人工检查
  • 中级(2025 中):多轮对话迭代,Agent 自主修复错误
  • 高级(2026):Spec-Driven Agentic Engineering——结构化需求 + Agent 执行 + 人工审查

⚠️ 纯 Vibe Coding(不审查代码)适合原型和学习,生产项目建议采用 Spec-Driven 工作流。详见 Spec-Driven 工作流全景


3. 概念关系图

以下 Mermaid 图展示了 20 个核心概念之间的层次和关系:

图谱解读

  1. 从下到上:基础层提供数据能力,连接层提供标准化接口,能力层提供增强技术,架构层构建 Agent 系统,工程层提供方法论
  2. MCP 是枢纽:连接 Agent 与 Tool、Skills 的核心协议
  3. Context Engineering 是方法论:Steering 是其核心实践之一
  4. Guardrails + HITL 保安全:约束 Agentic Loop 的执行边界
  5. RAG 依赖 Embedding + Vector DB:三者构成知识检索的完整链路

4. 概念分组:按学习路径

如果你是初学者,建议按以下顺序学习这些概念:

第一组:入门必知(Day 1)

概念为什么先学
Agent一切的核心,理解什么是 AI Agent
ToolAgent 的基本能力单元
Agentic LoopAgent 如何工作的核心机制
Vibe Coding你即将采用的开发方式

第二组:工程实践(Week 1)

概念为什么要学
Context Engineering决定 AI 输出质量的关键方法论
Steering最直接的 AI 行为控制手段
Prompt Chaining处理复杂任务的基本模式
Skills扩展 AI 助手能力的标准方式
Guardrails确保 AI 安全可控
Human-in-the-Loop关键节点的人工把关

第三组:架构进阶(Week 2-3)

概念为什么要学
MCP标准化工具连接,构建可扩展系统
A2A多 Agent 协作的基础协议
Subagent并行处理和任务分解
Metaprompt系统化生成高质量 Prompt
PBT高质量测试保障

第四组:数据与知识(Week 3-4)

概念为什么要学
Embedding理解语义表示的基础
Vector DBRAG 系统的存储层
RAG构建知识增强的 AI 应用
Fine-tuning模型定制的最后手段

第五组:运维管理(持续)

概念为什么要学
AgentOps生产环境的 Agent 监控和成本管理

实战案例:概念串联——用 Agent 构建一个代码审查助手

以下案例展示如何将多个核心概念串联起来,构建一个实际的 AI 应用:

场景描述

构建一个自动代码审查 Agent,能够:

  • 读取 PR 中的代码变更
  • 根据团队编码规范进行审查
  • 给出改进建议

涉及的概念

1. Agent → 代码审查 Agent 本体 2. Tool → GitHub API(读取 PR)、文件系统(读取规范) 3. MCP → 通过 MCP Server 连接 GitHub 4. Steering → 团队编码规范写入 Steering 文件 5. Context Eng. → 精心组织代码上下文和规范文档 6. RAG → 从团队知识库检索相关的历史审查意见 7. Agentic Loop → 逐文件审查 → 生成建议 → 自检 → 输出 8. Guardrails → 限制 Agent 只能读取不能修改代码 9. HITL → 严重问题标记为需人工确认 10. AgentOps → 追踪审查质量和 Token 消耗

架构简图

开发者提交 PR [GitHub MCP Server] ← Tool + MCP [代码审查 Agent] ← Agent + Agentic Loop ├── 读取 Steering 规则 ← Steering + Context Eng. ├── 检索历史审查意见 ← RAG + Vector DB + Embedding ├── 逐文件分析 + 生成建议 ├── 安全检查 ← Guardrails └── 严重问题 → 人工确认 ← HITL 输出审查报告 → AgentOps 记录

避坑指南

❌ 常见错误

  1. 把 Agent 当聊天机器人用

    • 问题:只用 Agent 做问答,没有利用其工具调用和自主规划能力
    • 正确做法:给 Agent 配置合适的 Tool 和 MCP 连接,让它真正”动手做事”
  2. 忽视 Context Engineering,只关注 Prompt

    • 问题:花大量时间优化单条 Prompt,却不管 AI 看到的项目上下文
    • 正确做法:先写好 Steering 文件和项目文档,再优化具体 Prompt
  3. 不设 Guardrails 就上生产

    • 问题:Agent 在生产环境中执行了不可逆的危险操作
    • 正确做法:始终为生产 Agent 配置权限控制、输出过滤和 HITL 审批
  4. RAG 和 Fine-tuning 搞混

    • 问题:想让模型了解公司内部知识就去做 Fine-tuning,成本高效果差
    • 正确做法:90% 的场景用 RAG 就够了,Fine-tuning 是最后手段
  5. 忽略 AgentOps

    • 问题:Agent 上线后不监控,月底收到天价账单才发现 Token 浪费
    • 正确做法:从第一天就接入 AgentOps 平台,设置成本告警

✅ 最佳实践

  1. 先理解概念层次(Tool → MCP → Skills → Agent),再动手构建
  2. 从单 Agent + 少量 Tool 开始,逐步增加复杂度
  3. Steering 文件是投入产出比最高的 Context Engineering 实践,优先编写
  4. 每个 Agent 都应该有明确的 Guardrails 边界
  5. 用 AgentOps 持续监控 Agent 的质量和成本

相关资源与延伸阅读

协议与标准

学习资源

社区与讨论

实践工具

  • LangSmith  — Agent 调试和监控平台,追踪 Agent 执行链路
  • Langfuse  — 开源的 LLM 可观测性平台,监控 Agent 质量和成本

参考来源


📖 返回 总览与导航 | 上一节:2026 工具链全景图 | 下一节:12 种 Prompt 模式扫盲

Last updated on