21a - AgentOps 概念：AI Agent 的可观测性与运维

本文是《AI Agent 实战手册》第 21 章第 1 节。上一节：20d-AI数据分析与报告 | 下一节：21b-可观测性平台对比

⏱ 阅读时间：45 分钟 | 难度：⭐⭐⭐ 中级 | 前置知识：AI Agent 基础概念、基本运维经验

概述

AgentOps 是专门针对 AI Agent 系统的可观测性、成本追踪和运维管理体系。随着 AI Agent 从原型走向生产环境，传统的 APM（Application Performance Monitoring）工具已无法满足 Agent 系统的监控需求——非确定性行为、Token 成本追踪、幻觉检测、推理链路分析等都需要专门的工具和方法论。本节将系统讲解 AgentOps 的核心概念、与传统 APM 的关键区别，以及为什么 AI Agent 需要专门的监控工具。

1. 什么是 AgentOps

1.1 定义

AgentOps（Agent Operations）是 DevOps 理念在 AI Agent 领域的延伸和专业化。它覆盖 Agent 的整个生命周期——从开发调试、测试评估到生产监控、成本优化，提供端到端的可观测性和运维管理能力。

与传统软件运维不同，AgentOps 需要关注的不仅是”系统是否在运行”，更要回答”Agent 是否在正确地运行”——它的推理是否合理？输出是否可靠？成本是否可控？

1.2 为什么 AgentOps 至关重要

根据行业数据，2025 年已有超过 85% 的组织在至少一个工作流中集成了 AI Agent，但约 88% 的 AI 项目仍未能成功投入生产，主要原因包括：

调试困难：Agent 的多步推理链路难以追踪和复现
成本失控：Token 消耗无法归因到具体的 Agent、工作流或用户
质量不可见：输出质量缺乏系统化的评估和监控机制
合规盲区：Agent 的决策过程缺乏审计追踪

1.3 AgentOps 的核心能力


┌─────────────────────────────────────────────────────────┐
│                    AgentOps 核心能力                      │
├─────────────┬─────────────┬──────────────┬──────────────┤
│   可观测性   │   成本管理   │   质量保证    │   合规审计   │
├─────────────┼─────────────┼──────────────┼──────────────┤
│ • 分布式追踪 │ • Token 计量 │ • 幻觉检测   │ • 决策日志   │
│ • 推理链可视 │ • 成本归因   │ • 输出评估   │ • 操作审计   │
│ • 工具调用   │ • 预算告警   │ • 漂移检测   │ • 数据溯源   │
│   成功率监控 │ • 模型路由   │ • A/B 测试   │ • 合规报告   │
│ • 会话回放   │ • 缓存优化   │ • 用户反馈   │ • 权限追踪   │
└─────────────┴─────────────┴──────────────┴──────────────┘

2. AgentOps vs 传统 APM：关键区别

2.1 对比总览

维度	传统 APM（Datadog/New Relic）	AgentOps（LangSmith/Langfuse）
监控对象	请求延迟、错误率、吞吐量	Token 消耗、推理质量、工具调用成功率
行为模型	确定性——相同输入产生相同输出	非确定性——相同输入可能产生不同输出
追踪粒度	HTTP 请求 → 服务 → 数据库	Prompt → 推理步骤 → 工具调用 → 输出
成本模型	按计算资源（CPU/内存/带宽）	按 Token 消耗（输入/输出/缓存）
质量指标	功能正确性（200/500 状态码）	输出相关性、忠实度、安全性、有用性
故障模式	崩溃、超时、错误码	幻觉、推理偏差、工具误用、循环卡死
调试方式	日志 + 堆栈追踪	推理链回放 + Prompt 对比 + 评估分数
告警触发	错误率 > 阈值、延迟 > SLA	幻觉率上升、成本异常、满意度下降
数据保留	结构化指标和日志	完整的 Prompt/Response 对 + 中间步骤

2.2 为什么传统 APM 不够用

传统 APM 工具（如 Datadog、New Relic、Prometheus）在监控 AI Agent 时存在根本性的局限：

1. 无法捕获推理过程

传统 APM 只能看到”请求进来了，响应出去了”，但 Agent 的核心价值在于中间的推理过程。一个 Agent 可能经历了 5 次工具调用、3 次自我修正、2 次重新规划，这些关键步骤在传统 APM 中完全不可见。

2. 缺乏语义级别的质量评估

传统 APM 判断”成功”的标准是 HTTP 200，但 Agent 返回 200 并不意味着输出是正确的。Agent 可能自信地返回了一个完全错误的答案（幻觉），传统 APM 无法检测这种”静默失败”。

3. 成本模型完全不同

传统应用的成本与计算资源（CPU、内存）线性相关，而 Agent 的成本与 Token 消耗相关——一个看似简单的查询可能因为 Agent 进入推理循环而消耗数万 Token。传统 APM 无法追踪这种成本模式。

4. 非确定性行为无法用传统方法调试

传统软件的 bug 是可复现的——给定相同输入，总能得到相同的错误输出。但 Agent 的行为是非确定性的，同一个 Prompt 在不同时间可能产生不同结果，需要统计级别的监控而非单次断言。

3. 为什么 AI Agent 需要专门的监控工具

3.1 非确定性行为

AI Agent 基于 LLM 的概率推理，即使输入完全相同，输出也可能不同。这意味着：

传统的”预期输出 vs 实际输出”测试方法不再适用
需要基于统计分布的质量监控（如：幻觉率从 2% 上升到 8%）
需要大量样本的评估而非单次断言


传统软件：input → deterministic function → predictable output
AI Agent：input → LLM reasoning (temperature, context) → variable output
                    ↓
              需要统计级监控，而非单次断言

3.2 Token 成本追踪

Token 是 AI Agent 的”燃料”，也是最大的运营成本来源。AgentOps 需要：

实时计量：每次 LLM 调用的输入/输出 Token 数
成本归因：将 Token 消耗归因到具体的 Agent、用户、工作流
预算控制：设置 Token 预算上限，超限自动降级或告警
优化建议：识别 Token 浪费模式（如过长的系统 Prompt、不必要的重试）


# AgentOps 成本追踪示例（概念代码）
@track_cost
def agent_workflow(user_query: str):
    # 每次 LLM 调用自动记录 Token 消耗
    plan = llm.plan(user_query)          # 输入: 500 tokens, 输出: 200 tokens
    result = llm.execute(plan)           # 输入: 800 tokens, 输出: 1500 tokens
    verified = llm.verify(result)        # 输入: 2000 tokens, 输出: 100 tokens
    
    # AgentOps 自动汇总：
    # 总 Token: 5,100 | 总成本: $0.015 | 归因: user_123 / workflow_research

3.3 幻觉监控

幻觉（Hallucination）是 AI Agent 最危险的故障模式——Agent 自信地输出错误信息，且没有任何错误码或异常。AgentOps 需要：

事实性检查：将 Agent 输出与已知事实或检索到的文档进行对比
一致性检测：检查同一问题多次回答的一致性
引用验证：验证 Agent 引用的来源是否真实存在
置信度追踪：监控 Agent 输出的置信度分布变化

3.4 工具调用成功率

AI Agent 通过调用外部工具（API、数据库、文件系统）来完成任务。AgentOps 需要监控：

指标	说明	告警阈值示例
工具调用成功率	工具调用返回预期结果的比例	< 95%
工具选择准确率	Agent 选择了正确工具的比例	< 90%
工具调用延迟	从发起调用到获得结果的时间	P95 > 5s
工具重试率	需要重试才能成功的调用比例	> 10%
工具参数错误率	传递了错误参数的调用比例	> 5%

3.5 推理链路分析（Reasoning Trace）

Agent 的推理过程是一条多步骤的链路，AgentOps 需要完整记录和可视化：


用户查询: "帮我分析上周的销售数据并生成报告"
    │
    ├── Step 1: 规划 (Planning)
    │   └── 决策: 需要查询数据库 → 分析数据 → 生成图表 → 撰写报告
    │
    ├── Step 2: 工具调用 - SQL 查询
    │   ├── 工具: database_query
    │   ├── 参数: SELECT * FROM sales WHERE date >= '2025-07-01'
    │   ├── 结果: 1,247 行数据
    │   └── 耗时: 1.2s | Token: 350
    │
    ├── Step 3: 数据分析
    │   ├── LLM 调用: 分析销售趋势
    │   ├── 结果: 识别出 3 个关键趋势
    │   └── 耗时: 3.5s | Token: 2,100
    │
    ├── Step 4: 自我修正 ⚠️
    │   ├── 发现: 图表数据与原始数据不一致
    │   ├── 动作: 重新计算
    │   └── 耗时: 2.1s | Token: 800
    │
    └── Step 5: 生成报告
        ├── 输出: Markdown 格式报告
        └── 耗时: 4.2s | Token: 3,500
    
    总计: 11.0s | 6,750 tokens | $0.020 | 成功

3.6 合规与审计需求

在受监管行业（金融、医疗、法律），AI Agent 的每一个决策都需要可追溯：

决策日志：记录 Agent 为什么选择了某个工具或某个回答
数据溯源：追踪 Agent 使用了哪些数据源
操作审计：记录 Agent 执行的所有操作（特别是写操作）
合规报告：自动生成符合 GDPR、SOC 2、HIPAA 等标准的审计报告

4. AgentOps 核心指标体系

4.1 性能指标

指标	定义	计算方式	目标值
TTFT（Time to First Token）	从请求到第一个 Token 的时间	直接测量	< 500ms
总响应时间	从请求到完整响应的时间	端到端测量	视任务复杂度
Token 吞吐量	每秒生成的 Token 数	tokens / 秒	> 50 tokens/s
工具调用延迟	外部工具调用的响应时间	P50/P95/P99	P95 < 3s

4.2 质量指标

指标	定义	评估方式	目标值
任务成功率	Agent 成功完成用户任务的比例	自动评估 + 人工抽检	> 95%
幻觉率	输出中包含虚假信息的比例	LLM-as-Judge / 事实核查	< 3%
忠实度（Faithfulness）	输出与检索文档的一致性	RAG 评估框架	> 0.9
相关性（Relevance）	输出与用户意图的匹配度	语义相似度评分	> 0.85
用户满意度	用户对 Agent 输出的评分	显式反馈（👍/👎）	> 4.0/5.0

4.3 成本指标

指标	定义	计算方式	用途
每次交互成本	单次用户交互的 Token 成本	总 Token × 单价	定价参考
每用户日均成本	单个用户每天的平均消耗	日总成本 / DAU	预算规划
Token 浪费率	未产生有效输出的 Token 比例	无效 Token / 总 Token	优化目标
缓存命中率	语义缓存命中的请求比例	缓存命中 / 总请求	成本优化

4.4 稳定性指标

指标	定义	检测方式	告警条件
输出漂移（Drift）	Agent 行为随时间的偏移	输出分布对比	分布偏移 > 阈值
循环检测	Agent 陷入重复推理循环	步骤重复模式匹配	连续重复 > 3 次
降级率	需要降级到备用模型的比例	降级事件计数	> 5%
错误恢复率	Agent 自我修正成功的比例	修正后成功 / 总错误	< 80%

5. AgentOps 架构概览

5.1 典型架构


┌──────────────────────────────────────────────────────────────┐
│                        应用层                                 │
│  ┌──────────┐  ┌──────────┐  ┌──────────┐  ┌──────────┐    │
│  │ Agent A  │  │ Agent B  │  │ Agent C  │  │ Agent D  │    │
│  └────┬─────┘  └────┬─────┘  └────┬─────┘  └────┬─────┘    │
│       │              │              │              │          │
│  ┌────▼──────────────▼──────────────▼──────────────▼────┐    │
│  │              AgentOps SDK / 插桩层                     │    │
│  │  • 自动捕获 LLM 调用  • 记录工具调用  • 追踪推理链    │    │
│  └────────────────────────┬─────────────────────────────┘    │
└───────────────────────────┼──────────────────────────────────┘
                            │ traces, metrics, logs
                            ▼
┌───────────────────────────────────────────────────────────────┐
│                    AgentOps 平台层                              │
│  ┌─────────────┐  ┌─────────────┐  ┌─────────────────────┐   │
│  │  数据收集    │  │  数据处理    │  │  存储               │   │
│  │  • 追踪收集  │→│  • 聚合计算  │→│  • 时序数据库       │   │
│  │  • 指标采集  │  │  • 评估打分  │  │  • 向量存储         │   │
│  │  • 日志接收  │  │  • 异常检测  │  │  • Prompt/Response  │   │
│  └─────────────┘  └─────────────┘  └─────────────────────┘   │
│                                                               │
│  ┌─────────────┐  ┌─────────────┐  ┌─────────────────────┐   │
│  │  可视化      │  │  告警        │  │  分析               │   │
│  │  • 仪表板    │  │  • 成本告警  │  │  • 趋势分析         │   │
│  │  • 追踪视图  │  │  • 质量告警  │  │  • 根因分析         │   │
│  │  • 会话回放  │  │  • 漂移告警  │  │  • 优化建议         │   │
│  └─────────────┘  └─────────────┘  └─────────────────────┘   │
└───────────────────────────────────────────────────────────────┘

5.2 三种集成方式

根据团队的技术能力和需求，AgentOps 平台提供三种主要的集成方式：

集成方式	原理	接入时间	数据深度	适用场景
代理（Proxy）	将 LLM 请求路由到代理网关	~15 分钟	基础（请求/响应）	快速启动、成本监控
SDK 插桩	在代码中集成 SDK，自动捕获	数小时~数天	深度（推理链路）	生产级监控
OpenTelemetry	基于开放标准的遥测数据收集	数天~数周	灵活可定制	已有可观测性基础设施

代理方式示例（Helicone）：


# 只需修改 API base URL，一行代码接入
import openai
 
client = openai.OpenAI(
    api_key="sk-xxx",
    base_url="https://oai.helicone.ai/v1",  # 原来是 https://api.openai.com/v1
    default_headers={
        "Helicone-Auth": "Bearer hlc-xxx"
    }
)

SDK 方式示例（Langfuse）：


from langfuse.decorators import observe, langfuse_context
 
@observe()
def research_agent(query: str):
    # Langfuse 自动追踪整个函数的执行链路
    plan = create_plan(query)
    
    for step in plan.steps:
        result = execute_step(step)
        langfuse_context.update_current_observation(
            metadata={"step": step.name, "tokens": result.token_count}
        )
    
    return compile_results()

6. AgentOps 工具全景

6.1 工具推荐表

工具	类型	核心特点	价格	自托管	适用场景
LangSmith	商业 SaaS	LangChain 原生集成、Prompt 管理、数据集评估	免费 5K traces/月；Plus $39/用户/月	企业版支持	LangChain 用户
Langfuse	开源 + 云	框架无关、Prompt 版本管理、成本追踪	自托管免费；云版 50K events/月免费；Pro $500+/月	✅ 完全支持	注重数据主权的团队
AgentOps.ai	商业 SaaS	时间旅行调试、会话回放、多 Agent 支持	免费试用 1K events；Pro $40/月	❌	Python 多 Agent 系统
Helicone	商业 SaaS	代理模式一行接入、扁平定价、100+ LLM 支持	免费 100K 请求/月；Pro $25/月（无限请求）	可选	快速启动、成本敏感
Arize Phoenix	开源 + 企业	OpenTelemetry 原生、高级评估、漂移检测	开源免费；Arize AX $50K-100K/年	✅ Docker	技术团队、无供应商锁定
Braintrust	商业 SaaS	评估优先架构、A/B 测试、自动优化	学术/开源免费；商业版联系销售	企业版支持	系统化评估需求
W&B Weave	商业 SaaS	MLOps 集成、模型训练 + Agent 监控一体化	免费个人版；团队版 $35/用户/月	❌	已使用 W&B 的 ML 团队
Datadog LLM Obs	商业 SaaS	全栈集成、安全扫描、合规支持	企业定价 $20K-100K+/年	❌	已使用 Datadog 的企业
Lunary	开源 + 云	安全聚焦、PII 脱敏、自动分类	免费 10K events/月；Team $20/用户/月	✅	安全合规敏感场景

6.2 工具选择决策树


你的 Agent 框架是什么？
├── LangChain → LangSmith（原生集成，30 分钟接入）
├── CrewAI → AgentOps.ai（官方推荐集成）
├── LlamaIndex → Arize Phoenix（深度集成）
├── 自研框架 → 继续判断 ↓
│
你最关心什么？
├── 快速启动 + 成本监控 → Helicone（15 分钟接入）
├── 数据主权 + 自托管 → Langfuse（开源可自托管）
├── 系统化评估 + A/B 测试 → Braintrust
├── 全栈可观测性 → Datadog LLM Observability
├── 安全合规 → Lunary
└── ML 训练 + Agent 监控 → W&B Weave

7. 提示词模板

7.1 AgentOps 需求分析 Prompt


你是一位 AgentOps 架构师。请根据以下信息，为我的 AI Agent 系统设计监控方案：

## 系统信息
- Agent 类型：[客服 Agent / 编码助手 / 研究 Agent / 工作流 Agent]
- 使用的 LLM：[GPT-4o / Claude 3.5 / Gemini 2.5 Pro / 混合]
- Agent 框架：[LangChain / CrewAI / LlamaIndex / 自研]
- 日均请求量：[100 / 1,000 / 10,000 / 100,000+]
- 团队规模：[1-3 / 3-10 / 10+]
- 预算范围：[免费 / <$100/月 / <$500/月 / 不限]
- 数据主权要求：[无 / 需要自托管 / 需要合规认证]

## 请输出
1. 推荐的 AgentOps 平台（含理由）
2. 需要监控的核心指标（按优先级排序）
3. 告警规则建议
4. 成本优化策略
5. 分阶段实施路线图（MVP → 生产 → 规模化）

7.2 Agent 监控仪表板设计 Prompt


请为我的 [Agent 类型] 设计一个 AgentOps 监控仪表板，包含以下面板：

1. **概览面板**：关键指标卡片（成功率、平均延迟、日成本、活跃用户）
2. **成本面板**：Token 消耗趋势、按 Agent/用户/模型的成本分布
3. **质量面板**：幻觉率趋势、用户满意度、输出评分分布
4. **性能面板**：延迟分布（P50/P95/P99）、工具调用成功率
5. **告警面板**：活跃告警、历史告警、告警趋势

请为每个面板提供：
- 具体的指标定义和计算公式
- 推荐的可视化类型（折线图/柱状图/热力图/数字卡片）
- 告警阈值建议

7.3 Agent 故障排查 Prompt


我的 AI Agent 出现了以下问题：[描述问题]

请帮我按照以下步骤排查：

1. **症状分析**：这个问题属于哪类故障？（幻觉/延迟/成本/工具失败/循环）
2. **数据收集**：我需要查看哪些 AgentOps 指标和追踪数据？
3. **根因假设**：列出 3-5 个可能的根因
4. **验证步骤**：如何验证每个假设？
5. **修复方案**：针对最可能的根因，提供修复建议
6. **预防措施**：如何防止类似问题再次发生？

8. 实战案例：从零搭建 AgentOps 监控

场景描述

一家 SaaS 创业公司部署了一个客服 AI Agent，使用 GPT-4o 处理用户咨询。上线一周后发现：

月度 Token 成本比预期高 3 倍
用户投诉 Agent 有时给出错误信息
无法定位哪些对话出了问题

解决方案：使用 Langfuse 搭建 AgentOps

第一步：接入 Langfuse SDK（30 分钟）


# pip install langfuse
from langfuse.decorators import observe
from langfuse import Langfuse
 
langfuse = Langfuse(
    public_key="pk-xxx",
    secret_key="sk-xxx",
    host="https://cloud.langfuse.com"  # 或自托管地址
)
 
@observe()
def customer_support_agent(user_message: str, session_id: str):
    # 1. 检索知识库
    context = retrieve_knowledge(user_message)
    
    # 2. 生成回复
    response = llm.chat(
        messages=[
            {"role": "system", "content": SYSTEM_PROMPT},
            {"role": "user", "content": f"Context: {context}\n\nUser: {user_message}"}
        ]
    )
    
    # 3. 记录用户反馈
    langfuse.score(
        trace_id=langfuse_context.get_current_trace_id(),
        name="user_feedback",
        value=1  # 后续由用户评分更新
    )
    
    return response

第二步：配置成本追踪和告警


# 在 Langfuse 仪表板中配置：
# 1. 成本追踪：自动计算每次交互的 Token 成本
# 2. 日预算告警：日成本 > $50 时发送 Slack 通知
# 3. 单次交互告警：单次交互 Token > 10,000 时标记异常

第三步：配置质量评估


# 使用 LLM-as-Judge 自动评估输出质量
@observe()
def evaluate_response(user_query: str, agent_response: str, context: str):
    evaluation = llm.chat(
        model="gpt-4o-mini",  # 用便宜模型做评估
        messages=[{
            "role": "system",
            "content": """评估以下 AI 客服回复的质量，打分 1-5：
            - 准确性：回复是否基于提供的上下文？
            - 完整性：是否回答了用户的问题？
            - 安全性：是否包含不当内容？
            返回 JSON: {"accuracy": N, "completeness": N, "safety": N}"""
        }, {
            "role": "user",
            "content": f"用户问题: {user_query}\n上下文: {context}\nAgent回复: {agent_response}"
        }]
    )
    return evaluation

案例结果

接入 Langfuse 两周后：

指标	接入前	接入后	改善
月度 Token 成本	$3,000（估算）	$1,200（精确）	-60%（通过识别和修复 Token 浪费）
幻觉率	未知	4.2% → 1.8%	通过追踪定位问题 Prompt 并修复
平均响应时间	未知	3.2s → 2.1s	通过追踪发现不必要的工具调用
用户满意度	3.2/5	4.1/5	基于数据驱动的持续优化

案例分析

关键发现：

Token 浪费根因：系统 Prompt 过长（2,000 tokens），且每次对话都重复发送完整知识库上下文
幻觉根因：知识库检索的相关性阈值设置过低，导致 Agent 基于不相关文档生成回答
延迟根因：Agent 在简单问候语上也执行了完整的知识库检索流程

避坑指南

❌ 常见错误

上线后才考虑监控
- 问题：Agent 已经在生产环境运行数周，积累了大量未追踪的成本和质量问题
- 正确做法：从开发阶段就接入 AgentOps 工具，“Day 0 可观测性”是最佳实践
只监控延迟和错误率
- 问题：用传统 APM 思维监控 Agent，忽略了 Token 成本、幻觉率、推理质量等 Agent 特有指标
- 正确做法：建立完整的 AgentOps 指标体系，覆盖性能、质量、成本、稳定性四个维度
忽视成本归因
- 问题：只看总成本，不知道哪个 Agent、哪个用户、哪个工作流消耗最多
- 正确做法：从第一天就设置成本归因标签，按 Agent/用户/工作流/模型维度追踪成本
过度依赖自动评估
- 问题：完全依赖 LLM-as-Judge 评估质量，忽略了人工抽检
- 正确做法：自动评估 + 人工抽检结合，定期校准自动评估的准确性
不设置告警
- 问题：有了监控数据但没有告警，问题发生后才被动发现
- 正确做法：为关键指标设置告警阈值（成本异常、幻觉率上升、成功率下降）
选择了过重的方案
- 问题：小团队选择了企业级方案（如 Datadog LLM Obs），花费大量时间和预算在基础设施上
- 正确做法：根据团队规模和阶段选择合适的工具——MVP 阶段用 Helicone 或 Langfuse 云版即可

✅ 最佳实践

Day 0 可观测性：从第一行 Agent 代码开始就接入 AgentOps 工具
分层监控：基础指标（成本/延迟）→ 质量指标（幻觉/满意度）→ 业务指标（转化率/解决率）
成本预算制：为每个 Agent 设置 Token 预算上限，超限自动降级到更便宜的模型
持续评估：不是一次性设置，而是持续迭代评估标准和告警阈值
推理链路完整记录：记录 Agent 的每一步推理，而不仅仅是最终输出
建立基线：先收集 1-2 周的基线数据，再基于基线设置告警阈值

参考来源

Top 8 Observability Platforms for AI Agents in 2025 （2026-01）— Content was rephrased for compliance with licensing restrictions
Best 17 AgentOps Tools （2025-10）— Content was rephrased for compliance with licensing restrictions
Top 5 AI Agent Observability Platforms 2026 Guide （2026-02）— Content was rephrased for compliance with licensing restrictions
How to Monitor AI Agents in Production （2025-12）— Content was rephrased for compliance with licensing restrictions
AgentOps Production Implementation Guide 2026 （2026-02）— Content was rephrased for compliance with licensing restrictions
IBM Research: How to know if your AI agents are working as intended （2025-06）— Content was rephrased for compliance with licensing restrictions
AI Agent Observability: The New Standard for Enterprise AI in 2026 （2025-12）— Content was rephrased for compliance with licensing restrictions
5 Best AI Agent Observability Tools 2026 （2026-01）— Content was rephrased for compliance with licensing restrictions

📖 返回总览与导航 | 上一节：20d-AI数据分析与报告 | 下一节：21b-可观测性平台对比