Skip to Content

21b - 可观测性平台对比

本文是《AI Agent 实战手册》第 21 章第 2 节。 上一节:21a-AgentOps概念 | 下一节:21c-LangSmith设置指南

⏱ 阅读时间:50 分钟 | 难度:⭐⭐⭐ 中级 | 前置知识:AgentOps 基础概念(建议先阅读 21a)

概述

选择合适的 AI Agent 可观测性平台是 AgentOps 落地的第一步。2025-2026 年,这一领域涌现了大量专业工具——从 LangChain 生态的 LangSmith,到开源自托管的 Langfuse,再到代理模式一行接入的 Helicone。本节将系统对比六大主流平台(LangSmith、Langfuse、Helicone、Braintrust、Arize Phoenix、W&B Weave),覆盖核心功能、价格、自托管能力和集成复杂度,帮助你根据团队规模和技术栈做出最优选择。


1. 六大平台概览

1.1 平台定位速览

平台一句话定位核心优势开源
LangSmithLangChain 生态的全栈可观测性平台LangChain 原生集成、Prompt Playground、数据集评估
Langfuse开源优先的 LLM 工程平台完全可自托管、框架无关、被 ClickHouse 收购后性能大幅提升✅ MIT
Helicone代理模式的轻量级可观测性网关一行代码接入、语义缓存、100+ 模型支持部分开源
Braintrust评估优先的 AI 可观测性平台评估驱动架构、自研 Brainstore 数据库、A/B 测试
Arize Phoenix基于 OpenTelemetry 的开源可观测性框架完全开源无功能限制、OTel 原生、漂移检测✅ Apache 2.0
W&B WeaveMLOps 一体化的 LLM 可观测性工具ML 训练 + Agent 监控统一平台、被 CoreWeave 收购

1.2 发展动态(2025-2026)

  • Langfuse:2025 年 6 月被 ClickHouse 收购,GitHub 星标超 16,600,月访问量近 40 万,成为开源 LLM 可观测性领域的事实标准
  • W&B:2025 年 5 月被 CoreWeave 以约 17 亿美元收购,Weave 产品线与 GPU 基础设施深度整合
  • Braintrust:完成 3,600 万美元 A 轮融资,推出自研 Brainstore 数据库,查询速度提升 80 倍
  • Arize Phoenix:完全开源且无功能限制,Phoenix Cloud 提供免费托管(10GB 存储限制)
  • Helicone:推出 AI Gateway 功能,支持 100+ 模型统一接入,零加价费用
  • LangSmith:持续强化 LangChain/LangGraph 生态集成,企业版支持自托管部署

2. 核心功能对比

2.1 功能矩阵总览

功能维度LangSmithLangfuseHeliconeBraintrustArize PhoenixW&B Weave
分布式追踪✅ 自动(LangChain)✅ SDK + OTel✅ 代理模式✅ 自动捕获✅ OTel 原生✅ SDK
多步推理链可视化✅ 深度✅ 完整⚠️ 基础(单调用级)✅ 完整✅ 完整✅ 完整
Prompt 管理✅ Playground + 版本✅ 版本管理 + 标签✅ 版本 + A/B✅ Playground + 版本⚠️ 基础
数据集管理✅ 内置✅ 内置✅ 核心功能✅ 内置✅ 内置
自动评估✅ LLM-as-Judge✅ 自定义评估✅ 评估优先架构✅ 在线评估✅ 评估框架
成本追踪✅ Token 级✅ Token 级✅ 精确到分✅ Token 级✅ Token 级✅ Token 级
语义缓存✅ 内置
用户反馈收集✅ 内置 UI✅ API
多模态支持⚠️ 有限⚠️ 有限⚠️ 有限
实验/A/B 测试⚠️ 基础✅ 核心功能✅ 实验框架

2.2 追踪能力深度对比

追踪(Tracing)是可观测性平台的核心能力,各平台的实现方式和深度差异显著:

LangSmith:对 LangChain/LangGraph 应用提供零配置自动追踪,捕获每一步 chain、tool call、retriever 调用。非 LangChain 应用需要手动插桩,工作量显著增加。

# LangSmith:LangChain 应用零配置追踪 import os os.environ["LANGCHAIN_TRACING_V2"] = "true" os.environ["LANGCHAIN_API_KEY"] = "lsv2_xxx" # 所有 LangChain 调用自动追踪,无需额外代码

Langfuse:框架无关的 SDK 追踪,通过装饰器或手动 span 记录推理链路。同时支持 OpenTelemetry 标准接入。

# Langfuse:装饰器模式追踪(框架无关) from langfuse.decorators import observe @observe() def my_agent(query: str): plan = create_plan(query) # 自动记录为子 span result = execute_plan(plan) # 自动记录为子 span return result

Helicone:代理模式追踪,通过修改 API base URL 将请求路由到 Helicone 网关,自动记录每次 LLM 调用。优势是接入极快,但只能追踪单次 LLM 调用,无法捕获多步推理链路。

# Helicone:代理模式一行接入 import openai client = openai.OpenAI( api_key="sk-xxx", base_url="https://oai.helicone.ai/v1", default_headers={"Helicone-Auth": "Bearer hlc-xxx"} ) # 所有 OpenAI 调用自动记录

Arize Phoenix:基于 OpenTelemetry 标准的追踪,完全开源且无供应商锁定。支持 Python 和 JavaScript SDK。

# Arize Phoenix:OpenTelemetry 原生追踪 from phoenix.otel import register tracer_provider = register(project_name="my-agent") from openinference.instrumentation.openai import OpenAIInstrumentor OpenAIInstrumentor().instrument(tracer_provider=tracer_provider) # 所有 OpenAI 调用自动追踪到 Phoenix

2.3 评估能力对比

评估维度LangSmithLangfuseHeliconeBraintrustArize PhoenixW&B Weave
LLM-as-Judge
自定义评估函数
在线评估(实时)⚠️ 有限⚠️
离线评估(批量)
人工标注界面⚠️
评估数据集版本管理

评估能力排名:Braintrust ≈ Arize Phoenix > LangSmith > Langfuse > W&B Weave >> Helicone

Braintrust 以”评估优先”为核心设计理念,将评估工作流深度集成到开发循环中。Arize Phoenix 的在线评估和实验框架同样强大,且完全开源。


3. 价格对比

3.1 价格总览表

平台免费层入门付费团队/专业版企业版
LangSmith5,000 traces/月Plus $39/用户/月联系销售
Langfuse自托管完全免费;云版有限免费Core $29/月Pro $199/月联系销售
Helicone100,000 请求/月Pro $25/月(无限请求)联系销售
Braintrust100 万 spans + 1GB 存储Pro $249/月联系销售
Arize Phoenix开源完全免费(自托管);AX Free 25K spans/月AX Pro $50/月联系销售
W&B Weave免费个人版团队版 $35/用户/月联系销售

3.2 价格详细分析

LangSmith

  • Developer(免费):5,000 traces/月,1 个用户,适合个人开发和原型验证
  • Plus($39/用户/月):无限 traces(含基础额度),团队协作,扩展数据保留
  • Enterprise:自托管部署、SSO、RBAC、SLA,需联系销售
  • 隐藏成本:扩展 trace 存储(400 天)约 $5/1K traces,高流量场景成本攀升快

Langfuse

  • 自托管(免费):所有核心功能无限制,Docker/Kubernetes 部署,数据完全自控
  • Cloud Core($29/月):托管服务,适合小团队快速启动
  • Cloud Pro($199/月):更高速率限制、更长数据保留、所有功能
  • Enterprise:专属支持、SLA、合规认证
  • 成本优势:自托管方案仅需承担基础设施成本(约 $50-2,000/月视规模)

Helicone

  • Free:100,000 请求/月,基础分析和日志
  • Pro($25/月):无限请求,高级分析,语义缓存,更长数据保留
  • Enterprise:SAML SSO、GDPR/HIPAA/SOC-2 Type II 合规、专属支持
  • 成本优势:扁平定价模型,不按 trace 数量计费,成本最可预测

Braintrust

  • Free:100 万 spans、1GB 存储、10K 评分、14 天保留
  • Pro($249/月):无限 spans、5GB 存储(超出 $3/GB)、50K 评分(超出 $1.50/1K)、30 天保留
  • Enterprise:本地部署、高级支持、自定义保留策略
  • 注意:免费层非常慷慨(100 万 spans),但 Pro 版价格较高

Arize Phoenix

  • Phoenix 开源(免费):完全开源,所有功能无限制,自托管无功能门槛
  • Phoenix Cloud(免费):托管版,10GB 存储限制
  • AX Free:25K spans/月、1GB、7 天保留
  • AX Pro($50/月):50K spans/月、10GB(超出 $10/百万 spans)、15 天保留
  • AX Enterprise:自托管、SOC2/HIPAA、自定义限制
  • 注意:Phoenix(开源)和 Arize AX(商业)是完全不同的产品

W&B Weave

  • Free:个人使用,基础追踪和评估
  • Teams($35/用户/月):团队协作,200GB 云存储,无限追踪时长
  • Enterprise:专属部署、高级安全、SLA
  • 注意:2025 年被 CoreWeave 收购后,定价策略可能调整

3.3 不同规模的月度成本估算

场景日均请求LangSmithLangfuse(云)HeliconeBraintrustPhoenix(自托管)
个人开发~100免费免费免费免费免费
小团队(3人)~1,000~$117/月$29-199/月$25/月免费~$50-100/月(基础设施)
中型团队(10人)~10,000~$390/月$199/月$25/月$249/月~$200-500/月(基础设施)
大型团队(50人)~100,000企业定价企业定价企业定价企业定价~$1,000-2,000/月(基础设施)

4. 自托管与数据主权

4.1 自托管能力对比

维度LangSmithLangfuseHeliconeBraintrustArize PhoenixW&B Weave
自托管支持仅企业版✅ 完全支持(免费)仅企业版✅ 完全支持(免费)
部署方式企业私有云Docker / K8s企业私有云Docker / K8s / pip
功能限制无(企业版)无限制无(企业版)无限制
数据驻留美国(云版)完全自控美国/欧洲美国(云版)完全自控美国(云版)
合规认证SOC 2自行管理GDPR/HIPAA/SOC-2SOC 2自行管理SOC 2
气隙部署企业版支持企业版支持

4.2 自托管推荐方案

如果数据主权是硬性要求,推荐以下两个平台:

方案 A:Langfuse 自托管

# Docker Compose 一键部署 git clone https://github.com/langfuse/langfuse.git cd langfuse docker compose up -d # 访问 http://localhost:3000

优势:

  • MIT 开源协议,所有功能免费
  • 被 ClickHouse 收购后,数据处理性能大幅提升
  • 社区活跃(16,600+ GitHub Stars),文档完善
  • 支持 PostgreSQL 作为后端存储

方案 B:Arize Phoenix 自托管

# pip 安装(最简方式) pip install arize-phoenix python -m phoenix.server.main serve # 或 Docker 部署 docker run -p 6006:6006 -p 4317:4317 arizephoenix/phoenix:latest

优势:

  • Apache 2.0 开源协议,完全无功能限制
  • 基于 OpenTelemetry 标准,无供应商锁定
  • 支持完全气隙部署,数据不外传
  • 安装极简(pip install 即可启动)

5. 集成复杂度对比

5.1 接入时间估算

平台接入方式LangChain 应用自研框架多框架混合
LangSmith环境变量 / SDK⚡ 30 秒🕐 2-3 小时🕐 3-5 小时
LangfuseSDK 装饰器 / OTel⚡ 15 分钟🕐 1-2 小时🕐 2-3 小时
Helicone代理(修改 base URL)⚡ 2 分钟⚡ 2 分钟⚡ 5 分钟
BraintrustSDK🕐 30 分钟🕐 1-2 小时🕐 2-3 小时
Arize PhoenixOTel Instrumentor⚡ 15 分钟🕐 30 分钟-1 小时🕐 1-2 小时
W&B WeaveSDK 装饰器🕐 30 分钟🕐 1-2 小时🕐 2-3 小时

5.2 SDK 与框架兼容性

平台Python SDKJS/TS SDKOpenTelemetryLangChainLlamaIndexCrewAIOpenAI SDKAnthropic SDK
LangSmith⚠️ 有限✅ 原生⚠️ 手动⚠️ 手动
Langfuse
Helicone
Braintrust
Arize Phoenix✅ 原生✅ 深度
W&B Weave⚠️ 有限⚠️

5.3 集成复杂度排名

从最简单到最复杂:

Helicone(代理模式,改 URL 即可) Arize Phoenix(OTel Instrumentor,几行代码) Langfuse(SDK 装饰器,框架无关) LangSmith(LangChain 极简,其他框架较复杂) Braintrust(SDK 集成,评估配置较多) W&B Weave(需要理解 W&B 生态)

6. 平台选择决策框架

6.1 决策流程图

开始选择 ├── Q1: 你使用 LangChain/LangGraph 吗? │ ├── 是 → 强烈推荐 LangSmith(30 秒接入,原生深度集成) │ └── 否 → 继续 ↓ ├── Q2: 数据主权/自托管是硬性要求吗? │ ├── 是 → 继续 ↓ │ │ ├── 需要完整 LLM 工程平台(Prompt 管理 + 评估) → Langfuse │ │ └── 需要 OTel 标准 + 无供应商锁定 → Arize Phoenix │ └── 否 → 继续 ↓ ├── Q3: 你最优先的需求是什么? │ ├── 快速启动 + 成本监控 → Helicone(2 分钟接入) │ ├── 系统化评估 + A/B 测试 → Braintrust │ ├── 开源 + 灵活定制 → Langfuse 或 Arize Phoenix │ ├── ML 训练 + Agent 监控一体化 → W&B Weave │ └── 全栈企业可观测性 → 考虑 Datadog LLM Observability └── Q4: 预算范围? ├── 免费 → Arize Phoenix(自托管)/ Langfuse(自托管)/ Helicone(100K 请求/月) ├── < $50/月 → Helicone Pro / Langfuse Core / Arize AX Pro ├── < $250/月 → Langfuse Pro / Braintrust Pro └── 不限 → 根据 Q3 选择最匹配的平台

6.2 按团队类型推荐

团队类型首选备选理由
个人开发者/原型阶段HeliconeArize Phoenix接入最快,免费层慷慨
LangChain 技术栈团队LangSmithLangfuse原生集成,零配置追踪
注重数据主权的企业Langfuse(自托管)Arize Phoenix开源免费,数据完全自控
评估驱动的 AI 产品团队BraintrustLangSmith评估优先架构,A/B 测试强大
ML/AI 研究团队W&B WeaveArize Phoenix训练 + 推理统一监控
多框架混合架构LangfuseArize Phoenix框架无关,OTel 标准
成本敏感的创业团队HeliconeLangfuse(自托管)扁平定价,成本可预测
合规要求严格的企业Langfuse(自托管)Helicone Enterprise气隙部署,合规自管

7. 提示词模板

7.1 可观测性平台选型分析 Prompt

你是一位 AgentOps 架构师。请根据以下团队信息,推荐最合适的 AI Agent 可观测性平台: ## 团队信息 - 团队规模:[1-3 / 3-10 / 10-50 / 50+] 人 - Agent 框架:[LangChain / LlamaIndex / CrewAI / 自研 / 混合] - 使用的 LLM:[OpenAI / Anthropic / Google / 混合 / 自部署] - 日均 LLM 调用量:[100 / 1,000 / 10,000 / 100,000+] - 数据主权要求:[无 / 需要自托管 / 需要合规认证(GDPR/HIPAA/SOC2)] - 月度预算:[免费 / <$50 / <$250 / <$500 / 不限] - 最优先需求:[快速接入 / 深度追踪 / 评估能力 / 成本监控 / 自托管] - 现有基础设施:[无 / 已有 Datadog / 已有 W&B / 已有 Prometheus+Grafana] ## 请输出 1. 推荐平台(第一选择 + 备选)及详细理由 2. 预估月度成本 3. 接入步骤和时间估算 4. 需要注意的限制和风险 5. 6 个月演进路线图

7.2 平台迁移评估 Prompt

我们当前使用 [当前平台] 作为 AI Agent 可观测性工具,考虑迁移到 [目标平台]。 ## 当前状况 - 当前平台:[LangSmith / Langfuse / Helicone / 其他] - 迁移原因:[成本 / 功能不足 / 数据主权 / 供应商锁定 / 其他] - 当前数据量:[traces 数量/月] - 依赖的核心功能:[追踪 / 评估 / Prompt 管理 / 成本追踪] - 团队熟悉度:[高 / 中 / 低] ## 请评估 1. 迁移可行性评分(1-10) 2. 功能差距分析(当前平台有但目标平台没有的功能) 3. 迁移步骤和时间估算 4. 数据迁移方案 5. 风险和缓解措施 6. 迁移后的成本对比

7.3 多平台组合方案设计 Prompt

我的 AI Agent 系统需要同时满足以下需求,单一平台可能无法全部覆盖: ## 需求列表 - [需求1:例如"深度追踪 + 推理链可视化"] - [需求2:例如"语义缓存降低成本"] - [需求3:例如"系统化评估 + A/B 测试"] - [需求4:例如"自托管 + 数据主权"] ## 请设计 1. 推荐的平台组合方案(最多 2 个平台) 2. 每个平台负责的功能范围 3. 平台间的数据流和集成方式 4. 总体成本估算 5. 运维复杂度评估

8. 实战案例:从选型到落地

案例一:创业团队快速启动

背景:3 人创业团队,使用 OpenAI GPT-4o 构建客服 Agent,日均 500 次对话,预算有限。

选型过程

评估维度权重HeliconeLangfuse(云)LangSmith
接入速度30%⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐(非 LangChain)
成本30%⭐⭐⭐⭐⭐(免费层足够)⭐⭐⭐⭐⭐⭐⭐
功能深度20%⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐
扩展性20%⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐
加权总分4.33.93.4

决策:选择 Helicone,2 分钟接入,免费层覆盖当前需求。

落地步骤

# 第 1 步:修改 OpenAI 客户端配置(2 分钟) import openai client = openai.OpenAI( api_key="sk-xxx", base_url="https://oai.helicone.ai/v1", default_headers={ "Helicone-Auth": "Bearer hlc-xxx", "Helicone-Property-Agent": "customer-support", "Helicone-Property-Environment": "production" } ) # 第 2 步:为每次对话添加会话标识 response = client.chat.completions.create( model="gpt-4o", messages=[...], extra_headers={ "Helicone-Session-Id": session_id, "Helicone-User-Id": user_id } ) # 第 3 步:在 Helicone 仪表板查看成本和延迟分析 # https://www.helicone.ai/dashboard

结果:上线首周即发现 30% 的对话因系统 Prompt 过长导致 Token 浪费,优化后月度成本降低 40%。

案例二:企业级自托管方案

背景:金融科技公司,10 人 AI 团队,使用 LangGraph 构建多 Agent 风控系统,数据不能出境,需要 SOC 2 合规。

选型过程

数据主权是硬性要求 → 排除纯 SaaS 方案(Helicone、W&B Weave)→ 剩余 Langfuse(自托管)和 Arize Phoenix

评估维度Langfuse(自托管)Arize Phoenix(自托管)
Prompt 管理✅ 版本管理 + 标签✅ Playground + 版本
评估框架✅ 自定义评估✅ 在线评估 + 实验
社区生态⭐⭐⭐⭐⭐(16.6K Stars)⭐⭐⭐⭐(活跃社区)
部署复杂度Docker Compose 一键pip install 或 Docker
数据库依赖PostgreSQLSQLite / PostgreSQL
企业支持付费企业版付费 AX Enterprise

决策:选择 Langfuse 自托管 + LangSmith(开发环境用免费版辅助调试)。

部署架构

┌─────────────────────────────────────────────┐ │ 企业内网(VPC) │ │ │ │ ┌──────────┐ ┌──────────────────────┐ │ │ │ Agent 集群 │───→│ Langfuse 自托管 │ │ │ │ (LangGraph)│ │ • Docker Compose │ │ │ └──────────┘ │ • PostgreSQL 后端 │ │ │ │ • Nginx 反向代理 │ │ │ └──────────────────────┘ │ │ │ │ │ ┌────────▼─────────┐ │ │ │ Grafana 仪表板 │ │ │ │ (可视化告警) │ │ │ └──────────────────┘ │ └─────────────────────────────────────────────┘

案例分析

两个案例体现了不同场景下的选型逻辑:

  1. 创业团队优先考虑接入速度和成本,Helicone 的代理模式是最佳选择
  2. 企业团队优先考虑数据主权和合规,Langfuse/Phoenix 的自托管方案是必选项
  3. 没有”最好”的平台,只有”最适合”的平台——关键是明确自己的优先级

避坑指南

❌ 常见错误

  1. 只看功能不看集成复杂度

    • 问题:选择了功能最全的平台,但团队花了两周才完成接入,期间 Agent 在”裸奔”
    • 正确做法:优先选择能在 1 天内接入的平台,先获得基础可观测性,再逐步增强
  2. 忽视自托管的运维成本

    • 问题:选择自托管方案后,低估了数据库维护、版本升级、备份恢复的运维工作量
    • 正确做法:自托管前评估团队的运维能力,小团队建议先用云版,规模化后再迁移自托管
  3. 被免费层吸引后遭遇成本陡增

    • 问题:免费层足够原型阶段使用,但生产流量上来后,按 trace 计费的模型导致成本快速攀升
    • 正确做法:在选型时就用生产流量估算月度成本,关注扁平定价(如 Helicone)vs 按量计费(如 LangSmith)的差异
  4. 选择了与框架强绑定的平台

    • 问题:选择 LangSmith 后发现团队需要引入 LlamaIndex 或自研组件,非 LangChain 部分的追踪体验大幅下降
    • 正确做法:如果技术栈可能演进,优先选择框架无关的平台(Langfuse、Arize Phoenix、Helicone)
  5. 同时接入多个平台导致数据分散

    • 问题:追踪数据在 LangSmith,成本数据在 Helicone,评估数据在 Braintrust,无法关联分析
    • 正确做法:尽量选择一个主平台覆盖核心需求,最多搭配一个辅助平台补充特定功能
  6. 忽视 OpenTelemetry 标准的长期价值

    • 问题:选择了私有协议的平台,后续迁移时发现数据格式不兼容,迁移成本极高
    • 正确做法:优先考虑支持 OpenTelemetry 的平台(Arize Phoenix、Langfuse),降低未来迁移风险

✅ 最佳实践

  1. “先有再好”原则:先用最简单的方式(如 Helicone 代理模式)获得基础可观测性,再逐步增强
  2. 生产流量成本预估:选型时用 10 倍当前流量估算成本,避免规模化后的成本意外
  3. 评估迁移成本:选择支持 OpenTelemetry 标准的平台,降低未来供应商切换的风险
  4. 分阶段演进:MVP 阶段用 Helicone/Phoenix → 增长阶段加入 Langfuse/LangSmith → 规模化阶段考虑企业版或自托管
  5. 定期重新评估:这个领域发展极快,每 6 个月重新评估一次当前平台是否仍然最优
  6. 关注收购动态:Langfuse 被 ClickHouse 收购、W&B 被 CoreWeave 收购等事件可能影响产品方向和定价

相关资源与延伸阅读

  1. Langfuse 官方文档  — 开源 LLM 工程平台完整文档,包含自托管部署、SDK 集成和评估框架
  2. LangSmith 官方文档  — LangChain 生态可观测性平台文档,适合 LangChain 用户
  3. Arize Phoenix GitHub  — 开源 AI 可观测性框架(16K+ Stars),基于 OpenTelemetry 标准
  4. Helicone 快速入门  — 代理模式可观测性平台,一行代码接入
  5. Braintrust 文档  — 评估优先的 AI 可观测性平台,含定价 FAQ
  6. W&B Weave 文档  — MLOps 一体化平台的 LLM 可观测性工具
  7. Langfuse GitHub  — 开源 LLM 工程平台源码(16.6K Stars),MIT 协议
  8. OpenTelemetry 官网  — 开放遥测标准,避免供应商锁定的 Agent 监控方案
  9. ClickHouse 收购 Langfuse 公告  — 了解 Langfuse 未来发展方向
  10. Athenic Blog: LLM 可观测性平台对比  — 第三方独立对比分析

参考来源


📖 返回 总览与导航 | 上一节:21a-AgentOps概念 | 下一节:21c-LangSmith设置指南

Last updated on