21b - 可观测性平台对比

本文是《AI Agent 实战手册》第 21 章第 2 节。上一节：21a-AgentOps概念 | 下一节：21c-LangSmith设置指南

⏱ 阅读时间：50 分钟 | 难度：⭐⭐⭐ 中级 | 前置知识：AgentOps 基础概念（建议先阅读 21a）

概述

选择合适的 AI Agent 可观测性平台是 AgentOps 落地的第一步。2025-2026 年，这一领域涌现了大量专业工具——从 LangChain 生态的 LangSmith，到开源自托管的 Langfuse，再到代理模式一行接入的 Helicone。本节将系统对比六大主流平台（LangSmith、Langfuse、Helicone、Braintrust、Arize Phoenix、W&B Weave），覆盖核心功能、价格、自托管能力和集成复杂度，帮助你根据团队规模和技术栈做出最优选择。

1. 六大平台概览

1.1 平台定位速览

平台	一句话定位	核心优势	开源
LangSmith	LangChain 生态的全栈可观测性平台	LangChain 原生集成、Prompt Playground、数据集评估	❌
Langfuse	开源优先的 LLM 工程平台	完全可自托管、框架无关、被 ClickHouse 收购后性能大幅提升	✅ MIT
Helicone	代理模式的轻量级可观测性网关	一行代码接入、语义缓存、100+ 模型支持	部分开源
Braintrust	评估优先的 AI 可观测性平台	评估驱动架构、自研 Brainstore 数据库、A/B 测试	❌
Arize Phoenix	基于 OpenTelemetry 的开源可观测性框架	完全开源无功能限制、OTel 原生、漂移检测	✅ Apache 2.0
W&B Weave	MLOps 一体化的 LLM 可观测性工具	ML 训练 + Agent 监控统一平台、被 CoreWeave 收购	❌

1.2 发展动态（2025-2026）

Langfuse：2025 年 6 月被 ClickHouse 收购，GitHub 星标超 16,600，月访问量近 40 万，成为开源 LLM 可观测性领域的事实标准
W&B：2025 年 5 月被 CoreWeave 以约 17 亿美元收购，Weave 产品线与 GPU 基础设施深度整合
Braintrust：完成 3,600 万美元 A 轮融资，推出自研 Brainstore 数据库，查询速度提升 80 倍
Arize Phoenix：完全开源且无功能限制，Phoenix Cloud 提供免费托管（10GB 存储限制）
Helicone：推出 AI Gateway 功能，支持 100+ 模型统一接入，零加价费用
LangSmith：持续强化 LangChain/LangGraph 生态集成，企业版支持自托管部署

2. 核心功能对比

2.1 功能矩阵总览

功能维度	LangSmith	Langfuse	Helicone	Braintrust	Arize Phoenix	W&B Weave
分布式追踪	✅ 自动（LangChain）	✅ SDK + OTel	✅ 代理模式	✅ 自动捕获	✅ OTel 原生	✅ SDK
多步推理链可视化	✅ 深度	✅ 完整	⚠️ 基础（单调用级）	✅ 完整	✅ 完整	✅ 完整
Prompt 管理	✅ Playground + 版本	✅ 版本管理 + 标签	❌	✅ 版本 + A/B	✅ Playground + 版本	⚠️ 基础
数据集管理	✅ 内置	✅ 内置	❌	✅ 核心功能	✅ 内置	✅ 内置
自动评估	✅ LLM-as-Judge	✅ 自定义评估	❌	✅ 评估优先架构	✅ 在线评估	✅ 评估框架
成本追踪	✅ Token 级	✅ Token 级	✅ 精确到分	✅ Token 级	✅ Token 级	✅ Token 级
语义缓存	❌	❌	✅ 内置	❌	❌	❌
用户反馈收集	✅	✅ 内置 UI	✅ API	✅	✅	✅
多模态支持	⚠️ 有限	⚠️ 有限	⚠️ 有限	✅	✅	✅
实验/A/B 测试	✅	⚠️ 基础	❌	✅ 核心功能	✅ 实验框架	✅

2.2 追踪能力深度对比

追踪（Tracing）是可观测性平台的核心能力，各平台的实现方式和深度差异显著：

LangSmith：对 LangChain/LangGraph 应用提供零配置自动追踪，捕获每一步 chain、tool call、retriever 调用。非 LangChain 应用需要手动插桩，工作量显著增加。


# LangSmith：LangChain 应用零配置追踪
import os
os.environ["LANGCHAIN_TRACING_V2"] = "true"
os.environ["LANGCHAIN_API_KEY"] = "lsv2_xxx"
# 所有 LangChain 调用自动追踪，无需额外代码

Langfuse：框架无关的 SDK 追踪，通过装饰器或手动 span 记录推理链路。同时支持 OpenTelemetry 标准接入。


# Langfuse：装饰器模式追踪（框架无关）
from langfuse.decorators import observe
 
@observe()
def my_agent(query: str):
    plan = create_plan(query)       # 自动记录为子 span
    result = execute_plan(plan)     # 自动记录为子 span
    return result

Helicone：代理模式追踪，通过修改 API base URL 将请求路由到 Helicone 网关，自动记录每次 LLM 调用。优势是接入极快，但只能追踪单次 LLM 调用，无法捕获多步推理链路。


# Helicone：代理模式一行接入
import openai
client = openai.OpenAI(
    api_key="sk-xxx",
    base_url="https://oai.helicone.ai/v1",
    default_headers={"Helicone-Auth": "Bearer hlc-xxx"}
)
# 所有 OpenAI 调用自动记录

Arize Phoenix：基于 OpenTelemetry 标准的追踪，完全开源且无供应商锁定。支持 Python 和 JavaScript SDK。


# Arize Phoenix：OpenTelemetry 原生追踪
from phoenix.otel import register
tracer_provider = register(project_name="my-agent")
 
from openinference.instrumentation.openai import OpenAIInstrumentor
OpenAIInstrumentor().instrument(tracer_provider=tracer_provider)
# 所有 OpenAI 调用自动追踪到 Phoenix

2.3 评估能力对比

评估维度	LangSmith	Langfuse	Helicone	Braintrust	Arize Phoenix	W&B Weave
LLM-as-Judge	✅	✅	❌	✅	✅	✅
自定义评估函数	✅	✅	❌	✅	✅	✅
在线评估（实时）	✅	⚠️ 有限	❌	✅	✅	⚠️
离线评估（批量）	✅	✅	❌	✅	✅	✅
人工标注界面	✅	✅	❌	✅	✅	⚠️
评估数据集版本管理	✅	✅	❌	✅	✅	✅

评估能力排名：Braintrust ≈ Arize Phoenix > LangSmith > Langfuse > W&B Weave >> Helicone

Braintrust 以”评估优先”为核心设计理念，将评估工作流深度集成到开发循环中。Arize Phoenix 的在线评估和实验框架同样强大，且完全开源。

3. 价格对比

3.1 价格总览表

平台	免费层	入门付费	团队/专业版	企业版
LangSmith	5,000 traces/月	—	Plus $39/用户/月	联系销售
Langfuse	自托管完全免费；云版有限免费	Core $29/月	Pro $199/月	联系销售
Helicone	100,000 请求/月	—	Pro $25/月（无限请求）	联系销售
Braintrust	100 万 spans + 1GB 存储	—	Pro $249/月	联系销售
Arize Phoenix	开源完全免费（自托管）；AX Free 25K spans/月	AX Pro $50/月	—	联系销售
W&B Weave	免费个人版	—	团队版 $35/用户/月	联系销售

3.2 价格详细分析

LangSmith

Developer（免费）：5,000 traces/月，1 个用户，适合个人开发和原型验证
Plus（$39/用户/月）：无限 traces（含基础额度），团队协作，扩展数据保留
Enterprise：自托管部署、SSO、RBAC、SLA，需联系销售
隐藏成本：扩展 trace 存储（400 天）约 $5/1K traces，高流量场景成本攀升快

Langfuse

自托管（免费）：所有核心功能无限制，Docker/Kubernetes 部署，数据完全自控
Cloud Core（$29/月）：托管服务，适合小团队快速启动
Cloud Pro（$199/月）：更高速率限制、更长数据保留、所有功能
Enterprise：专属支持、SLA、合规认证
成本优势：自托管方案仅需承担基础设施成本（约 $50-2,000/月视规模）

Helicone

Free：100,000 请求/月，基础分析和日志
Pro（$25/月）：无限请求，高级分析，语义缓存，更长数据保留
Enterprise：SAML SSO、GDPR/HIPAA/SOC-2 Type II 合规、专属支持
成本优势：扁平定价模型，不按 trace 数量计费，成本最可预测

Braintrust

Free：100 万 spans、1GB 存储、10K 评分、14 天保留
Pro（$249/月）：无限 spans、5GB 存储（超出 $3/GB）、50K 评分（超出 $1.50/1K）、30 天保留
Enterprise：本地部署、高级支持、自定义保留策略
注意：免费层非常慷慨（100 万 spans），但 Pro 版价格较高

Arize Phoenix

Phoenix 开源（免费）：完全开源，所有功能无限制，自托管无功能门槛
Phoenix Cloud（免费）：托管版，10GB 存储限制
AX Free：25K spans/月、1GB、7 天保留
AX Pro（$50/月）：50K spans/月、10GB（超出 $10/百万 spans）、15 天保留
AX Enterprise：自托管、SOC2/HIPAA、自定义限制
注意：Phoenix（开源）和 Arize AX（商业）是完全不同的产品

W&B Weave

Free：个人使用，基础追踪和评估
Teams（$35/用户/月）：团队协作，200GB 云存储，无限追踪时长
Enterprise：专属部署、高级安全、SLA
注意：2025 年被 CoreWeave 收购后，定价策略可能调整

3.3 不同规模的月度成本估算

场景	日均请求	LangSmith	Langfuse（云）	Helicone	Braintrust	Phoenix（自托管）
个人开发	~100	免费	免费	免费	免费	免费
小团队（3人）	~1,000	~$117/月	$29-199/月	$25/月	免费	~$50-100/月（基础设施）
中型团队（10人）	~10,000	~$390/月	$199/月	$25/月	$249/月	~$200-500/月（基础设施）
大型团队（50人）	~100,000	企业定价	企业定价	企业定价	企业定价	~$1,000-2,000/月（基础设施）

4. 自托管与数据主权

4.1 自托管能力对比

维度	LangSmith	Langfuse	Helicone	Braintrust	Arize Phoenix	W&B Weave
自托管支持	仅企业版	✅ 完全支持（免费）	❌	仅企业版	✅ 完全支持（免费）	❌
部署方式	企业私有云	Docker / K8s	—	企业私有云	Docker / K8s / pip	—
功能限制	无（企业版）	无限制	—	无（企业版）	无限制	—
数据驻留	美国（云版）	完全自控	美国/欧洲	美国（云版）	完全自控	美国（云版）
合规认证	SOC 2	自行管理	GDPR/HIPAA/SOC-2	SOC 2	自行管理	SOC 2
气隙部署	企业版支持	✅	❌	企业版支持	✅	❌

4.2 自托管推荐方案

如果数据主权是硬性要求，推荐以下两个平台：

方案 A：Langfuse 自托管


# Docker Compose 一键部署
git clone https://github.com/langfuse/langfuse.git
cd langfuse
docker compose up -d
# 访问 http://localhost:3000

优势：

MIT 开源协议，所有功能免费
被 ClickHouse 收购后，数据处理性能大幅提升
社区活跃（16,600+ GitHub Stars），文档完善
支持 PostgreSQL 作为后端存储

方案 B：Arize Phoenix 自托管


# pip 安装（最简方式）
pip install arize-phoenix
python -m phoenix.server.main serve
 
# 或 Docker 部署
docker run -p 6006:6006 -p 4317:4317 arizephoenix/phoenix:latest

优势：

Apache 2.0 开源协议，完全无功能限制
基于 OpenTelemetry 标准，无供应商锁定
支持完全气隙部署，数据不外传
安装极简（pip install 即可启动）

5. 集成复杂度对比

5.1 接入时间估算

平台	接入方式	LangChain 应用	自研框架	多框架混合
LangSmith	环境变量 / SDK	⚡ 30 秒	🕐 2-3 小时	🕐 3-5 小时
Langfuse	SDK 装饰器 / OTel	⚡ 15 分钟	🕐 1-2 小时	🕐 2-3 小时
Helicone	代理（修改 base URL）	⚡ 2 分钟	⚡ 2 分钟	⚡ 5 分钟
Braintrust	SDK	🕐 30 分钟	🕐 1-2 小时	🕐 2-3 小时
Arize Phoenix	OTel Instrumentor	⚡ 15 分钟	🕐 30 分钟-1 小时	🕐 1-2 小时
W&B Weave	SDK 装饰器	🕐 30 分钟	🕐 1-2 小时	🕐 2-3 小时

5.2 SDK 与框架兼容性

平台	Python SDK	JS/TS SDK	OpenTelemetry	LangChain	LlamaIndex	CrewAI	OpenAI SDK	Anthropic SDK
LangSmith	✅	✅	⚠️ 有限	✅ 原生	⚠️ 手动	⚠️ 手动	✅	✅
Langfuse	✅	✅	✅	✅	✅	✅	✅	✅
Helicone	✅	✅	❌	✅	✅	✅	✅	✅
Braintrust	✅	✅	✅	✅	✅	✅	✅	✅
Arize Phoenix	✅	✅	✅ 原生	✅	✅ 深度	✅	✅	✅
W&B Weave	✅	✅	⚠️ 有限	✅	✅	⚠️	✅	✅

5.3 集成复杂度排名

从最简单到最复杂：


Helicone（代理模式，改 URL 即可）
    ↓
Arize Phoenix（OTel Instrumentor，几行代码）
    ↓
Langfuse（SDK 装饰器，框架无关）
    ↓
LangSmith（LangChain 极简，其他框架较复杂）
    ↓
Braintrust（SDK 集成，评估配置较多）
    ↓
W&B Weave（需要理解 W&B 生态）

6. 平台选择决策框架

6.1 决策流程图


开始选择
│
├── Q1: 你使用 LangChain/LangGraph 吗？
│   ├── 是 → 强烈推荐 LangSmith（30 秒接入，原生深度集成）
│   └── 否 → 继续 ↓
│
├── Q2: 数据主权/自托管是硬性要求吗？
│   ├── 是 → 继续 ↓
│   │   ├── 需要完整 LLM 工程平台（Prompt 管理 + 评估） → Langfuse
│   │   └── 需要 OTel 标准 + 无供应商锁定 → Arize Phoenix
│   └── 否 → 继续 ↓
│
├── Q3: 你最优先的需求是什么？
│   ├── 快速启动 + 成本监控 → Helicone（2 分钟接入）
│   ├── 系统化评估 + A/B 测试 → Braintrust
│   ├── 开源 + 灵活定制 → Langfuse 或 Arize Phoenix
│   ├── ML 训练 + Agent 监控一体化 → W&B Weave
│   └── 全栈企业可观测性 → 考虑 Datadog LLM Observability
│
└── Q4: 预算范围？
    ├── 免费 → Arize Phoenix（自托管）/ Langfuse（自托管）/ Helicone（100K 请求/月）
    ├── < $50/月 → Helicone Pro / Langfuse Core / Arize AX Pro
    ├── < $250/月 → Langfuse Pro / Braintrust Pro
    └── 不限 → 根据 Q3 选择最匹配的平台

6.2 按团队类型推荐

团队类型	首选	备选	理由
个人开发者/原型阶段	Helicone	Arize Phoenix	接入最快，免费层慷慨
LangChain 技术栈团队	LangSmith	Langfuse	原生集成，零配置追踪
注重数据主权的企业	Langfuse（自托管）	Arize Phoenix	开源免费，数据完全自控
评估驱动的 AI 产品团队	Braintrust	LangSmith	评估优先架构，A/B 测试强大
ML/AI 研究团队	W&B Weave	Arize Phoenix	训练 + 推理统一监控
多框架混合架构	Langfuse	Arize Phoenix	框架无关，OTel 标准
成本敏感的创业团队	Helicone	Langfuse（自托管）	扁平定价，成本可预测
合规要求严格的企业	Langfuse（自托管）	Helicone Enterprise	气隙部署，合规自管

7. 提示词模板

7.1 可观测性平台选型分析 Prompt


你是一位 AgentOps 架构师。请根据以下团队信息，推荐最合适的 AI Agent 可观测性平台：

## 团队信息
- 团队规模：[1-3 / 3-10 / 10-50 / 50+] 人
- Agent 框架：[LangChain / LlamaIndex / CrewAI / 自研 / 混合]
- 使用的 LLM：[OpenAI / Anthropic / Google / 混合 / 自部署]
- 日均 LLM 调用量：[100 / 1,000 / 10,000 / 100,000+]
- 数据主权要求：[无 / 需要自托管 / 需要合规认证（GDPR/HIPAA/SOC2）]
- 月度预算：[免费 / <$50 / <$250 / <$500 / 不限]
- 最优先需求：[快速接入 / 深度追踪 / 评估能力 / 成本监控 / 自托管]
- 现有基础设施：[无 / 已有 Datadog / 已有 W&B / 已有 Prometheus+Grafana]

## 请输出
1. 推荐平台（第一选择 + 备选）及详细理由
2. 预估月度成本
3. 接入步骤和时间估算
4. 需要注意的限制和风险
5. 6 个月演进路线图

7.2 平台迁移评估 Prompt


我们当前使用 [当前平台] 作为 AI Agent 可观测性工具，考虑迁移到 [目标平台]。

## 当前状况
- 当前平台：[LangSmith / Langfuse / Helicone / 其他]
- 迁移原因：[成本 / 功能不足 / 数据主权 / 供应商锁定 / 其他]
- 当前数据量：[traces 数量/月]
- 依赖的核心功能：[追踪 / 评估 / Prompt 管理 / 成本追踪]
- 团队熟悉度：[高 / 中 / 低]

## 请评估
1. 迁移可行性评分（1-10）
2. 功能差距分析（当前平台有但目标平台没有的功能）
3. 迁移步骤和时间估算
4. 数据迁移方案
5. 风险和缓解措施
6. 迁移后的成本对比

7.3 多平台组合方案设计 Prompt


我的 AI Agent 系统需要同时满足以下需求，单一平台可能无法全部覆盖：

## 需求列表
- [需求1：例如"深度追踪 + 推理链可视化"]
- [需求2：例如"语义缓存降低成本"]
- [需求3：例如"系统化评估 + A/B 测试"]
- [需求4：例如"自托管 + 数据主权"]

## 请设计
1. 推荐的平台组合方案（最多 2 个平台）
2. 每个平台负责的功能范围
3. 平台间的数据流和集成方式
4. 总体成本估算
5. 运维复杂度评估

8. 实战案例：从选型到落地

案例一：创业团队快速启动

背景：3 人创业团队，使用 OpenAI GPT-4o 构建客服 Agent，日均 500 次对话，预算有限。

选型过程：

评估维度	权重	Helicone	Langfuse（云）	LangSmith
接入速度	30%	⭐⭐⭐⭐⭐	⭐⭐⭐	⭐⭐（非 LangChain）
成本	30%	⭐⭐⭐⭐⭐（免费层足够）	⭐⭐⭐⭐	⭐⭐⭐
功能深度	20%	⭐⭐⭐	⭐⭐⭐⭐	⭐⭐⭐⭐⭐
扩展性	20%	⭐⭐⭐⭐	⭐⭐⭐⭐⭐	⭐⭐⭐⭐
加权总分		4.3	3.9	3.4

决策：选择 Helicone，2 分钟接入，免费层覆盖当前需求。

落地步骤：


# 第 1 步：修改 OpenAI 客户端配置（2 分钟）
import openai
 
client = openai.OpenAI(
    api_key="sk-xxx",
    base_url="https://oai.helicone.ai/v1",
    default_headers={
        "Helicone-Auth": "Bearer hlc-xxx",
        "Helicone-Property-Agent": "customer-support",
        "Helicone-Property-Environment": "production"
    }
)
 
# 第 2 步：为每次对话添加会话标识
response = client.chat.completions.create(
    model="gpt-4o",
    messages=[...],
    extra_headers={
        "Helicone-Session-Id": session_id,
        "Helicone-User-Id": user_id
    }
)
 
# 第 3 步：在 Helicone 仪表板查看成本和延迟分析
# https://www.helicone.ai/dashboard

结果：上线首周即发现 30% 的对话因系统 Prompt 过长导致 Token 浪费，优化后月度成本降低 40%。

案例二：企业级自托管方案

背景：金融科技公司，10 人 AI 团队，使用 LangGraph 构建多 Agent 风控系统，数据不能出境，需要 SOC 2 合规。