11f - RAG 评估与优化

本文是《AI Agent 实战手册》第 11 章第 6 节。上一节：11e-高级RAG技术 | 下一节：12a-代码驱动视频概念

概述

构建 RAG 系统只是第一步，真正的挑战在于如何系统化地评估其质量并持续优化。2025 年的调研显示，约 70% 的 AI 工程师已在生产环境部署或计划部署 RAG 系统，但未经充分评估的 RAG 系统即使检索到正确信息，仍可能在高达 40% 的回答中产生幻觉。本节系统介绍 RAG 评估的核心指标体系、RAGAS 评估框架的实战用法，以及生产环境中的关键优化策略——分块调优、嵌入微调、语义缓存和成本管理，帮助你将 RAG 系统从”能跑”提升到”可靠且经济”。

1. RAG 评估指标体系

RAG 系统的评估需要同时覆盖检索质量和生成质量两个维度。传统 NLP 指标（如 BLEU、ROUGE）无法衡量回答是否基于检索到的上下文，因此需要专门的 RAG 评估指标。

核心指标一览

指标	维度	含义	计算方式
Faithfulness（忠实度）	生成	回答是否忠实于检索到的上下文，不编造信息	将回答拆分为多个声明，逐一验证是否能从上下文推导
Answer Relevancy（回答相关性）	生成	回答是否切题，与用户问题相关	用 LLM 从回答反向生成问题，计算与原始问题的语义相似度
Context Precision（上下文精确度）	检索	检索到的文档中，有多少是真正相关的	相关文档数 / 检索到的总文档数
Context Recall（上下文召回率）	检索	回答所需的信息是否都被检索到了	回答中可归因于上下文的声明数 / 总声明数
Precision@K	检索	Top-K 结果中相关文档的比例	相关文档数 / K
Recall@K	检索	Top-K 结果覆盖了多少相关文档	Top-K 中的相关文档数 / 总相关文档数
Answer Correctness（回答正确性）	端到端	回答与标准答案的一致程度	语义相似度 + 事实重叠度的加权组合
Noise Sensitivity（噪声敏感度）	鲁棒性	检索到无关文档时，生成质量的下降程度	注入噪声文档前后的回答质量差异

指标间的关系


用户查询
  │
  ▼
┌─────────────────────────────────────┐
│         检索阶段评估                  │
│  Context Precision ← 检索到的文档相关吗？│
│  Context Recall    ← 需要的信息都检索到了吗？│
│  Precision@K / Recall@K             │
└──────────────────┬──────────────────┘
                   ▼
┌─────────────────────────────────────┐
│         生成阶段评估                  │
│  Faithfulness      ← 回答忠实于上下文吗？│
│  Answer Relevancy  ← 回答切题吗？      │
└──────────────────┬──────────────────┘
                   ▼
┌─────────────────────────────────────┐
│         端到端评估                    │
│  Answer Correctness ← 最终回答正确吗？  │
│  Noise Sensitivity  ← 系统鲁棒吗？     │
└─────────────────────────────────────┘

工具推荐

工具	用途	价格	适用场景
RAGAS	开源 RAG 评估框架，提供 faithfulness/relevancy/precision/recall 等指标	免费（开源）	开发和 CI/CD 中的自动化评估
DeepEval	pytest 风格的 LLM 评估框架，支持 RAG 指标	免费（开源）；Confident AI 云版 $60/月起	与测试流程集成，CI/CD 友好
Maxim AI	端到端 RAG 评估与可观测性平台	免费层可用；企业版联系销售	生产级评估、模拟测试、监控一体化
LangSmith	LangChain 生态的追踪和评估平台	免费层 5K traces/月；Plus $39/月	LangChain 用户，trace 级评估
Arize Phoenix	开源 LLM 可观测性平台	免费（开源）；云版 $50/月起	自托管评估和监控
Braintrust	AI 产品评估和优化平台	免费层可用；Pro $50/月起	实验管理、A/B 测试
TruLens	开源 LLM 应用评估库	免费（开源）	轻量级评估，快速集成
MLflow + RAGAS	MLflow 集成 RAGAS 指标追踪	免费（开源）	实验追踪和指标版本管理

操作步骤

步骤 1：确定评估策略

根据项目阶段选择合适的评估方式：

阶段	评估方式	推荐工具	频率
开发期	离线评估（黄金数据集）	RAGAS + DeepEval	每次代码变更
预发布	A/B 测试 + 人工评审	Braintrust / LangSmith	发布前
生产期	在线监控 + 采样评估	Arize Phoenix / Maxim AI	持续
迭代期	回归测试	DeepEval CI/CD	每次迭代

步骤 2：构建黄金评估数据集


# 黄金数据集格式：包含查询、标准答案、相关上下文
evaluation_dataset = [
    {
        "question": "RAG 系统中的分块策略有哪些？",
        "ground_truth": "常见的分块策略包括固定大小分块、递归分块、语义分块和文档结构分块...",
        "contexts": [
            "固定大小分块将文档按固定 token 数切分，简单但可能破坏语义...",
            "语义分块使用嵌入模型检测语义边界，保持段落完整性...",
        ]
    },
    {
        "question": "如何选择向量数据库？",
        "ground_truth": "选择向量数据库需要考虑数据规模、查询延迟、托管方式和成本...",
        "contexts": [
            "Pinecone 提供全托管服务，适合零运维需求...",
            "Qdrant 支持混合搜索，适合需要精确关键词匹配的场景...",
        ]
    },
    # 建议至少 50-100 条评估样本
]

构建黄金数据集的最佳实践：

从真实用户查询中采样，覆盖高频和长尾查询
标准答案由领域专家编写或审核
包含不同难度级别（简单事实、多步推理、对比分析）
定期更新，反映知识库的变化

提示词模板


你是一个 RAG 系统评估专家。请帮我设计评估方案：

**系统信息：**
- 知识库规模：[文档数量] 篇，[总 token 数]
- 查询类型：[事实查询/分析查询/对比查询/操作指导]
- 当前已有评估数据：[有/无] 黄金数据集
- 部署阶段：[开发/预发布/生产]

**请输出：**
1. 推荐的评估指标组合及优先级
2. 黄金数据集的构建策略（样本数、覆盖范围、标注方法）
3. 评估工具选择及配置建议
4. 基线指标的合理范围（各指标的目标值）
5. 持续评估的自动化方案

2. RAGAS 评估框架实战

RAGAS（Retrieval Augmented Generation Assessment）是目前最广泛使用的开源 RAG 评估框架。它的核心优势是无需参考答案即可评估（reference-free），通过 LLM 作为评判者来计算各项指标，大幅降低了评估的标注成本。

工具推荐

工具	用途	价格	适用场景
ragas（Python 库）	核心评估计算	免费（开源）	所有 RAG 评估场景
OpenAI GPT-4o-mini	RAGAS 默认评判模型	$0.15/百万输入 tokens	高质量评估，成本适中
Claude 3.5 Haiku	替代评判模型	$0.25/百万输入 tokens	多模型交叉验证
datasets（HuggingFace）	评估数据集管理	免费（开源）	数据集版本管理
MLflow	评估结果追踪	免费（开源）	实验对比和指标可视化

操作步骤

步骤 1：安装和基本配置


pip install ragas langchain-openai datasets

步骤 2：使用 RAGAS 评估 RAG Pipeline（Python）


from ragas import evaluate
from ragas.metrics import (
    Faithfulness,
    AnswerRelevancy,
    ContextPrecision,
    ContextRecall,
)
from ragas.dataset_schema import SingleTurnSample, EvaluationDataset
from ragas.llms import LangchainLLMWrapper
from langchain_openai import ChatOpenAI
 
# 配置评判模型
evaluator_llm = LangchainLLMWrapper(
    ChatOpenAI(model="gpt-4o-mini", temperature=0)
)
 
# 准备评估数据（从你的 RAG pipeline 收集）
samples = [
    SingleTurnSample(
        user_input="RAG 系统的核心组件有哪些？",
        retrieved_contexts=[
            "RAG 系统由文档摄入、分块、嵌入、向量存储、检索和生成六个核心组件组成。",
            "文档摄入负责从各种数据源加载原始文档，支持 PDF、Markdown、HTML 等格式。",
        ],
        response="RAG 系统的核心组件包括：1) 文档摄入模块，2) 分块策略，"
                 "3) 嵌入模型，4) 向量存储，5) 检索引擎，6) 生成模型。",
        reference="RAG 系统由六个核心组件组成：文档摄入、分块、嵌入、向量存储、检索和生成。",
    ),
    SingleTurnSample(
        user_input="如何优化 RAG 的检索精度？",
        retrieved_contexts=[
            "混合搜索结合 BM25 和向量搜索，可提升 10-30% 的召回率。",
            "重排序模型在初始检索后进行精排，显著提升排序质量。",
            "查询转换技术如 HyDE 可以弥合查询与文档之间的语义鸿沟。",
        ],
        response="优化 RAG 检索精度的主要方法包括：混合搜索（BM25 + 向量搜索）、"
                 "重排序（Cross-Encoder 精排）、查询转换（HyDE、查询分解）。"
                 "混合搜索可提升 10-30% 召回率，重排序可进一步提升精度。",
        reference="优化 RAG 检索精度的方法包括混合搜索、重排序和查询转换。",
    ),
]
 
# 创建评估数据集
eval_dataset = EvaluationDataset(samples=samples)
 
# 定义评估指标
metrics = [
    Faithfulness(llm=evaluator_llm),
    AnswerRelevancy(llm=evaluator_llm),
    ContextPrecision(llm=evaluator_llm),
    ContextRecall(llm=evaluator_llm),
]
 
# 执行评估
results = evaluate(
    dataset=eval_dataset,
    metrics=metrics,
)
 
# 查看结果
print(results)
# 输出示例：
# {'faithfulness': 0.92, 'answer_relevancy': 0.88,
#  'context_precision': 0.85, 'context_recall': 0.90}
 
# 转为 DataFrame 查看每条样本的详细分数
df = results.to_pandas()
print(df[['user_input', 'faithfulness', 'answer_relevancy',
           'context_precision', 'context_recall']])

步骤 3：集成到 CI/CD Pipeline


# test_rag_quality.py — 用 pytest + RAGAS 做回归测试
import pytest
from ragas import evaluate
from ragas.metrics import Faithfulness, AnswerRelevancy
from ragas.dataset_schema import SingleTurnSample, EvaluationDataset
from ragas.llms import LangchainLLMWrapper
from langchain_openai import ChatOpenAI
import json
 
# 加载黄金数据集
def load_golden_dataset(path: str) -> list[dict]:
    with open(path) as f:
        return json.load(f)
 
# 运行 RAG pipeline 获取回答
def run_rag_pipeline(question: str) -> dict:
    """调用你的 RAG pipeline，返回 response 和 contexts"""
    # 替换为你的实际 RAG pipeline 调用
    from my_rag_app import query_rag
    result = query_rag(question)
    return {
        "response": result["answer"],
        "contexts": result["source_documents"],
    }
 
# 质量门：各指标的最低阈值
QUALITY_THRESHOLDS = {
    "faithfulness": 0.85,
    "answer_relevancy": 0.80,
}
 
def test_rag_quality():
    """RAG 质量回归测试 — 在 CI/CD 中运行"""
    golden_data = load_golden_dataset("tests/golden_dataset.json")
 
    samples = []
    for item in golden_data:
        result = run_rag_pipeline(item["question"])
        samples.append(SingleTurnSample(
            user_input=item["question"],
            retrieved_contexts=result["contexts"],
            response=result["response"],
            reference=item.get("ground_truth", ""),
        ))
 
    eval_dataset = EvaluationDataset(samples=samples)
    evaluator_llm = LangchainLLMWrapper(
        ChatOpenAI(model="gpt-4o-mini", temperature=0)
    )
 
    results = evaluate(
        dataset=eval_dataset,
        metrics=[
            Faithfulness(llm=evaluator_llm),
            AnswerRelevancy(llm=evaluator_llm),
        ],
    )
 
    # 断言质量门
    for metric_name, threshold in QUALITY_THRESHOLDS.items():
        score = results[metric_name]
        assert score >= threshold, (
            f"{metric_name} 分数 {score:.2f} 低于阈值 {threshold}"
        )

步骤 4：使用 DeepEval 进行 pytest 风格评估


# test_rag_deepeval.py — DeepEval 提供更贴近开发者习惯的测试体验
from deepeval import assert_test
from deepeval.test_case import LLMTestCase
from deepeval.metrics import (
    FaithfulnessMetric,
    AnswerRelevancyMetric,
    ContextualPrecisionMetric,
    ContextualRecallMetric,
)
 
def test_rag_faithfulness():
    """测试 RAG 回答的忠实度"""
    test_case = LLMTestCase(
        input="什么是向量数据库？",
        actual_output="向量数据库是专门存储和检索高维向量的数据库系统，"
                      "常用于 RAG 系统中存储文档嵌入。",
        retrieval_context=[
            "向量数据库是一种专门设计用于存储、索引和查询高维向量数据的数据库。",
            "在 RAG 系统中，向量数据库用于存储文档的嵌入表示。",
        ],
        expected_output="向量数据库是存储和检索高维向量的专用数据库。",
    )
 
    faithfulness = FaithfulnessMetric(threshold=0.8, model="gpt-4o-mini")
    relevancy = AnswerRelevancyMetric(threshold=0.8, model="gpt-4o-mini")
 
    assert_test(test_case, [faithfulness, relevancy])

提示词模板


你是一个 RAG 评估工程师。请帮我分析以下评估结果并给出优化建议：

**评估结果：**
- Faithfulness: [分数]
- Answer Relevancy: [分数]
- Context Precision: [分数]
- Context Recall: [分数]
- 样本数量: [数量]

**系统配置：**
- 嵌入模型: [模型名]
- 分块策略: [策略]
- 检索方式: [向量搜索/混合搜索]
- 生成模型: [模型名]

**请分析：**
1. 各指标的健康度评估（优秀/良好/需改进/严重问题）
2. 最需要优先改进的指标及原因
3. 针对每个低分指标的具体优化建议
4. 预期优化后的指标提升范围
5. 建议的下一步实验计划

3. 生产优化：分块调优

分块策略是 RAG 系统中影响最大的单一因素之一。研究表明，朴素的固定大小分块比语义分块多产生约 40% 的无关检索结果。

工具推荐

工具	用途	价格	适用场景
LangChain Text Splitters	多种分块策略实现	免费（开源）	快速集成各种分块方法
LlamaIndex Node Parsers	语义感知分块	免费（开源）	文档结构保持
Unstructured	文档结构解析 + 分块	免费（开源）；API $0.01/页	复杂文档格式
Chonkie	轻量级分块库	免费（开源）	快速原型，多策略支持
semantic-text-splitter	Rust 实现的语义分块	免费（开源）	高性能语义分块

操作步骤

步骤 1：理解分块策略对比

策略	原理	优势	劣势	推荐场景
固定大小	按固定 token 数切分	简单、快速、可预测	破坏语义边界	快速原型
递归分块	按分隔符层级递归切分	平衡语义和大小	需要调参	通用推荐
语义分块	用嵌入模型检测语义边界	保持语义完整	计算成本高 3-5x	高质量要求
文档结构	按标题/段落/列表结构切分	保持文档逻辑	依赖文档格式	结构化文档
Late Chunking	先用长上下文模型编码整文档，再切分	保持全局上下文	需要长上下文嵌入模型	上下文依赖强的文档
Agentic Chunking	用 LLM 判断分块边界	最高质量	成本最高	小规模高价值文档

步骤 2：分块参数调优实验


from langchain_text_splitters import RecursiveCharacterTextSplitter
from ragas import evaluate
from ragas.metrics import ContextPrecision, ContextRecall
import itertools
 
# 定义参数搜索空间
chunk_sizes = [256, 512, 768, 1024]
chunk_overlaps = [0, 50, 100, 200]
 
results_log = []
 
for size, overlap in itertools.product(chunk_sizes, chunk_overlaps):
    if overlap >= size:
        continue  # 跳过无效组合
 
    # 使用当前参数分块
    splitter = RecursiveCharacterTextSplitter(
        chunk_size=size,
        chunk_overlap=overlap,
        separators=["\n\n", "\n", "。", ".", " "],  # 中文友好分隔符
    )
    chunks = splitter.split_documents(documents)
 
    # 重建索引并运行评估
    index = build_index(chunks)  # 你的索引构建函数
    eval_results = run_evaluation(index, golden_dataset)  # 你的评估函数
 
    results_log.append({
        "chunk_size": size,
        "chunk_overlap": overlap,
        "num_chunks": len(chunks),
        "context_precision": eval_results["context_precision"],
        "context_recall": eval_results["context_recall"],
        "faithfulness": eval_results["faithfulness"],
    })
 
# 分析结果，找到最优参数组合
import pandas as pd
df = pd.DataFrame(results_log)
print(df.sort_values("faithfulness", ascending=False).head(5))

步骤 3：实现语义分块


from langchain_experimental.text_splitter import SemanticChunker
from langchain_openai import OpenAIEmbeddings
 
# 语义分块：基于嵌入相似度检测语义边界
semantic_splitter = SemanticChunker(
    embeddings=OpenAIEmbeddings(model="text-embedding-3-small"),
    breakpoint_threshold_type="percentile",  # 或 "standard_deviation"
    breakpoint_threshold_amount=75,  # 相似度低于 75 分位时切分
)
 
semantic_chunks = semantic_splitter.split_documents(documents)
 
# 对比固定分块和语义分块的效果
print(f"固定分块: {len(fixed_chunks)} 块, 平均 {avg_size(fixed_chunks)} tokens")
print(f"语义分块: {len(semantic_chunks)} 块, 平均 {avg_size(semantic_chunks)} tokens")

提示词模板


你是一个 RAG 分块优化专家。请根据以下信息推荐最佳分块策略：

**文档特征：**
- 文档类型：[技术文档/法律合同/客服FAQ/学术论文/产品手册]
- 平均文档长度：[token 数]
- 文档结构：[有清晰标题层级/纯文本/混合格式]
- 语言：[中文/英文/多语言]
- 是否包含代码块：[是/否]
- 是否包含表格：[是/否]

**当前问题：**
- Context Precision: [分数]（目标: [目标值]）
- Context Recall: [分数]（目标: [目标值]）

**请输出：**
1. 推荐的分块策略及理由
2. 具体参数建议（chunk_size, overlap, 分隔符）
3. 是否需要元数据增强（标题、摘要、关键词）
4. 预期的指标提升范围
5. 实验计划（参数搜索空间和评估方法）

4. 生产优化：嵌入微调

通用嵌入模型在特定领域的检索效果往往不理想。嵌入微调（Embedding Fine-tuning）通过在领域数据上训练，让嵌入模型更好地理解领域术语和语义关系，通常可提升 5-15% 的检索精度。

工具推荐

工具	用途	价格	适用场景
Sentence Transformers	开源嵌入模型微调框架	免费（开源）	自托管微调，完全控制
OpenAI Fine-tuning API	微调 OpenAI 嵌入模型	训练 $0.008/千 tokens；推理价格不变	使用 OpenAI 生态
Cohere Embed Fine-tuning	微调 Cohere 嵌入模型	联系销售	Cohere 生态用户
Unsloth	高效 LLM/嵌入模型微调	免费（开源）	GPU 资源有限时
LlamaIndex Fine-tuning	嵌入微调集成模块	免费（开源）	与 LlamaIndex pipeline 集成

操作步骤

步骤 1：准备微调训练数据


# 生成训练数据：(query, positive_doc, negative_doc) 三元组
from openai import OpenAI
import json
 
client = OpenAI()
 
def generate_training_pairs(chunks: list[str], n_queries: int = 3) -> list[dict]:
    """为每个文档块生成训练查询"""
    training_data = []
 
    for i, chunk in enumerate(chunks):
        # 用 LLM 为文档块生成可能的查询
        response = client.chat.completions.create(
            model="gpt-4o-mini",
            messages=[{
                "role": "system",
                "content": (
                    f"阅读以下文档段落，生成 {n_queries} 个用户可能会问的问题。"
                    "这些问题应该能通过该段落回答。输出 JSON 数组。"
                )
            }, {
                "role": "user",
                "content": chunk
            }],
            response_format={"type": "json_object"},
        )
        questions = json.loads(response.choices[0].message.content).get("questions", [])
 
        for q in questions:
            training_data.append({
                "query": q,
                "positive": chunk,  # 正样本：能回答该查询的文档
                "negative": chunks[(i + 1) % len(chunks)],  # 简单负采样
            })
 
    return training_data
 
training_pairs = generate_training_pairs(document_chunks)
print(f"生成了 {len(training_pairs)} 个训练样本")

步骤 2：使用 Sentence Transformers 微调


from sentence_transformers import SentenceTransformer, InputExample, losses
from torch.utils.data import DataLoader
 
# 加载基础模型
model = SentenceTransformer("BAAI/bge-small-en-v1.5")
 
# 准备训练数据
train_examples = [
    InputExample(
        texts=[pair["query"], pair["positive"], pair["negative"]]
    )
    for pair in training_pairs
]
 
train_dataloader = DataLoader(train_examples, shuffle=True, batch_size=16)
 
# 使用 TripletLoss 微调
train_loss = losses.TripletLoss(model=model)
 
# 训练
model.fit(
    train_objectives=[(train_dataloader, train_loss)],
    epochs=3,
    warmup_steps=100,
    output_path="./fine_tuned_embedding_model",
    show_progress_bar=True,
)
 
# 评估微调效果
from sentence_transformers import evaluation
evaluator = evaluation.InformationRetrievalEvaluator(
    queries=eval_queries,
    corpus=eval_corpus,
    relevant_docs=eval_relevant_docs,
)
score = evaluator(model)
print(f"微调后 NDCG@10: {score['ndcg@10']:.4f}")

步骤 3：评估微调前后的效果


# 对比微调前后的 RAG 评估指标
from ragas import evaluate
from ragas.metrics import ContextPrecision, ContextRecall, Faithfulness
 
# 使用原始模型构建索引
original_index = build_index(chunks, model="BAAI/bge-small-en-v1.5")
original_results = run_evaluation(original_index, golden_dataset)
 
# 使用微调模型构建索引
finetuned_index = build_index(chunks, model="./fine_tuned_embedding_model")
finetuned_results = run_evaluation(finetuned_index, golden_dataset)
 
# 对比
print("指标对比：")
print(f"  Context Precision: {original_results['context_precision']:.2f}"
      f" → {finetuned_results['context_precision']:.2f}")
print(f"  Context Recall:    {original_results['context_recall']:.2f}"
      f" → {finetuned_results['context_recall']:.2f}")
print(f"  Faithfulness:      {original_results['faithfulness']:.2f}"
      f" → {finetuned_results['faithfulness']:.2f}")

提示词模板


你是一个嵌入模型微调专家。请评估是否需要微调以及如何执行：

**当前系统：**
- 嵌入模型：[模型名]
- 领域：[技术/医疗/法律/金融/通用]
- 领域术语密度：[高/中/低]
- 当前 Context Precision: [分数]
- 可用训练数据：[文档数量] 篇

**请评估：**
1. 是否需要微调（vs 换用更好的通用模型）
2. 推荐的微调方法（全量微调/LoRA/对比学习）
3. 训练数据准备策略（正负样本生成方法）
4. 训练参数建议（epochs, batch_size, learning_rate）
5. 预期的检索精度提升范围
6. 微调的计算成本和时间估算

5. 生产优化：缓存策略

缓存是降低 RAG 系统成本和延迟的最有效手段之一。合理的缓存策略可以减少 60-80% 的重复计算，同时保持回答质量。

工具推荐

工具	用途	价格	适用场景
Redis	高性能键值缓存	免费（开源）；Redis Cloud $5/月起	嵌入缓存、结果缓存
GPTCache	专为 LLM 设计的语义缓存	免费（开源）	语义相似查询的缓存命中
LangChain CacheBackedEmbeddings	嵌入计算缓存	免费（开源）	避免重复嵌入计算
Momento	Serverless 缓存服务	免费层 5GB；$0.50/GB/月	零运维缓存
DiskCache	本地磁盘缓存	免费（开源）	开发环境、单机部署

操作步骤

步骤 1：理解 RAG 缓存层次


┌─────────────────────────────────────────────────────┐
│  Layer 1: 查询结果缓存（精确匹配）                      │
│  命中率: 高（重复查询）  延迟: <1ms  成本节省: 最大       │
│  实现: Redis/Memcached，key=hash(query)              │
├─────────────────────────────────────────────────────┤
│  Layer 2: 语义缓存（相似查询匹配）                      │
│  命中率: 中  延迟: ~10ms  成本节省: 大                  │
│  实现: GPTCache，基于嵌入相似度匹配                      │
├─────────────────────────────────────────────────────┤
│  Layer 3: 嵌入缓存（避免重复嵌入计算）                   │
│  命中率: 高（文档不变时）  延迟: <1ms  成本节省: 中       │
│  实现: CacheBackedEmbeddings                         │
├─────────────────────────────────────────────────────┤
│  Layer 4: 检索结果缓存（缓存 Top-K 文档）               │
│  命中率: 中  延迟: <5ms  成本节省: 中                   │
│  实现: Redis，key=hash(query_embedding)              │
└─────────────────────────────────────────────────────┘

步骤 2：实现语义缓存（GPTCache）


from gptcache import cache
from gptcache.adapter import openai as gptcache_openai
from gptcache.embedding import Onnx
from gptcache.manager import CacheBase, VectorBase, get_data_manager
from gptcache.similarity_evaluation.distance import SearchDistanceEvaluation
 
# 初始化语义缓存
onnx = Onnx()  # 轻量级嵌入模型用于缓存匹配
cache_base = CacheBase("sqlite")  # 缓存元数据存储
vector_base = VectorBase(
    "faiss",
    dimension=onnx.dimension,
)
data_manager = get_data_manager(cache_base, vector_base)
 
cache.init(
    embedding_func=onnx.to_embeddings,
    data_manager=data_manager,
    similarity_evaluation=SearchDistanceEvaluation(),
)
cache.set_openai_key()
 
# 使用缓存的 OpenAI 调用
# 第一次调用：正常请求 API
response1 = gptcache_openai.ChatCompletion.create(
    model="gpt-4o-mini",
    messages=[{"role": "user", "content": "什么是 RAG？"}],
)
 
# 第二次调用（语义相似查询）：命中缓存，零延迟零成本
response2 = gptcache_openai.ChatCompletion.create(
    model="gpt-4o-mini",
    messages=[{"role": "user", "content": "RAG 是什么意思？"}],
)
# response2 直接从缓存返回，不调用 API

步骤 3：实现嵌入缓存


from langchain_openai import OpenAIEmbeddings
from langchain.embeddings import CacheBackedEmbeddings
from langchain.storage import LocalFileStore
 
# 创建本地文件缓存
store = LocalFileStore("./embedding_cache/")
 
# 包装嵌入模型，自动缓存计算结果
cached_embeddings = CacheBackedEmbeddings.from_bytes_store(
    underlying_embeddings=OpenAIEmbeddings(model="text-embedding-3-small"),
    document_embedding_cache=store,
    namespace="text-embedding-3-small",  # 模型变更时自动失效
)
 
# 第一次嵌入：调用 API 并缓存
vectors = cached_embeddings.embed_documents(["RAG 系统架构...", "向量数据库..."])
 
# 第二次嵌入相同文档：直接从缓存读取，零 API 调用
vectors_cached = cached_embeddings.embed_documents(["RAG 系统架构...", "向量数据库..."])

步骤 4：实现 Redis 多层缓存


import redis
import hashlib
import json
from typing import Optional
 
class RAGCache:
    """RAG 系统多层缓存"""
 
    def __init__(self, redis_url: str = "redis://localhost:6379"):
        self.redis = redis.from_url(redis_url)
        self.default_ttl = 3600  # 1 小时过期
 
    def _hash_key(self, prefix: str, content: str) -> str:
        return f"{prefix}:{hashlib.sha256(content.encode()).hexdigest()[:16]}"
 
    # Layer 1: 精确查询缓存
    def get_answer(self, query: str) -> Optional[str]:
        key = self._hash_key("answer", query)
        cached = self.redis.get(key)
        return json.loads(cached) if cached else None
 
    def set_answer(self, query: str, answer: str, contexts: list[str]):
        key = self._hash_key("answer", query)
        self.redis.setex(
            key, self.default_ttl,
            json.dumps({"answer": answer, "contexts": contexts})
        )
 
    # Layer 4: 检索结果缓存
    def get_retrieval(self, query_embedding: list[float]) -> Optional[list]:
        key = self._hash_key("retrieval", str(query_embedding[:8]))
        cached = self.redis.get(key)
        return json.loads(cached) if cached else None
 
    def set_retrieval(self, query_embedding: list[float], docs: list[str]):
        key = self._hash_key("retrieval", str(query_embedding[:8]))
        self.redis.setex(key, self.default_ttl, json.dumps(docs))
 
    # 缓存统计
    def get_stats(self) -> dict:
        info = self.redis.info("stats")
        hits = info.get("keyspace_hits", 0)
        misses = info.get("keyspace_misses", 0)
        total = hits + misses
        return {
            "hit_rate": hits / total if total > 0 else 0,
            "total_keys": self.redis.dbsize(),
            "memory_used_mb": self.redis.info("memory")["used_memory"] / 1024 / 1024,
        }
 
# 使用示例
rag_cache = RAGCache()
 
# 查询时先检查缓存
cached = rag_cache.get_answer(user_query)
if cached:
    return cached  # 缓存命中，直接返回
else:
    answer = run_rag_pipeline(user_query)  # 缓存未命中，执行完整 pipeline
    rag_cache.set_answer(user_query, answer["response"], answer["contexts"])
    return answer

提示词模板


你是一个 RAG 缓存架构师。请设计缓存策略：

**系统特征：**
- 日均查询量：[数量]
- 查询重复率估计：[百分比]
- 平均查询延迟要求：[毫秒]
- 知识库更新频率：[每天/每周/每月]
- 当前月度 API 成本：[$金额]

**请输出：**
1. 推荐的缓存层次和每层的实现方案
2. 缓存失效策略（TTL、主动失效、版本控制）
3. 语义缓存的相似度阈值建议
4. 预期的成本节省和延迟改善
5. 缓存预热策略（高频查询预加载）
6. 监控指标（命中率、内存使用、过期率）

6. 生产优化：成本管理

RAG 系统的成本主要来自三个方面：嵌入计算、向量存储和 LLM 生成。在生产环境中，不加控制的成本可能快速增长。

工具推荐

工具	用途	价格	适用场景
LangSmith	Token 使用追踪和成本分析	免费层 5K traces/月；Plus $39/月	LangChain 生态成本监控
Langfuse	开源成本追踪和分析	免费（自托管）；云版 $59/月起	自托管成本监控
Helicone	LLM 代理层，自动追踪成本	免费层 10K 请求/月；Pro $80/月	零代码成本追踪
OpenRouter	多模型路由，自动选择最优价格	按使用量计费（各模型价格不同）	多模型成本优化
LiteLLM	开源 LLM 代理，统一 API	免费（开源）	模型路由和降级

操作步骤

步骤 1：理解 RAG 成本构成

成本项	典型价格	占比	优化空间
嵌入计算（索引时）	$0.02/百万 tokens（text-embedding-3-small）	5-10%	一次性成本，缓存可消除重复
嵌入计算（查询时）	同上	2-5%	缓存高频查询嵌入
向量存储	$10-70/月（取决于数据量）	10-20%	选择合适的存储方案
LLM 生成	$0.15-15/百万 tokens（取决于模型）	60-80%	最大优化空间
重排序	$2/千次查询（Cohere）	5-10%	仅对复杂查询启用

步骤 2：实现分级处理策略


from openai import OpenAI
from enum import Enum
 
class QueryComplexity(Enum):
    SIMPLE = "simple"      # 简单事实查询
    MODERATE = "moderate"  # 中等复杂度
    COMPLEX = "complex"    # 复杂多步推理
 
def classify_query(query: str) -> QueryComplexity:
    """用轻量模型分类查询复杂度"""
    client = OpenAI()
    response = client.chat.completions.create(
        model="gpt-4o-mini",  # 用最便宜的模型做分类
        messages=[{
            "role": "system",
            "content": (
                "将查询分类为 simple/moderate/complex。"
                "simple: 单一事实查询。moderate: 需要综合多个信息。"
                "complex: 需要推理、对比或多步分析。只输出分类词。"
            )
        }, {"role": "user", "content": query}],
        max_tokens=10,
    )
    level = response.choices[0].message.content.strip().lower()
    return QueryComplexity(level)
 
def cost_aware_rag(query: str) -> dict:
    """根据查询复杂度选择不同的处理路径"""
    complexity = classify_query(query)
 
    if complexity == QueryComplexity.SIMPLE:
        # 简单查询：小模型 + 少量检索 + 无重排序
        docs = retrieve(query, k=3)
        answer = generate(query, docs, model="gpt-4o-mini")
        # 预估成本: ~$0.001
 
    elif complexity == QueryComplexity.MODERATE:
        # 中等查询：小模型 + 混合搜索 + 轻量重排序
        docs = hybrid_retrieve(query, k=10)
        docs = rerank(query, docs, top_n=5)
        answer = generate(query, docs, model="gpt-4o-mini")
        # 预估成本: ~$0.005
 
    else:
        # 复杂查询：强模型 + 全流程 + 重排序 + 质量检查
        docs = hybrid_retrieve(query, k=20)
        docs = rerank(query, docs, top_n=8)
        answer = generate(query, docs, model="gpt-4o")
        answer = verify_and_retry(query, answer, docs)
        # 预估成本: ~$0.02
 
    return {"answer": answer, "complexity": complexity.value}

步骤 3：设置成本预算和告警


import time
from dataclasses import dataclass, field
 
@dataclass
class CostTracker:
    """RAG 系统成本追踪器"""
    daily_budget: float = 50.0  # 每日预算 $50
    monthly_budget: float = 1000.0  # 每月预算 $1000
 
    daily_cost: float = 0.0
    monthly_cost: float = 0.0
    query_count: int = 0
    _costs: list = field(default_factory=list)
 
    # 各组件单价（每千 tokens）
    PRICING = {
        "gpt-4o": {"input": 0.0025, "output": 0.01},
        "gpt-4o-mini": {"input": 0.00015, "output": 0.0006},
        "text-embedding-3-small": {"input": 0.00002},
        "cohere-rerank": {"per_query": 0.002},
    }
 
    def track(self, model: str, input_tokens: int, output_tokens: int = 0):
        pricing = self.PRICING.get(model, {})
        cost = (
            pricing.get("input", 0) * input_tokens / 1000
            + pricing.get("output", 0) * output_tokens / 1000
            + pricing.get("per_query", 0)
        )
        self.daily_cost += cost
        self.monthly_cost += cost
        self.query_count += 1
        self._costs.append({"model": model, "cost": cost, "time": time.time()})
 
        # 预算告警
        if self.daily_cost > self.daily_budget * 0.8:
            self._alert(f"日成本已达预算 80%: ${self.daily_cost:.2f}/${self.daily_budget}")
        if self.monthly_cost > self.monthly_budget * 0.8:
            self._alert(f"月成本已达预算 80%: ${self.monthly_cost:.2f}/${self.monthly_budget}")
 
    def _alert(self, message: str):
        print(f"⚠️ 成本告警: {message}")
        # 实际生产中发送到 Slack/PagerDuty/邮件
 
    @property
    def avg_cost_per_query(self) -> float:
        return self.monthly_cost / max(self.query_count, 1)
 
    def report(self) -> dict:
        return {
            "daily_cost": f"${self.daily_cost:.2f}",
            "monthly_cost": f"${self.monthly_cost:.2f}",
            "query_count": self.query_count,
            "avg_cost_per_query": f"${self.avg_cost_per_query:.4f}",
            "daily_budget_usage": f"{self.daily_cost/self.daily_budget*100:.1f}%",
        }
 
# 使用示例
tracker = CostTracker(daily_budget=50, monthly_budget=1000)
tracker.track("text-embedding-3-small", input_tokens=500)
tracker.track("gpt-4o-mini", input_tokens=2000, output_tokens=500)
print(tracker.report())

步骤 4：模型路由降级策略


from litellm import completion
 
def smart_generate(query: str, context: str, max_budget: float = 0.01) -> str:
    """智能模型路由：根据预算和查询复杂度选择模型"""
 
    # 模型优先级列表（从强到弱）
    models = [
        {"name": "gpt-4o", "cost_per_1k": 0.0025, "quality": "high"},
        {"name": "gpt-4o-mini", "cost_per_1k": 0.00015, "quality": "medium"},
        {"name": "claude-3-5-haiku-latest", "cost_per_1k": 0.00025, "quality": "medium"},
    ]
 
    # 估算 token 数
    estimated_tokens = len(query + context) // 4  # 粗略估算
 
    # 选择预算内最强的模型
    for model in models:
        estimated_cost = model["cost_per_1k"] * estimated_tokens / 1000
        if estimated_cost <= max_budget:
            response = completion(
                model=model["name"],
                messages=[
                    {"role": "system", "content": f"基于以下上下文回答问题。\n\n上下文：{context}"},
                    {"role": "user", "content": query},
                ],
            )
            return response.choices[0].message.content
 
    # 所有模型都超预算，使用最便宜的
    response = completion(
        model=models[-1]["name"],
        messages=[
            {"role": "system", "content": f"基于以下上下文简洁回答。\n\n上下文：{context[:2000]}"},
            {"role": "user", "content": query},
        ],
    )
    return response.choices[0].message.content

提示词模板


你是一个 RAG 成本优化顾问。请分析当前成本并提出优化方案：

**当前成本数据：**
- 月度总成本：[$金额]
- 日均查询量：[数量]
- 平均每次查询成本：[$金额]
- 成本构成：嵌入 [%]，存储 [%]，生成 [%]，重排序 [%]

**系统配置：**
- 生成模型：[模型名]
- 嵌入模型：[模型名]
- 向量数据库：[数据库名]
- 是否使用缓存：[是/否]
- 是否使用重排序：[是/否]

**目标：**
- 目标月度成本：[$金额]
- 质量底线：Faithfulness ≥ [分数]

**请输出：**
1. 成本瓶颈分析（哪个环节最贵、为什么）
2. 短期优化（1 周内可实施，预期节省 [%]）
3. 中期优化（1 月内可实施，预期节省 [%]）
4. 长期优化（需要架构调整，预期节省 [%]）
5. 质量-成本权衡分析（降低成本对质量的影响）
6. 月度成本预测模型

实战案例：电商客服 RAG 系统的评估与优化全流程

场景描述

一家电商平台的客服 RAG 系统上线 3 个月后，用户满意度仅 65%。团队决定用系统化的评估和优化方法提升质量。

案例分析

第一步：建立评估基线

团队从真实客服对话中采样 200 条查询，由客服专家标注标准答案，构建黄金数据集。使用 RAGAS 评估基线：

指标	基线分数	目标分数
Faithfulness	0.72	≥ 0.90
Answer Relevancy	0.68	≥ 0.85
Context Precision	0.55	≥ 0.80
Context Recall	0.60	≥ 0.85

第二步：诊断问题

分析低分样本发现三个主要问题：

Context Precision 低（0.55）：固定 512 token 分块导致产品规格表被切断，检索到不完整信息
Context Recall 低（0.60）：退换货政策分散在多个文档中，单次检索无法覆盖
Faithfulness 低（0.72）：模型在上下文不足时倾向于编造退货期限等具体数据

第三步：分阶段优化


阶段 1（第 1 周）：分块优化
  - 从固定 512 token → 递归分块（chunk_size=800, overlap=150）
  - 为产品规格表使用文档结构分块，保持表格完整
  - 效果：Context Precision 0.55 → 0.71

阶段 2（第 2 周）：检索优化
  - 从纯向量搜索 → 混合搜索（alpha=0.7）
  - 添加 Cohere Rerank v3.5（Top-20 → Top-5）
  - 效果：Context Precision 0.71 → 0.82, Context Recall 0.60 → 0.78

阶段 3（第 3 周）：嵌入微调
  - 用 5000 条客服 QA 对微调 bge-small-en-v1.5
  - 效果：Context Recall 0.78 → 0.87

阶段 4（第 4 周）：生成优化 + 缓存
  - 在 system prompt 中强调"仅基于上下文回答，不确定时说明"
  - 部署 Redis 精确缓存 + GPTCache 语义缓存
  - 效果：Faithfulness 0.72 → 0.93, 成本降低 45%

最终结果：

指标	基线	优化后	提升
Faithfulness	0.72	0.93	+29%
Answer Relevancy	0.68	0.88	+29%
Context Precision	0.55	0.82	+49%
Context Recall	0.60	0.87	+45%
用户满意度	65%	89%	+24pp
每次查询成本	$0.008	$0.005	-37%

关键决策点：

先评估再优化——没有基线数据就无法衡量改进效果
按层次优化——数据 → 分块 → 检索 → 生成，每步验证效果
成本与质量并行——缓存策略在提升速度的同时降低了成本
持续监控——部署后每周运行 RAGAS 评估，检测质量退化

避坑指南

❌ 常见错误

不做评估就上线
- 问题：没有基线数据，无法判断系统质量，用户投诉后才发现问题
- 正确做法：上线前用 RAGAS 建立基线，设置质量门（如 Faithfulness ≥ 0.85），不达标不上线
只看端到端指标，忽略组件指标
- 问题：只看”回答是否正确”，无法定位是检索问题还是生成问题
- 正确做法：同时监控检索指标（Precision/Recall）和生成指标（Faithfulness/Relevancy），精准定位瓶颈
用固定分块处理所有文档
- 问题：固定 512 token 分块破坏表格、代码块、列表等结构化内容
- 正确做法：根据文档类型选择分块策略——结构化文档用文档结构分块，纯文本用递归分块，高价值文档用语义分块
嵌入微调数据质量差
- 问题：用 LLM 自动生成的训练数据未经审核，包含噪声和错误
- 正确做法：自动生成后人工抽样审核至少 10%，确保正负样本标注准确
缓存没有失效策略
- 问题：知识库更新后缓存仍返回旧答案，导致信息过时
- 正确做法：知识库更新时主动清除相关缓存，设置合理的 TTL（如 1-24 小时），关键信息不缓存
成本优化过度牺牲质量
- 问题：为省钱全部使用最便宜的模型，导致复杂查询回答质量严重下降
- 正确做法：实施分级处理——简单查询用小模型，复杂查询用强模型，设置质量底线
评估数据集不更新
- 问题：黄金数据集半年不更新，无法反映知识库的变化和新的查询模式
- 正确做法：每月从生产查询中采样补充评估数据集，保持与实际使用场景同步

✅ 最佳实践

建立评估驱动的优化循环：评估 → 诊断 → 优化 → 再评估，每次只改一个变量
按层次优化：数据质量 → 分块策略 → 嵌入/检索 → 生成，底层问题优先解决
设置质量门和成本预算：CI/CD 中集成 RAGAS 评估，低于阈值自动阻断部署
多维度监控：同时追踪质量指标、延迟指标和成本指标，三者平衡
A/B 测试验证：任何优化上线前都做 A/B 测试，用真实流量验证效果
缓存分层设计：精确缓存 + 语义缓存 + 嵌入缓存，最大化命中率

参考来源

RAG Evaluation Metrics Guide — FutureAGI （2025-10）
How to Measure RAG Performance — StackViv （2026-01）
The 5 Best RAG Evaluation Tools in 2026 — Maxim AI （2026-02）
Building Production-Ready RAG Systems — Athenic （2025-08）
RAG Optimization Techniques — NerdLevelTech （2025-12）
Best Chunking Strategies for RAG in 2025 — Firecrawl （2025-10）
RAG Evaluation with RAGAS and MLflow — Safjan （2026-01）
Automated RAG Pipeline Evaluation with RAGAS — CircleCI （2025-10）
Weights & Biases vs Ragas vs DeepEval vs TruLens — AIMultiple （2025-12）
RAG at Scale: How to Build Production AI Systems — Redis （2026-01）
Systematically Improving RAG Applications — Jason Liu （2025-01）
RAG Isn’t One Size Fits All — LanceDB （2025-12）

📖 返回总览与导航 | 上一节：11e-高级RAG技术 | 下一节：12a-代码驱动视频概念

11f - RAG 评估与优化

概述

1. RAG 评估指标体系

核心指标一览

指标间的关系

工具推荐

操作步骤

步骤 1：确定评估策略

步骤 2：构建黄金评估数据集

提示词模板

2. RAGAS 评估框架实战

工具推荐

操作步骤

步骤 1：安装和基本配置

步骤 2：使用 RAGAS 评估 RAG Pipeline（Python）

步骤 3：集成到 CI/CD Pipeline

步骤 4：使用 DeepEval 进行 pytest 风格评估

提示词模板

3. 生产优化：分块调优

工具推荐

操作步骤

步骤 1：理解分块策略对比

步骤 2：分块参数调优实验

步骤 3：实现语义分块

提示词模板

4. 生产优化：嵌入微调

工具推荐

操作步骤

步骤 1：准备微调训练数据

步骤 2：使用 Sentence Transformers 微调

步骤 3：评估微调前后的效果

提示词模板

5. 生产优化：缓存策略

工具推荐

操作步骤

步骤 1：理解 RAG 缓存层次

步骤 2：实现语义缓存（GPTCache）

步骤 3：实现嵌入缓存

步骤 4：实现 Redis 多层缓存

提示词模板

6. 生产优化：成本管理

工具推荐

操作步骤

步骤 1：理解 RAG 成本构成

步骤 2：实现分级处理策略

步骤 3：设置成本预算和告警

步骤 4：模型路由降级策略

提示词模板

实战案例：电商客服 RAG 系统的评估与优化全流程

场景描述

案例分析

避坑指南

❌ 常见错误

✅ 最佳实践

相关资源与延伸阅读

参考来源