【大模型LLM面试合集】rag(检索增强生成)技术

【大模型LLM面试合集】RAG(Retrieval-Augmented Generation)技术全面解析
(2025–2026 面试高频版,覆盖从基础到前沿,适合大厂/算法岗/应用落地岗)

RAG 是当前 LLM 应用落地最核心、最实用的技术,几乎 90% 的企业级 GenAI 项目(企业知识库、客服机器人、法律/金融问答、代码助手等)都会用到。它直接解决了 LLM 两大硬伤:

  • 知识时效性:模型训练截止日期后知识无法更新
  • 幻觉(Hallucination):凭空编造事实

核心一句话
RAG = Retriever(检索) + Generator(生成)
在生成答案前,先从外部知识库检索相关文档 → 把文档作为上下文拼接进 Prompt → 再让 LLM 生成。

1. RAG 发展阶段(面试必背时间线)

阶段时间代表论文/工作核心改进点典型场景
Naive RAG2020Lewis et al. (Facebook)简单检索+拼接早期原型
Advanced RAG2023–2024LlamaIndex、LangChain 优化Chunking + Metadata + Rerank + Query Rewrite生产主流
Modular RAG2024–2025Microsoft, Alibaba 等模块化、可插拔(Routing、Fusion、Verification)复杂多源知识库
Graph RAG2024–Microsoft GraphRAG知识图谱 + 社区摘要长文档、企业全量知识
Agentic RAG2025–CrewAI、LangGraph、AutoGen多 Agent 协作(Planner + Retriever + Critic)复杂推理任务
Corrective RAG (CRAG) / Self-RAG2024–自纠正、自反思检索检索质量评估 + 迭代检索高可靠性场景

2. 经典 Naive RAG 完整流程(画图必备)

用户 Query
    ↓
Query Rewrite / HyDE(可选:生成假设文档)
    ↓
Embedding(双向编码器:BGE、E5、text-embedding-3-large 等)
    ↓
Vector DB 检索(Top-K:FAISS / Chroma / Milvus / Pinecone / Weaviate)
    ↓
(可选)Reranker(Cross-Encoder:bge-reranker、Cohere Rerank)
    ↓
Context 组装(Chunk 拼接 + Metadata + 排序)
    ↓
Prompt 构建(System + Few-shot + Context + Query)
    ↓
LLM 生成(GPT-4o / Claude-3.5 / Qwen2.5 / DeepSeek-R1 等)
    ↓
(可选)Post-process:Fact Check / Citation / Answer Verification

3. 关键技术组件详解(面试高频考点)

(1)Chunking 策略(最容易被问到)

  • 固定长度(500–1000 token)
  • 递归字符分割 + Semantic Chunking(基于 embedding 相似度)
  • 按标题/段落/表格结构分割(MarkdownHeaderTextSplitter)
  • 小 Chunk + Parent Document(LlamaIndex 经典)
  • 最佳实践:Chunk Size = 512~1024,Overlap = 100~200

(2)检索方式对比

类型方法优点缺点推荐场景
SparseBM25 / TF-IDF关键词精确语义不理解法律/代码
DenseEmbedding 向量检索语义理解强计算量大通用
HybridBM25 + Dense + Reciprocal Rank Fusion (RRF)最稳融合权重调参生产首选
Multi-Query生成多个 Query 检索覆盖不同角度延迟增加模糊问题
Graph知识图谱实体+关系长上下文结构化构建成本高企业知识图谱

(3)Reranker
Cross-Encoder 比 Embedding 更准,但慢 10–100 倍 → 常用两阶段:先召回 Top-50,再重排 Top-10。

(4)Prompt 模板(必背)

你是一个专业助手。请严格基于以下上下文回答问题。
如果上下文无法回答,请说“根据提供的信息无法回答”。

上下文:
{context}

问题:{question}

答案:

4. 主流开源框架对比(2026 年最新)

框架优势劣势适合人群
LangChain生态最全、Agent 强抽象层太深、调试难快速原型
LlamaIndexRAG 专精、索引管理最强Agent 较弱知识库项目
Haystack生产级、Pipeline 可视化学习曲线陡大规模部署
LangGraphAgentic RAG / 多 Agent 状态机较新复杂工作流
CrewAI角色式多 Agent控制力稍弱自动化流程

5. 生产落地关键问题(大厂面试必问)

  • 如何解决检索噪声?→ Metadata Filtering + Rerank + Self-RAG
  • 知识更新?→ Incremental Indexing + Delete+Insert + Vector DB 的 upsert
  • 延迟优化?→ Cache(Query Cache + Embedding Cache)+ Async Retrieval + Quantized Embedding
  • 成本控制?→ 小模型 Embedding(BGE-small)+ 稀疏检索 + 只在必要时调用大模型
  • 评估指标(必须能说清楚):
  • Retrieval:Recall@K、NDCG、MRR
  • Generation:Faithfulness(事实一致性)、Answer Relevance、Context Relevance
  • 端到端:RAGAS、ARES、TruLens

RAGAS 核心公式(面试常问):
Faithfulness = 由 LLM 判断生成的句子中能被上下文支持的比例

6. 面试高频问题 Top 15(附简答)

  1. RAG 和 Fine-tuning 有什么区别?
    RAG:实时知识注入,低成本、可解释;Fine-tuning:领域能力内化,高成本、难更新。
  2. 为什么需要 Reranker?
    Embedding 是双塔模型,语义匹配但不精确;Cross-Encoder 是单塔,更准但慢。
  3. Chunk 太小/太大各有什么问题?
    太小:丢失上下文;太大:超过上下文窗口 + 稀释相关信息。
  4. 如何做多模态 RAG?
    ColPali / LLaVA + 多模态 Embedding + 图文联合检索。
  5. GraphRAG 和 Naive RAG 区别?
    GraphRAG 对整个知识库构建图谱 → 生成社区摘要 → 检索摘要而非原始 Chunk,适合全局理解。
  6. 如何防止 RAG 还是幻觉?
    Self-RAG / CRAG / Citation + LLM-as-Judge 后验校验。

7. 推荐学习路径(1 周速成面试)

  • Day 1–2:LangChain/LlamaIndex 官方 RAG 教程 + 跑通本地 PDF 问答
  • Day 3:读《Retrieval-Augmented Generation for Large Language Models: A Survey》(2024 最新综述)
  • Day 4:实现 Hybrid Search + Rerank
  • Day 5:GraphRAG 官方 Demo
  • Day 6:RAGAS 评估 + TruLens 可视化
  • Day 7:刷 LeetCode-style RAG 题 + 准备上面 15 个问题

想看完整代码(LangChain + BGE + Milvus + Rerank 的生产模板)、GraphRAG 详细实现RAG vs Fine-tuning 成本对比表2025 年最新论文解读,或者某个具体框架的深度拆解,直接告诉我,我立刻给你补全!

面试加油,你已经比 80% 的人准备得更充分了!🚀

文章已创建 4791

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

相关文章

开始在上面输入您的搜索词,然后按回车进行搜索。按ESC取消。

返回顶部