【大模型LLM面试合集】RAG(Retrieval-Augmented Generation)技术全面解析
(2025–2026 面试高频版,覆盖从基础到前沿,适合大厂/算法岗/应用落地岗)
RAG 是当前 LLM 应用落地最核心、最实用的技术,几乎 90% 的企业级 GenAI 项目(企业知识库、客服机器人、法律/金融问答、代码助手等)都会用到。它直接解决了 LLM 两大硬伤:
- 知识时效性:模型训练截止日期后知识无法更新
- 幻觉(Hallucination):凭空编造事实
核心一句话:
RAG = Retriever(检索) + Generator(生成)
在生成答案前,先从外部知识库检索相关文档 → 把文档作为上下文拼接进 Prompt → 再让 LLM 生成。
1. RAG 发展阶段(面试必背时间线)
| 阶段 | 时间 | 代表论文/工作 | 核心改进点 | 典型场景 |
|---|---|---|---|---|
| Naive RAG | 2020 | Lewis et al. (Facebook) | 简单检索+拼接 | 早期原型 |
| Advanced RAG | 2023–2024 | LlamaIndex、LangChain 优化 | Chunking + Metadata + Rerank + Query Rewrite | 生产主流 |
| Modular RAG | 2024–2025 | Microsoft, Alibaba 等 | 模块化、可插拔(Routing、Fusion、Verification) | 复杂多源知识库 |
| Graph RAG | 2024– | Microsoft GraphRAG | 知识图谱 + 社区摘要 | 长文档、企业全量知识 |
| Agentic RAG | 2025– | CrewAI、LangGraph、AutoGen | 多 Agent 协作(Planner + Retriever + Critic) | 复杂推理任务 |
| Corrective RAG (CRAG) / Self-RAG | 2024– | 自纠正、自反思检索 | 检索质量评估 + 迭代检索 | 高可靠性场景 |
2. 经典 Naive RAG 完整流程(画图必备)
用户 Query
↓
Query Rewrite / HyDE(可选:生成假设文档)
↓
Embedding(双向编码器:BGE、E5、text-embedding-3-large 等)
↓
Vector DB 检索(Top-K:FAISS / Chroma / Milvus / Pinecone / Weaviate)
↓
(可选)Reranker(Cross-Encoder:bge-reranker、Cohere Rerank)
↓
Context 组装(Chunk 拼接 + Metadata + 排序)
↓
Prompt 构建(System + Few-shot + Context + Query)
↓
LLM 生成(GPT-4o / Claude-3.5 / Qwen2.5 / DeepSeek-R1 等)
↓
(可选)Post-process:Fact Check / Citation / Answer Verification
3. 关键技术组件详解(面试高频考点)
(1)Chunking 策略(最容易被问到)
- 固定长度(500–1000 token)
- 递归字符分割 + Semantic Chunking(基于 embedding 相似度)
- 按标题/段落/表格结构分割(MarkdownHeaderTextSplitter)
- 小 Chunk + Parent Document(LlamaIndex 经典)
- 最佳实践:Chunk Size = 512~1024,Overlap = 100~200
(2)检索方式对比
| 类型 | 方法 | 优点 | 缺点 | 推荐场景 |
|---|---|---|---|---|
| Sparse | BM25 / TF-IDF | 关键词精确 | 语义不理解 | 法律/代码 |
| Dense | Embedding 向量检索 | 语义理解强 | 计算量大 | 通用 |
| Hybrid | BM25 + Dense + Reciprocal Rank Fusion (RRF) | 最稳 | 融合权重调参 | 生产首选 |
| Multi-Query | 生成多个 Query 检索 | 覆盖不同角度 | 延迟增加 | 模糊问题 |
| Graph | 知识图谱实体+关系 | 长上下文结构化 | 构建成本高 | 企业知识图谱 |
(3)Reranker
Cross-Encoder 比 Embedding 更准,但慢 10–100 倍 → 常用两阶段:先召回 Top-50,再重排 Top-10。
(4)Prompt 模板(必背)
你是一个专业助手。请严格基于以下上下文回答问题。
如果上下文无法回答,请说“根据提供的信息无法回答”。
上下文:
{context}
问题:{question}
答案:
4. 主流开源框架对比(2026 年最新)
| 框架 | 优势 | 劣势 | 适合人群 |
|---|---|---|---|
| LangChain | 生态最全、Agent 强 | 抽象层太深、调试难 | 快速原型 |
| LlamaIndex | RAG 专精、索引管理最强 | Agent 较弱 | 知识库项目 |
| Haystack | 生产级、Pipeline 可视化 | 学习曲线陡 | 大规模部署 |
| LangGraph | Agentic RAG / 多 Agent 状态机 | 较新 | 复杂工作流 |
| CrewAI | 角色式多 Agent | 控制力稍弱 | 自动化流程 |
5. 生产落地关键问题(大厂面试必问)
- 如何解决检索噪声?→ Metadata Filtering + Rerank + Self-RAG
- 知识更新?→ Incremental Indexing + Delete+Insert + Vector DB 的 upsert
- 延迟优化?→ Cache(Query Cache + Embedding Cache)+ Async Retrieval + Quantized Embedding
- 成本控制?→ 小模型 Embedding(BGE-small)+ 稀疏检索 + 只在必要时调用大模型
- 评估指标(必须能说清楚):
- Retrieval:Recall@K、NDCG、MRR
- Generation:Faithfulness(事实一致性)、Answer Relevance、Context Relevance
- 端到端:RAGAS、ARES、TruLens
RAGAS 核心公式(面试常问):
Faithfulness = 由 LLM 判断生成的句子中能被上下文支持的比例
6. 面试高频问题 Top 15(附简答)
- RAG 和 Fine-tuning 有什么区别?
RAG:实时知识注入,低成本、可解释;Fine-tuning:领域能力内化,高成本、难更新。 - 为什么需要 Reranker?
Embedding 是双塔模型,语义匹配但不精确;Cross-Encoder 是单塔,更准但慢。 - Chunk 太小/太大各有什么问题?
太小:丢失上下文;太大:超过上下文窗口 + 稀释相关信息。 - 如何做多模态 RAG?
ColPali / LLaVA + 多模态 Embedding + 图文联合检索。 - GraphRAG 和 Naive RAG 区别?
GraphRAG 对整个知识库构建图谱 → 生成社区摘要 → 检索摘要而非原始 Chunk,适合全局理解。 - 如何防止 RAG 还是幻觉?
Self-RAG / CRAG / Citation + LLM-as-Judge 后验校验。
7. 推荐学习路径(1 周速成面试)
- Day 1–2:LangChain/LlamaIndex 官方 RAG 教程 + 跑通本地 PDF 问答
- Day 3:读《Retrieval-Augmented Generation for Large Language Models: A Survey》(2024 最新综述)
- Day 4:实现 Hybrid Search + Rerank
- Day 5:GraphRAG 官方 Demo
- Day 6:RAGAS 评估 + TruLens 可视化
- Day 7:刷 LeetCode-style RAG 题 + 准备上面 15 个问题
想看完整代码(LangChain + BGE + Milvus + Rerank 的生产模板)、GraphRAG 详细实现、RAG vs Fine-tuning 成本对比表、2025 年最新论文解读,或者某个具体框架的深度拆解,直接告诉我,我立刻给你补全!
面试加油,你已经比 80% 的人准备得更充分了!🚀