【AI基础学习系列】三、LLM基础知识

【AI基础学习系列】三、LLM基础知识（2026大模型时代核心篇）

欢迎来到系列第三讲！
前两讲我们聊了AI全景和AIGC，这次直接切入当下最核心、最具生产力的部分——LLM（Large Language Models，大语言模型）。

2026年的现实认知：

我们用最结构化的方式拆解：定义 → 怎么工作 → 核心组件 → 训练全流程 → 2026关键趋势 → 常见误区

大语言模型（LLM）：
基于深度神经网络（几乎全部是Transformer或其变体），在海量文本（有时包含多模态数据）上进行自监督预训练，参数规模通常在数十亿～数万亿，能理解、生成、推理人类语言（及多模态内容）的AI系统。

核心一句话（2026版）：
LLM本质是一个超级强大的“下一个词/下一个token预测器”，通过海量参数记住/泛化了人类语言的几乎所有统计规律，从而表现出理解、推理、创作等“智能”行为。

维度	2023–2024典型认知	2026主流认知（已发生显著变化）
参数规模	千亿级算大	千亿～万亿，但MoE让“活跃参数”远小于总参数
主要能力	聊天、写文、翻译	复杂推理（o1式）、多模态理解、长上下文、工具调用、Agent
训练方式	预训练 + SFT + RLHF	预训练 + SFT + DPO/RLAIF + 合成数据 + 测试时推理增强
架构	纯Decoder Transformer	Decoder-only + MoE + Mamba/状态空间 + 混合架构

输入 → Token化
文本 → 分词器（BPE/WordPiece/SentencePiece等） → token序列（id列表）
2026常见：中文≈1 token ≈ 1–1.5字，英文≈0.75词/token
Token → Embedding
每个token id → 高维向量（通常1024–8192维）
位置编码（Positional Encoding）
让模型知道词的顺序（RoPE最主流，2026几乎全覆盖）
核心：多层Transformer Decoder
每层都做：

组件	通俗解释（2026版）	为什么重要（性能影响）	2026前沿演进
自注意力机制 Attention	让每个词同时“看”序列里所有词，计算相关性加权求和	捕捉长距离依赖，Transformer的灵魂	FlashAttention-3、Grouped-Query、MLA
RoPE / ALiBi	旋转位置编码，让模型外推更长上下文	支持超长上下文（128k–1M+ token）	YaRN、PI、NTK-aware scaling
MoE (Mixture of Experts)	不是所有参数都激活，只激活部分“专家”网络	总参数万亿级，推理成本接近千亿模型	DeepSeek-V3、Mixtral、Grok系列主力
KV Cache	推理时缓存之前的Key/Value，避免重复计算	加速自回归生成，上下文越长越关键	PagedAttention、vLLM、连续批处理优化
测试时计算增强	生成时多思考、多采样、搜索（o1式、ToT、Self-Consistency）	显著提升复杂推理能力，不增加参数	o1/o3系列、DeepSeek-R1、STEP3推理范式

阶段	目标	数据规模/类型	典型技术路线（2026）	成本/难度（个人视角）
预训练	学会语言统计规律	万亿～十万亿token	Next-Token Prediction（自回归）	极高（基本放弃）
指令微调 SFT	学会听人类指令、输出有用回答	百万～亿级高质量指令对	Supervised Fine-Tuning	中等（开源基座+LoRA）
偏好对齐	更安全、有帮助、不有害、符合人类偏好	人类/AI偏好对（Preference）	RLHF → DPO → KTO → ORPO → SimPO	中高
后训练增强	提升推理、工具使用、多模态等	合成数据 + 工具轨迹 + 多模态	Rejection Sampling、Self-Rewarding、RLAIF	中等～高
测试时推理	不改参数也能变聪明	无需额外训练数据	CoT / ToT / Self-Consistency / o1式搜索	低（最容易上手）

下一讲预告：
【AI基础学习系列】四、提示工程（Prompt Engineering）从0到能赚钱
（为什么同样是Claude 4 / Grok-3 / DeepSeek，有人调出顶级效果，有人天天崩？）

你现在最想先深挖哪一块？

告诉我你的选择，我下一讲就按需放大深度～ 😄

相关文章