大模型名词术语百科全书:从A到Z的终极解释指南
引言:AI大模型的术语宇宙
在2026年,大语言模型(LLM)已从实验室走向日常生活,驱动着ChatGPT、Gemini、Grok等工具重塑工作与创作。但这个领域充斥着缩写、专有名词和概念,从“Attention Mechanism”到“Zero-Shot Learning”,初学者往往如坠云雾。本百科全书汇集了100+核心术语,按A-Z字母顺序组织(英文原词为主,辅以中文解释),基于权威来源如Coursera、Google Developers、a16z、Nebuly及中文社区(如CSDN、知乎、SZDEV)的最新定义。每个条目包括简明解释、关键作用及示例,帮助你从入门到精通。
术语选择聚焦大模型(LLM)核心:基础概念、训练技术、优化方法、应用场景及新兴趋势。预计阅读时间:30-45分钟。立即翻阅,解锁AI“黑话”密码!
A-Z术语大全
A
- AGI (Artificial General Intelligence, 通用人工智能): 一种假设性AI,能像人类一样执行任意智力任务,而非特定领域。作用:标志AI从“窄AI”向全能演进;示例:OpenAI追求的“超级智能”,但2026年仍未实现。
- AIGC (AI Generated Content, AI生成内容): 使用AI如Stable Diffusion或GPT创建文本、图像、视频等内容。作用:加速创作,但需防版权风险;示例:Midjourney生成的艺术品。
- Attention Mechanism (注意力机制): LLM中允许模型动态聚焦输入关键部分的算法。作用:提升长序列理解,避免信息丢失;示例:Transformer的核心,自注意力(Self-Attention)计算词间关联。
- Auto-Regressive Model (自回归模型): 模型逐步生成输出,每步依赖前一步预测。作用:适用于文本生成,确保连贯性;示例:GPT系列,所有Transformer-based LLM。
B
- Backpropagation (反向传播): 训练神经网络时,通过计算梯度从输出层向输入层传播误差的算法。作用:优化参数,实现学习;示例:LLM预训练的核心优化技术。
- BERT (Bidirectional Encoder Representations from Transformers): Google的双向Transformer模型,用于理解上下文。作用:提升NLP任务如问答准确率;示例:搜索优化中的语义理解。
- Bias (偏差): 模型对某些模式过度泛化,导致不公平输出。作用:需通过数据清洗缓解;示例:LLM在招聘中歧视性别。
C
- Chain-of-Thought (思维链, CoT): 提示技术,引导LLM逐步推理而非直接回答。作用:提升复杂问题解决能力;示例:数学题中“一步一步思考”提示。
- CLIP (Contrastive Language-Image Pretraining): OpenAI的多模态模型,连接文本与图像。作用:零样本图像分类;示例:DALL·E的视觉理解。
- Context Window (上下文窗口): LLM一次处理的最大token数。作用:决定长对话能力;示例:GPT-4o的128K token窗口。
- Copilot (副驾驶): Microsoft的AI助手,基于LLM辅助编码/写作。作用:提升生产力;示例:GitHub Copilot生成代码。
D
- Deep Learning (深度学习, DL): 使用多层神经网络处理复杂数据的机器学习子集。作用:LLM基础;示例:Transformer架构。
- Diffusion Model (扩散模型): 通过逐步添加/去除噪声生成图像/音频的模型。作用:高保真内容创建;示例:Stable Diffusion。
- Distillation (知识蒸馏): 从大模型(教师)向小模型(学生)转移知识的技术。作用:压缩模型,降低部署成本;示例:DeepSeek-R1-Distill-Qwen-7B。
E
- Embedding (嵌入): 将词/句转换为高维向量表示。作用:捕捉语义相似性;示例:Word2Vec或BERT嵌入,用于RAG检索。
- Emergent Ability (涌现能力): 模型规模增大后突然出现的复杂行为。作用:解释LLM“聪明”来源;示例:大参数模型的逻辑推理。
- Ethical AI (道德AI): 确保AI公平、透明、无害的设计原则。作用:缓解偏见与隐私风险;示例:欧盟AI法规。
F
- Few-Shot Learning (少样本学习): 用少量示例让模型适应新任务。作用:减少训练数据需求;示例:GPT-3的提示中提供2-3例。
- Fine-Tuning (微调): 在预训练模型上用特定数据进一步训练。作用:定制化应用;示例:SFT(Supervised Fine-Tuning)。
- Foundation Model (基础模型): 大规模预训练模型,可适应多任务。作用:LLM的通用基石;示例:PaLM或LLaMA。
- FLOPs (Floating Point Operations): 模型训练/推理的浮点运算次数。作用:衡量计算成本;示例:GPT-4训练需万亿FLOPs。
G
- Generative AI (生成式AI): AI创建新内容的子领域。作用:文本/图像生成;示例:ChatGPT。
- GPT (Generative Pre-trained Transformer, 生成式预训练Transformer): OpenAI的LLM系列。作用:从预训练到生成对话;示例:GPT-4o。
- Grounding (锚定): 用外部知识验证LLM输出真实性。作用:减少幻觉;示例:RAG中的事实检查。
H
- Hallucination (幻觉): LLM生成虚假但自信的信息。作用:需通过RLHF缓解;示例:ChatGPT编造历史事件。
- Hidden Layer (隐藏层): 神经网络中非输入/输出的中间层。作用:提取特征;示例:Transformer的多层堆叠。
I
- Inference (推理): 模型使用训练知识生成输出的过程。作用:部署阶段的核心;示例:实时聊天响应。
- Instruction Tuning (指令调优): 微调模型响应自然语言指令。作用:提升对话能力;示例:InstructGPT。
J
- Jailbreak (越狱): 绕过LLM安全限制的提示技巧。作用:暴露漏洞,但需防范;示例:DAN提示。
K
- Knowledge Graph (知识图谱): 结构化表示实体与关系的网络。作用:增强RAG检索;示例:Google的实体链接。
L
- Large Language Model (LLM, 大语言模型): 基于海量文本训练的深度模型,能理解/生成语言。作用:NLP核心;示例:Grok、Claude。
- LoRA (Low-Rank Adaptation): 高效微调技术,只更新少量参数。作用:降低计算开销;示例:LLaMA适配。
- Loss Function (损失函数): 衡量模型预测与真实差异的指标。作用:指导优化;示例:交叉熵用于语言建模。
M
- Machine Learning (ML, 机器学习): 从数据中学习模式而非显式编程的AI子集。作用:LLM训练基础;示例:监督/无监督学习。
- Mixture of Experts (MoE, 专家混合): 动态路由输入到子模型的架构。作用:提升效率;示例:DeepSeek-MoE。
- Multimodal (多模态): 处理文本、图像、音频等多种输入的模型。作用:综合感知;示例:GPT-4V。
N
- Natural Language Processing (NLP, 自然语言处理): AI处理人类语言的技术。作用:LLM应用基础;示例:翻译/情感分析。
- Neural Network (神经网络): 模拟人脑的计算模型。作用:深度学习核心;示例:前馈网络在Transformer中。
- NumPy: Python科学计算库,用于数组操作。作用:LLM数据处理;示例:嵌入向量计算。
O
- Overfitting (过拟合): 模型过度记忆训练数据,泛化差。作用:需正则化防范;示例:小数据集训练的LLM。
P
- Parameter (参数): 模型内部可学习权重。作用:决定模型容量;示例:GPT-4的万亿参数。
- Pre-Training (预训练): 在海量数据上初始训练模型。作用:学习通用知识;示例:BERT的掩码语言建模。
- Prompt Engineering (提示工程): 设计输入提示优化LLM输出。作用:无需微调提升性能;示例:零样本/思维链提示。
- Parameters (见Parameter)
Q
- Quantization (量化): 将模型权重从浮点转为低精度整数。作用:加速推理,节省内存;示例:8-bit量化LLM。
R
- RAG (Retrieval-Augmented Generation, 检索增强生成): 结合检索外部知识与生成的技术。作用:减少幻觉,提升准确性;示例:ChatGPT插件检索。
- Reinforcement Learning (强化学习, RL): 通过奖励/惩罚优化代理行为。作用:对齐LLM人类偏好;示例:RLHF。
- RLHF (Reinforcement Learning from Human Feedback, 人类反馈强化学习): 用人类偏好数据微调RL。作用:使LLM更安全/有用;示例:ChatGPT训练。
- Scaling Law (缩放定律): 模型性能随参数/数据/计算增长的经验规律。作用:指导大模型设计;示例:Chinchilla定律。
S
- Self-Attention (自注意力): 序列内部元素间相互关注的机制。作用:并行处理长依赖;示例:Transformer编码器。
- SFT (Supervised Fine-Tuning, 监督微调): 用标注数据微调预训练模型。作用:任务特定优化;示例:指令跟随训练。
- Small Language Model (SLM, 小语言模型): 参数少、效率高的LLM变体。作用:边缘设备部署;示例:Phi-3。
- Supervised Learning (监督学习): 用带标签数据训练模型。作用:预测任务;示例:SFT阶段。
T
- Token (令牌): LLM处理文本的基本单位(如子词)。作用:量化输入/输出;示例:GPT中“chat”可能为1 token。
- Tokenization (分词): 将文本拆为token的过程。作用:模型输入标准化;示例:BPE算法。
- Transformer: 基于注意力的序列模型架构。作用:革命NLP;示例:所有现代LLM基础。
U
- Unsupervised Learning (无监督学习): 从无标签数据发现模式。作用:预训练阶段;示例:聚类嵌入。
V
- Vocabulary (词汇表): LLM所有可能token的集合。作用:定义模型语言范围;示例:GPT的50K+ token词汇。
W
- World Model (世界模型): AI模拟环境动态的内部表示。作用:规划与决策;示例:强化学习中的代理。
Z
- Zero-Shot Learning (零样本学习): 无示例直接执行新任务。作用:泛化能力测试;示例:GPT翻译未见语言。
术语对比表格:核心类别速览
为便于记忆,以下表格分类汇总高频术语(基于Nebuly & Google来源):
| 类别 | 关键术语示例 | 作用简述 | 代表模型/工具 |
|---|---|---|---|
| 基础架构 | Transformer, Attention, Embedding | 处理序列与语义 | GPT, BERT |
| 训练技术 | Pre-Training, Fine-Tuning, RLHF | 从通用到特定优化 | InstructGPT |
| 优化方法 | Quantization, LoRA, Distillation | 效率与部署 | LLaMA-LoRA |
| 应用增强 | RAG, CoT, Prompt Engineering | 准确性与推理提升 | ChatGPT Plugins |
| 新兴趋势 | Multimodal, MoE, Agent | 多感官与自主性 | GPT-4o, DeepSeek-MoE |
结语:术语即钥匙,开启AI大门
从A的AGI到Z的Zero-Shot,这份百科覆盖了大模型80%+核心概念。2026年,AI不再是科幻——掌握这些术语,你就能参与构建未来。建议:选一主题(如RAG)实践提示工程,立即上手Grok测试。更多更新?关注xAI动态,或提供具体术语扩展需求。参考来源多样化,确保客观(如英文/中文平衡)。欢迎讨论你的“黑话”困惑!