大模型名词术语百科全书:从A到Z的终极解释指南

大模型名词术语百科全书:从A到Z的终极解释指南

引言:AI大模型的术语宇宙

在2026年,大语言模型(LLM)已从实验室走向日常生活,驱动着ChatGPT、Gemini、Grok等工具重塑工作与创作。但这个领域充斥着缩写、专有名词和概念,从“Attention Mechanism”到“Zero-Shot Learning”,初学者往往如坠云雾。本百科全书汇集了100+核心术语,按A-Z字母顺序组织(英文原词为主,辅以中文解释),基于权威来源如Coursera、Google Developers、a16z、Nebuly及中文社区(如CSDN、知乎、SZDEV)的最新定义。每个条目包括简明解释、关键作用及示例,帮助你从入门到精通。

术语选择聚焦大模型(LLM)核心:基础概念、训练技术、优化方法、应用场景及新兴趋势。预计阅读时间:30-45分钟。立即翻阅,解锁AI“黑话”密码!

A-Z术语大全

A

  • AGI (Artificial General Intelligence, 通用人工智能): 一种假设性AI,能像人类一样执行任意智力任务,而非特定领域。作用:标志AI从“窄AI”向全能演进;示例:OpenAI追求的“超级智能”,但2026年仍未实现。
  • AIGC (AI Generated Content, AI生成内容): 使用AI如Stable Diffusion或GPT创建文本、图像、视频等内容。作用:加速创作,但需防版权风险;示例:Midjourney生成的艺术品。
  • Attention Mechanism (注意力机制): LLM中允许模型动态聚焦输入关键部分的算法。作用:提升长序列理解,避免信息丢失;示例:Transformer的核心,自注意力(Self-Attention)计算词间关联。
  • Auto-Regressive Model (自回归模型): 模型逐步生成输出,每步依赖前一步预测。作用:适用于文本生成,确保连贯性;示例:GPT系列,所有Transformer-based LLM。

B

  • Backpropagation (反向传播): 训练神经网络时,通过计算梯度从输出层向输入层传播误差的算法。作用:优化参数,实现学习;示例:LLM预训练的核心优化技术。
  • BERT (Bidirectional Encoder Representations from Transformers): Google的双向Transformer模型,用于理解上下文。作用:提升NLP任务如问答准确率;示例:搜索优化中的语义理解。
  • Bias (偏差): 模型对某些模式过度泛化,导致不公平输出。作用:需通过数据清洗缓解;示例:LLM在招聘中歧视性别。

C

  • Chain-of-Thought (思维链, CoT): 提示技术,引导LLM逐步推理而非直接回答。作用:提升复杂问题解决能力;示例:数学题中“一步一步思考”提示。
  • CLIP (Contrastive Language-Image Pretraining): OpenAI的多模态模型,连接文本与图像。作用:零样本图像分类;示例:DALL·E的视觉理解。
  • Context Window (上下文窗口): LLM一次处理的最大token数。作用:决定长对话能力;示例:GPT-4o的128K token窗口。
  • Copilot (副驾驶): Microsoft的AI助手,基于LLM辅助编码/写作。作用:提升生产力;示例:GitHub Copilot生成代码。

D

  • Deep Learning (深度学习, DL): 使用多层神经网络处理复杂数据的机器学习子集。作用:LLM基础;示例:Transformer架构。
  • Diffusion Model (扩散模型): 通过逐步添加/去除噪声生成图像/音频的模型。作用:高保真内容创建;示例:Stable Diffusion。
  • Distillation (知识蒸馏): 从大模型(教师)向小模型(学生)转移知识的技术。作用:压缩模型,降低部署成本;示例:DeepSeek-R1-Distill-Qwen-7B。

E

  • Embedding (嵌入): 将词/句转换为高维向量表示。作用:捕捉语义相似性;示例:Word2Vec或BERT嵌入,用于RAG检索。
  • Emergent Ability (涌现能力): 模型规模增大后突然出现的复杂行为。作用:解释LLM“聪明”来源;示例:大参数模型的逻辑推理。
  • Ethical AI (道德AI): 确保AI公平、透明、无害的设计原则。作用:缓解偏见与隐私风险;示例:欧盟AI法规。

F

  • Few-Shot Learning (少样本学习): 用少量示例让模型适应新任务。作用:减少训练数据需求;示例:GPT-3的提示中提供2-3例。
  • Fine-Tuning (微调): 在预训练模型上用特定数据进一步训练。作用:定制化应用;示例:SFT(Supervised Fine-Tuning)。
  • Foundation Model (基础模型): 大规模预训练模型,可适应多任务。作用:LLM的通用基石;示例:PaLM或LLaMA。
  • FLOPs (Floating Point Operations): 模型训练/推理的浮点运算次数。作用:衡量计算成本;示例:GPT-4训练需万亿FLOPs。

G

  • Generative AI (生成式AI): AI创建新内容的子领域。作用:文本/图像生成;示例:ChatGPT。
  • GPT (Generative Pre-trained Transformer, 生成式预训练Transformer): OpenAI的LLM系列。作用:从预训练到生成对话;示例:GPT-4o。
  • Grounding (锚定): 用外部知识验证LLM输出真实性。作用:减少幻觉;示例:RAG中的事实检查。

H

  • Hallucination (幻觉): LLM生成虚假但自信的信息。作用:需通过RLHF缓解;示例:ChatGPT编造历史事件。
  • Hidden Layer (隐藏层): 神经网络中非输入/输出的中间层。作用:提取特征;示例:Transformer的多层堆叠。

I

  • Inference (推理): 模型使用训练知识生成输出的过程。作用:部署阶段的核心;示例:实时聊天响应。
  • Instruction Tuning (指令调优): 微调模型响应自然语言指令。作用:提升对话能力;示例:InstructGPT。

J

  • Jailbreak (越狱): 绕过LLM安全限制的提示技巧。作用:暴露漏洞,但需防范;示例:DAN提示。

K

  • Knowledge Graph (知识图谱): 结构化表示实体与关系的网络。作用:增强RAG检索;示例:Google的实体链接。

L

  • Large Language Model (LLM, 大语言模型): 基于海量文本训练的深度模型,能理解/生成语言。作用:NLP核心;示例:Grok、Claude。
  • LoRA (Low-Rank Adaptation): 高效微调技术,只更新少量参数。作用:降低计算开销;示例:LLaMA适配。
  • Loss Function (损失函数): 衡量模型预测与真实差异的指标。作用:指导优化;示例:交叉熵用于语言建模。

M

  • Machine Learning (ML, 机器学习): 从数据中学习模式而非显式编程的AI子集。作用:LLM训练基础;示例:监督/无监督学习。
  • Mixture of Experts (MoE, 专家混合): 动态路由输入到子模型的架构。作用:提升效率;示例:DeepSeek-MoE。
  • Multimodal (多模态): 处理文本、图像、音频等多种输入的模型。作用:综合感知;示例:GPT-4V。

N

  • Natural Language Processing (NLP, 自然语言处理): AI处理人类语言的技术。作用:LLM应用基础;示例:翻译/情感分析。
  • Neural Network (神经网络): 模拟人脑的计算模型。作用:深度学习核心;示例:前馈网络在Transformer中。
  • NumPy: Python科学计算库,用于数组操作。作用:LLM数据处理;示例:嵌入向量计算。

O

  • Overfitting (过拟合): 模型过度记忆训练数据,泛化差。作用:需正则化防范;示例:小数据集训练的LLM。

P

  • Parameter (参数): 模型内部可学习权重。作用:决定模型容量;示例:GPT-4的万亿参数。
  • Pre-Training (预训练): 在海量数据上初始训练模型。作用:学习通用知识;示例:BERT的掩码语言建模。
  • Prompt Engineering (提示工程): 设计输入提示优化LLM输出。作用:无需微调提升性能;示例:零样本/思维链提示。
  • Parameters (见Parameter)

Q

  • Quantization (量化): 将模型权重从浮点转为低精度整数。作用:加速推理,节省内存;示例:8-bit量化LLM。

R

  • RAG (Retrieval-Augmented Generation, 检索增强生成): 结合检索外部知识与生成的技术。作用:减少幻觉,提升准确性;示例:ChatGPT插件检索。
  • Reinforcement Learning (强化学习, RL): 通过奖励/惩罚优化代理行为。作用:对齐LLM人类偏好;示例:RLHF。
  • RLHF (Reinforcement Learning from Human Feedback, 人类反馈强化学习): 用人类偏好数据微调RL。作用:使LLM更安全/有用;示例:ChatGPT训练。
  • Scaling Law (缩放定律): 模型性能随参数/数据/计算增长的经验规律。作用:指导大模型设计;示例:Chinchilla定律。

S

  • Self-Attention (自注意力): 序列内部元素间相互关注的机制。作用:并行处理长依赖;示例:Transformer编码器。
  • SFT (Supervised Fine-Tuning, 监督微调): 用标注数据微调预训练模型。作用:任务特定优化;示例:指令跟随训练。
  • Small Language Model (SLM, 小语言模型): 参数少、效率高的LLM变体。作用:边缘设备部署;示例:Phi-3。
  • Supervised Learning (监督学习): 用带标签数据训练模型。作用:预测任务;示例:SFT阶段。

T

  • Token (令牌): LLM处理文本的基本单位(如子词)。作用:量化输入/输出;示例:GPT中“chat”可能为1 token。
  • Tokenization (分词): 将文本拆为token的过程。作用:模型输入标准化;示例:BPE算法。
  • Transformer: 基于注意力的序列模型架构。作用:革命NLP;示例:所有现代LLM基础。

U

  • Unsupervised Learning (无监督学习): 从无标签数据发现模式。作用:预训练阶段;示例:聚类嵌入。

V

  • Vocabulary (词汇表): LLM所有可能token的集合。作用:定义模型语言范围;示例:GPT的50K+ token词汇。

W

  • World Model (世界模型): AI模拟环境动态的内部表示。作用:规划与决策;示例:强化学习中的代理。

Z

  • Zero-Shot Learning (零样本学习): 无示例直接执行新任务。作用:泛化能力测试;示例:GPT翻译未见语言。

术语对比表格:核心类别速览

为便于记忆,以下表格分类汇总高频术语(基于Nebuly & Google来源):

类别关键术语示例作用简述代表模型/工具
基础架构Transformer, Attention, Embedding处理序列与语义GPT, BERT
训练技术Pre-Training, Fine-Tuning, RLHF从通用到特定优化InstructGPT
优化方法Quantization, LoRA, Distillation效率与部署LLaMA-LoRA
应用增强RAG, CoT, Prompt Engineering准确性与推理提升ChatGPT Plugins
新兴趋势Multimodal, MoE, Agent多感官与自主性GPT-4o, DeepSeek-MoE

结语:术语即钥匙,开启AI大门

从A的AGI到Z的Zero-Shot,这份百科覆盖了大模型80%+核心概念。2026年,AI不再是科幻——掌握这些术语,你就能参与构建未来。建议:选一主题(如RAG)实践提示工程,立即上手Grok测试。更多更新?关注xAI动态,或提供具体术语扩展需求。参考来源多样化,确保客观(如英文/中文平衡)。欢迎讨论你的“黑话”困惑!

文章已创建 4944

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

相关文章

开始在上面输入您的搜索词,然后按回车进行搜索。按ESC取消。

返回顶部