【AI基础学习系列】八、机器学习常见名词汇总(2026实用版)
这是AI基础系列中最“干货密集”的一篇。下面整理了机器学习(尤其是2025-2026年最常被提及的)最核心、最常考、最容易混淆的约80个术语,按逻辑分类整理,用最白话的方式解释 + 对比 + 常见误区。
建议:先粗看一遍建立框架,再挑不熟悉的点深入查资料/代码验证。
1. 最基础框架类(必须背下来)
| 术语(中/英) | 通俗解释(2026视角) | 典型代表 / 对比 | 常见误区 |
|---|---|---|---|
| 人工智能 / AI | 让机器完成需要人类智能的任务 | 包含规则系统 + 机器学习 + …… | 把AI = 机器学习(现在很多人这么用,但不严谨) |
| 机器学习 / Machine Learning (ML) | 让机器从数据中自动学规律,而不是人手写规则 | — | — |
| 深度学习 / Deep Learning (DL) | 用很多层神经网络(通常>5–10层)做机器学习 | CNN、Transformer、Diffusion模型都是DL | 把所有神经网络都叫深度学习(浅层网络不算) |
| 大语言模型 / Large Language Model (LLM) | 参数量极大(千亿~万亿级)、主要用海量文本预训练的Transformer模型 | GPT-4o、Llama-3、DeepSeek、Qwen、Claude、Grok | 把所有LLM都叫“ChatGPT” |
| 生成式AI / Generative AI | 能自己创造出新内容(文字/图/视频/代码/音乐…)的AI | LLM + 图像模型 + 视频模型 + …… | 把所有AI都叫生成式AI |
2. 三大范式(学习方式分类)
| 学习类型 | 中文全称 | 是否需要标注(标签) | 代表任务 | 2026主流场景 |
|---|---|---|---|---|
| 监督学习 | Supervised Learning | 需要 | 分类、回归、目标检测、语义分割 | 几乎所有传统ML + 微调LLM |
| 无监督学习 | Unsupervised Learning | 不需要 | 聚类、降维、异常检测、特征学习 | 自监督预训练、表征学习 |
| 强化学习 | Reinforcement Learning (RL) | 奖励信号(稀疏) | 下棋、玩游戏、机器人控制、LLM对齐(RLHF) | RLHF、Agent、游戏AI、自动驾驶决策 |
3. 数据相关核心概念
- 训练集 / 验证集 / 测试集 → train / val / test(最经典8:1:1或7:2:1)
- 过拟合 / Overfitting → 训练集很好,验证/测试很差(死记:模型“背”答案了)
- 欠拟合 / Underfitting → 训练集都学不好(模型太简单)
- 泛化能力 → 在没见过的新数据上表现好坏(终极目标)
- 样本不平衡 → 正负样本数量差距很大(常见于欺诈检测、疾病筛查)
- 数据增强 / Data Augmentation → 通过翻转、裁剪、加噪等方式“凭空”制造更多训练数据
- Token → LLM处理文本的最小单位(英文≈subword,中文≈字/词)
4. 模型评估指标(高频考点)
分类任务
| 指标 | 英文 | 适合场景 | 公式简写 | 2026口语说法 |
|---|---|---|---|---|
| 准确率 | Accuracy | 类别基本平衡 | (TP+TN)/(全部) | “总体对多少” |
| 精确率 | Precision | 假阳性代价很大 | TP/(TP+FP) | “你说的是A,真的A有多少” |
| 召回率 | Recall | 漏掉代价很大 | TP/(TP+FN) | “所有真A,你找出来多少” |
| F1分数 | F1-Score | Precision和Recall要平衡 | 2×P×R/(P+R) | “精确率和召回率的调和平均” |
| ROC-AUC | AUC | 综合排序能力 | ROC曲线下面积(0.5~1) | “模型区分好坏的能力” |
| PR-AUC | PR曲线AUC | 严重样本不平衡时更靠谱 | — | — |
回归任务
- MAE(平均绝对误差)
- MSE(均方误差)→ 对大误差惩罚更重
- RMSE(MSE开根号)→ 和原始数据单位相同,最常用
- R²(决定系数)→ 越接近1越好,0表示和均值预测一样烂
生成任务(2025-2026最火)
- BLEU / ROUGE → 机器翻译、摘要
- BERTScore / MoverScore → 语义相似度
- FID / IS → 图像生成质量
- CLIP Score → 图文匹配度
5. 训练/优化相关高频词
- 梯度下降 / Gradient Descent → 沿着“山坡”最陡的方向往下走
- 学习率 / Learning Rate → 每一步走多大(太大学习震荡,太小收敛太慢)
- Batch Size → 一次喂多少样本(影响梯度估计稳定性和显存)
- Epoch → 整个训练集完整过一遍
- 早停 / Early Stopping → 验证集效果不再提升就停止(防过拟合神器)
- 正则化 → L1(稀疏)、L2(权重衰减)、Dropout(随机丢神经元)
- 预训练 + 微调 / Pretrain + Finetune → 现在几乎所有大模型都这么玩
- 参数高效微调 → LoRA、QLoRA、Adapter、Prompt Tuning(省显存神器)
- RLHF → Reinforcement Learning from Human Feedback(ChatGPT对齐核心技术)
6. 2025–2026年特别火的新/热词(必知)
- MoE → Mixture of Experts(混合专家),只激活部分专家,省算力(代表:Mixtral、DeepSeek-V3、Grok等)
- RAG → Retrieval-Augmented Generation(检索增强生成),让LLM先查资料再回答
- Agent → 智能体,能自己规划、调用工具、循环思考完成复杂任务
- Chain-of-Thought / CoT → 思维链,让模型“一步一步思考”
- Self-Consistency → 多条CoT路径投票
- Tree of Thoughts / ToT → 像树一样探索多种推理路径
- 模型蒸馏 / Distillation → 用大模型教小模型(知识蒸馏)
- 合成数据 / Synthetic Data → 用大模型自己生成训练数据(越来越重要)
快速自测清单(建议默写或解释)
- 过拟合 vs 欠拟合怎么区分?
- Precision和Recall哪个更重要取决于什么?
- 为什么现在大家都用LoRA而不是全参数微调?
- RLHF到底强化的是什么?
- RAG和Fine-tune的适用场景区别?
有哪一块你觉得最模糊/最想深入?
可以直接告诉我(比如“指标部分再展开”“RLHF详细讲讲”“MoE原理”),我继续陪你拆解~