【AI基础学习系列】八、机器学习常见名词汇总
机器学习(Machine Learning, ML)领域术语非常多,新手最容易被一堆英文缩写和专业词搞晕。
下面按逻辑分类整理了2026年最常用、最常考、最容易混淆的约80个核心术语(覆盖基础→经典算法→深度学习→现代大模型时代常用词),每个词都配最白话解释 + 一句话记忆点,建议收藏+反复背。
一、基础概念(必须先搞懂的10个)
| 术语(中/英) | 白话解释 | 一句话记忆点 / 常见误区 |
|---|---|---|
| 机器学习 Machine Learning | 让计算机从数据中“自己学规律”,而不是人手写规则 | “不用写if-else也能完成任务” |
| 监督学习 Supervised Learning | 数据带答案(标签),模型学“题→答案”的对应关系 | 最常见类型,像学生做带标准答案的习题 |
| 无监督学习 Unsupervised Learning | 数据没答案,模型自己找规律(聚类、降维等) | 像让学生自己把杂乱的卡片分类 |
| 半监督学习 Semi-Supervised | 少量有标签 + 大量无标签数据一起训练 | 现实中最常见(标注贵) |
| 强化学习 Reinforcement Learning | 通过“试错+奖励/惩罚”学习,像训练狗狗 | AlphaGo、ChatGPT RLHF 都用这个 |
| 特征 Feature / 输入变量 | 描述样本的属性(年龄、身高、收入等) | 特征工程 = 模型性能的80% |
| 标签 Label / 目标变量 | 我们要预测的东西(房价、是否欺诈等) | 监督学习才有标签 |
| 样本 Instance / 数据点 | 一行完整数据(一个人的所有特征+标签) | — |
| 训练集 / 验证集 / 测试集 | 学知识 / 调参数 / 最终考试 | 比例经典 8:1:1 或 7:2:1 |
| 过拟合 Overfitting | 模型把训练数据背下来了,但新数据傻眼 | “死记硬背不会举一反三” |
二、模型评估与问题诊断(面试必考)
| 术语 | 白话解释 | 关键记忆 / 公式简写 |
|---|---|---|
| 准确率 Accuracy | 整体正确率(对的 / 总的) | 适合类别均衡,不适合极度不平衡 |
| 精确率 Precision | 在所有“预测为正”的中,真正的比例 | “宁可错杀一千,不可放过一个”反过来用 |
| 召回率 Recall | 在所有真正例中,被找出来的比例 | “宁可错杀一千,也要抓到真凶” |
| F1 Score | Precision 和 Recall 的调和平均 | 不平衡数据集最常用指标 |
| ROC曲线 & AUC | 衡量分类器综合能力(越靠近左上越好) | AUC ≈ 0.5 随机,1.0 完美 |
| 混淆矩阵 Confusion Matrix | 4个格子:TP TN FP FN | 画出来最直观 |
| 偏差 Bias | 模型太简单,学不到规律 | 高偏差 = 欠拟合 |
| 方差 Variance | 模型对训练数据太敏感,小变动就大变 | 高方差 = 过拟合 |
| 偏差-方差权衡 Bias-Variance Tradeoff | 简单模型偏差高方差低,复杂模型反之 | 目标:同时降低两者 |
| 交叉验证 Cross-Validation | 把数据切几份轮流做验证集(k-fold 最常见) | 防止运气好坏影响评估 |
三、经典算法家族(常考常说)
| 类别 | 代表算法 | 一句话特点 |
|---|---|---|
| 线性模型 | 线性回归、Logistic回归、Lasso、Ridge | 可解释性强,速度快 |
| 树模型 | 决策树、随机森林、GBDT、XGBoost、LightGBM、CatBoost | 目前最强 tabular 数据杀手 |
| 支持向量机 | SVM | 小数据集神器,高维有效 |
| 贝叶斯 | 朴素贝叶斯 Naive Bayes | 文本分类经典,速度极快 |
| 集成学习 | Bagging、Boosting、Stacking | “三个臭皮匠顶个诸葛亮” |
| 聚类 | K-Means、DBSCAN、层次聚类 | 无监督分组 |
| 降维 | PCA、主成分分析、t-SNE、UMAP | 可视化高维数据神器 |
四、深度学习 & 大模型时代核心词(2025-2026 最热)
| 术语 | 白话解释 | 关键记忆点 |
|---|---|---|
| 神经网络 Neural Network | 模仿人脑神经元的多层计算结构 | 深度学习 = 多层神经网络 |
| 卷积神经网络 CNN | 擅长处理图像、网格数据 | 图像分类/检测/分割主流 |
| 循环神经网络 RNN / LSTM / GRU | 处理序列数据(时间、文本) | 早期 NLP/时间序列主力,已被 Transformer 取代 |
| Transformer | 自注意力机制为核心,目前几乎所有大模型基础 | “Attention is All You Need” |
| 自注意力 Self-Attention | 序列中每个词都关注其他所有词 | Q、K、V 三矩阵乘法 |
| 多头注意力 Multi-Head Attention | 同时从多个角度关注 | 像多个侦探同时调查 |
| 预训练 Pre-training | 先在海量无标签数据上学通用知识 | BERT/GPT 都先预训练 |
| 微调 Fine-tuning | 在小数据集上针对具体任务调整 | 最常见下游任务做法 |
| 指令微调 Instruction Tuning / SFT | 用“问答对”格式继续微调 | ChatGPT 风格模型必经步骤 |
| RLHF | 用人类偏好强化学习(奖励模型 + PPO) | 让模型“听话、不毒、不胡说” |
| LoRA / QLoRA | 只训练少量额外参数实现高效微调 | 个人/小团队微调大模型神器 |
| Prompt Tuning / P-Tuning | 只调 prompt 里的虚拟 token,不动模型参数 | 极低成本微调方式 |
| RAG | Retrieval-Augmented Generation 检索增强生成 | “先查资料再回答”减少幻觉 |
| MoE Mixture of Experts | 模型里有多个“专家”,只激活部分 | 目前最大模型常用(Mixtral、DeepSeek 等) |
| Token | 大模型处理的最小单位(词/子词/字符) | 中文1个汉字 ≈ 1-2 token,英文单词 ≈ 0.7-1 token |
| 幻觉 Hallucination | 模型一本正经地胡说八道 | RAG + 事实核查是目前主要缓解手段 |
五、其他高频实用词(生产 & 面试常出现)
- Embedding:把词/句子/图像变成向量(稠密表示)
- One-Hot Encoding → Embedding:从稀疏高维 → 稠密低维
- Batch Size:一次喂多少样本
- Learning Rate:步子迈多大(太大学飞,太小龟速)
- Early Stopping:验证集不进步就停(防过拟合)
- Dropout:训练时随机扔掉神经元(防过拟合)
- 正则化 Regularization:L1(Lasso)稀疏,L2(Ridge)平滑
- 梯度消失/爆炸:深层网络常见问题 → LSTM/残差连接解决
- 迁移学习 Transfer Learning:用别人训好的模型当起点
- 数据增强 Data Augmentation:图像翻转/旋转/裁剪等造更多数据
学习建议(2026版)
- 先把前两部分(基础 + 评估)背熟(面试80%在这里)
- 熟悉树模型 + Transformer 这两条主线(工业界最常用)
- 大模型相关词(预训练→指令微调→RLHF→RAG→LoRA)必须懂(现在面试最爱问)
- 推荐对照资源:
- Google ML Crash Course 术语表(最权威基础)
- 《Hands-On Machine Learning with Scikit-Learn, Keras, and TensorFlow》术语索引
- Hugging Face 文档中的常见缩写
你现在最懵的几个词是哪些?
或者你想重点深挖哪一类(比如 Transformer 家族、评估指标计算、RLHF 细节)?
告诉我,我可以继续展开对应部分的详细公式 + 图解 + 代码示例。