【AI基础学习系列】八、机器学习常见名词汇总

【AI基础学习系列】八、机器学习常见名词汇总
(2026年最新整理版,适合入门到中级学习者)

机器学习(Machine Learning)作为AI的核心支柱,术语非常多。下面我按逻辑分类汇总了最核心、最常考、最实用的 80+ 个 关键名词(中英对照 + 通俗解释 + 2025-2026年新热词标注)。

建议:先掌握前三类(基础概念 + 学习范式 + 模型类型),再看评估 & 优化,最后看高级/前沿。

一、基础概念(必背15个)

序号英文术语中文通俗解释(一句话)
1Artificial Intelligence (AI)人工智能让机器像人一样“聪明”地做事(大类)
2Machine Learning (ML)机器学习通过数据自动学习规律,不用写死规则(AI最重要的实现方式)
3Deep Learning (DL)深度学习用很多层神经网络来学习(ML的子集,靠算力吃饭)
4Feature特征输入数据的“有用属性”(如图片的像素、文字的词向量)
5Label / Target / Ground Truth标签 / 目标值我们希望模型预测的正确答案
6Training Set / Validation Set / Test Set训练集 / 验证集 / 测试集学习用的 / 调参用的 / 最终考试用的
7Overfitting过拟合模型把训练数据背下来了,但新数据傻眼(死记硬背型学霸)
8Underfitting欠拟合模型太简单,连训练数据都学不好(学渣)
9Generalization泛化能力模型在新数据上的表现(我们真正关心的)
10Bias偏差模型太简单导致的系统性错误
11Variance方差模型对数据微小变化很敏感(太复杂导致)
12Bias-Variance Tradeoff偏差-方差权衡简单模型偏差大、方差小;复杂模型反之
13Hyperparameter超参数训练前人为设定的(如学习率、层数、树深度)
14Parameter参数训练过程中模型自己学的(如权重、偏置)
15Embedding嵌入 / 向量表示把离散东西(如词、用户ID)变成连续向量(一切皆向量时代的核心)

二、三大学习范式(最重要分类)

类型英文中文数据是否有标签?典型任务代表算法/模型
监督学习Supervised Learning监督学习分类、回归线性回归、决策树、SVM、神经网络
无监督学习Unsupervised Learning无监督学习聚类、降维、异常检测K-Means、PCA、DBSCAN、AutoEncoder
强化学习Reinforcement Learning (RL)强化学习无(有奖励)玩游戏、下棋、机器人控制Q-Learning、DQN、PPO、AlphaGo核心
自监督学习Self-Supervised Learning自监督学习伪标签(自己造)预训练大模型BERT的MLM、SimCLR、MAE(2025主流)
半监督学习Semi-Supervised Learning半监督学习少量有 + 大量无标签贵的时候用Pseudo-Labeling、Mean Teacher

2026补充:现在大模型时代,自监督 + 监督微调(SFT) + RLHF 几乎成了标准 pipeline。

三、常见模型 / 算法家族(高频考点)

类别代表模型/算法核心一句话说明2025-2026 热度
经典线性模型Linear Regression, Logistic Regression最简单、最可解释★★☆
树模型Decision Tree, Random Forest, XGBoost, LightGBM, CatBoost工业界最爱,特征工程之王★★★★★
SVMSupport Vector Machine找最大间隔超平面(小数据时代很强)★★☆
神经网络基础MLP (多层感知机), CNN, RNN/LSTM/GRU深度学习的起点★★★★☆
Transformer家族Transformer, BERT, GPT, T5, LLaMA, Qwen, GLM自注意力机制,统治2020年后NLP和多模态★★★★★
生成模型GAN, VAE, Diffusion Models (DDPM), Stable Diffusion, Sora从噪声生成逼真数据★★★★★
推荐系统Collaborative Filtering, Wide&Deep, DeepFM, DIN/DIEN用户-物品交互建模★★★★☆

四、评估指标(面试/论文必问)

分类任务

  • Accuracy(准确率):最直观,但不平衡数据骗人
  • Precision(精确率):预测为正的里面有多少真正
  • Recall(召回率):所有真正里面找回了多少
  • F1-Score:Precision和Recall的调和平均(最常用平衡指标)
  • AUC-ROC / AUC-PR:衡量排序能力(越接近1越好)
  • Confusion Matrix(混淆矩阵):直观展示每类错成啥样

回归任务

  • MSE / RMSE(均方误差 / 根均方误差)
  • MAE(平均绝对误差)
  • R²(决定系数):越接近1越好

生成任务(2025-2026主流)

  • BLEU / ROUGE / METEOR(机器翻译/文本生成)
  • FID / IS(图像生成)
  • CLIP Score / ImageReward(文生图对齐度)
  • Human Eval / MT-Bench(大模型主观质量)

五、训练 & 优化技巧(工程必备)

  • Gradient Descent(梯度下降)及其变种:SGD, Momentum, Adam, AdamW(最常用)
  • Learning Rate(学习率) & Scheduler(衰减策略)
  • Batch Size(批大小):越大越稳定但吃显存
  • Early Stopping(早停)
  • Dropout / Batch Normalization / Layer Normalization
  • Data Augmentation(数据增强)
  • Transfer Learning(迁移学习) / Fine-tuning(微调)
  • Pre-training(预训练) → SFT(监督微调) → RLHF / PPO / DPO / DMPO(对齐阶段)

六、2025-2026 新热词(大模型时代必知)

  • LLM(Large Language Model)大语言模型
  • MoE(Mixture of Experts)专家混合
  • LoRA / QLoRA(高效微调)
  • RAG(Retrieval-Augmented Generation)检索增强生成
  • Chain-of-Thought(CoT)思维链
  • Few-shot / Zero-shot / In-context Learning
  • Scaling Law(缩放定律)
  • Multimodal / Vision-Language Model(VLM)
  • Agent / AI Agent(智能体)
  • Alignment(对齐) & Jailbreak(越狱)

这份列表覆盖了机器学习面试/论文/项目中最常出现的 80%+ 名词。建议你:

  1. 先把前三类背熟(基础+范式+模型)
  2. 每个指标都能手画公式和混淆矩阵
  3. 能用自己的话解释过拟合/欠拟合、Bias-Variance、Transformer为什么牛

你现在学到哪一步了?是刚入门想系统背术语,还是已经在做项目/调模型了?或者准备面试想针对某个方向(如CV、NLP、推荐、大模型)再深化?告诉我,我可以给你更针对性的扩展 + 例题。

文章已创建 4791

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

相关文章

开始在上面输入您的搜索词,然后按回车进行搜索。按ESC取消。

返回顶部