机器学习基础概念大全
(一图胜千言 + 精准定义 + 类比记忆)
一、核心概念思维导图
graph TD
ML[机器学习] --> SUP[监督学习]
ML --> UNS[无监督学习]
ML --> RL[强化学习]
SUP --> CLA[分类]
SUP --> REG[回归]
UNS --> CLU[聚类]
UNS --> DIM[降维]
DATA[数据] --> TRAIN[训练集]
DATA --> VAL[验证集]
DATA --> TEST[测试集]
MODEL[模型] --> PARAM[参数 θ]
MODEL --> HYP[假设空间 H]
LOSS[损失函数] --> OPT[优化器]
OPT --> GD[梯度下降]
EVAL[评估] --> ACC[准确率]
EVAL --> PRE[精确率]
EVAL --> REC[召回率]
EVAL --> F1[F1]
EVAL --> MSE[MSE]
二、30个核心概念(定义 + 类比 + 公式)
| # | 概念 | 定义 | 类比 | 公式/示例 |
|---|
| 1 | 机器学习 | 让计算机从数据中自动学习规律 | 学生不背公式,靠做题总结规律 | f(X) ≈ y |
| 2 | 训练集 | 用来“教”模型的数据 | 课本例题 | 80% 数据 |
| 3 | 验证集 | 用来调参、选模型 | 课后练习 | 10% 数据 |
| 4 | 测试集 | 最终评估模型,只能看一次 | 期末考试 | 10% 数据 |
| 5 | 特征(Feature) | 输入变量 | 描述一个人的“身高、体重” | X = [x₁, x₂, ..., xₙ] |
| 6 | 标签(Label) | 监督学习中的正确答案 | 选择题答案 | y ∈ {0,1} 或 ℝ |
| 7 | 模型(Model) | 数学函数,输入X输出预测 | “脑子” | ŷ = f_θ(X) |
| 8 | 参数(Parameter) | 模型内部可学习的数字 | 脑中的“权重” | θ = {w, b} |
| 9 | 超参数(Hyperparameter) | 训练前人工设置的参数 | 学习方法(如学习率) | α=0.01, 树深度=5 |
| 10 | 假设空间(Hypothesis Space) | 模型可能学到的所有函数集合 | 所有可能的“答案” | H = {所有线性函数} |
| 11 | 损失函数(Loss) | 衡量预测错多少 | 考试扣分规则 | L(ŷ, y) |
| 12 | 经验风险 | 训练集上的平均损失 | 练习题平均分 | R_emp = (1/n) Σ L_i |
| 13 | 梯度下降 | 沿着损失下降方向更新参数 | 下山走最陡坡 | θ ← θ - α∇L |
| 14 | 学习率(Learning Rate) | 每步走多大 | 迈步大小 | α = 0.01 |
| 15 | 过拟合(Overfitting) | 模型“死记硬背”训练数据 | 背例题,考试蒙圈 | 训练准,测试差 |
| 16 | 欠拟合(Underfitting) | 模型太简单,学不会 | 连例题都做不对 | 训练就差 |
| 17 | 正则化(Regularization) | 惩罚复杂模型,防过拟合 | “别写太长答案” | L1/L2 惩罚 |
| 18 | 偏差(Bias) | 模型假设太简单导致系统性错误 | 瞄准偏了 | 高偏差 → 欠拟合 |
| 19 | 方差(Variance) | 模型对训练数据太敏感 | 手抖,瞄不准 | 高方差 → 过拟合 |
| 20 | 泛化(Generalization) | 模型在新数据上表现好 | 举一反三 | 测试集表现 |
| 21 | 分类(Classification) | 预测离散类别 | 判断“猫/狗” | ŷ ∈ {0,1,2...} |
| 22 | 回归(Regression) | 预测连续值 | 预测“房价” | ŷ ∈ ℝ |
| 23 | 聚类(Clustering) | 无标签自动分组 | 把水果按相似度分堆 | K-Means |
| 24 | 准确率(Accuracy) | 预测正确的比例 | 考试正确率 | (TP+TN)/总 |
| 25 | 精确率(Precision) | 预测为正的中有多少真正 | “抓贼”抓对率 | TP/(TP+FP) |
| 26 | 召回率(Recall) | 真实正样本中多少被抓住 | “漏网之鱼”少 | TP/(TP+FN) |
| 27 | F1 分数 | 精确率和召回率的调和平均 | 平衡抓人与抓准 | 2PR/(P+R) |
| 28 | 混淆矩阵 | 分类结果统计表 | 四格表格 | TP/FP/FN/TN |
| 29 | 交叉熵损失 | 分类常用损失 | 信息论中的“惊讶度” | -Σ y log(ŷ) |
| 30 | 均方误差(MSE) | 回归常用损失 | 预测偏离平方平均 | (1/n)Σ(ŷ-y)² |
三、监督学习 vs 无监督学习(对比表)
| 维度 | 监督学习 | 无监督学习 |
|---|
| 数据 | 有标签 (X, y) | 无标签 (仅 X) |
| 目标 | 预测 y | 发现数据结构 |
| 任务 | 分类、回归 | 聚类、降维 |
| 评估 | 准确率、F1、MSE | 轮廓系数、重建误差 |
| 例子 | 垃圾邮件检测 | 客户分群 |
四、过拟合 vs 欠拟合(图解)
graph LR
A[模型复杂度] -->|低| B[欠拟合<br>训练差<br>测试差]
A -->|适中| C[泛化好<br>训练好<br>测试好]
A -->|高| D[过拟合<br>训练极好<br>测试差]
五、关键公式速记
| 任务 | 损失函数 | 优化目标 |
|---|
| 回归 | MSE = (1/n)Σ(ŷ-y)² | 最小化 |
| 二分类 | Binary Cross Entropy | 最小化 |
| 多分类 | Categorical Cross Entropy | 最小化 |
| 聚类 | 簇内距离和 | 最小化 |
六、经典算法速览(入门必知)
| 算法 | 类型 | 适用场景 |
|---|
| 线性回归 | 回归 | 预测连续值 |
| 逻辑回归 | 分类 | 二分类概率 |
| 决策树 | 分类/回归 | 可解释性强 |
| 随机森林 | 集成 | 抗过拟合 |
| K-Means | 聚类 | 分群 |
| PCA | 降维 | 数据可视化 |
七、实战记忆口诀(背会就入门)
数据三七分,
特征要清洗,
模型先简单,
损失看下降,
验证调参数,
测试看泛化,
过拟合正则,
欠拟合加模型。
八、推荐学习路径(30天入门)
| 周 | 目标 | 资源 |
|---|
| 1 | Python + Pandas | 《Python编程:从入门到实践》 |
| 2 | 数学基础 | 线性代数、概率统计(可汗学院) |
| 3 | Scikit-learn 实践 | Kaggle Titanic 比赛 |
| 4 | 评估 + 调参 | 交叉验证、网格搜索 |
九、你现在可以做什么?
# 3行代码跑通一个完整机器学习流程
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeClassifier
iris = load_iris()
X_train, X_test, y_train, y_test = train_test_split(iris.data, iris.target, test_size=0.2)
model = DecisionTreeClassifier().fit(X_train, y_train)
print("准确率:", model.score(X_test, y_test)) # 通常 > 0.95
想立刻动手? 我可以带你:
- 用 5分钟 训练一个手写数字识别模型
- 画出 损失曲线 和 决策边界
- 解释 每一个参数的含义
告诉我你想从哪开始?