机器学习基础概念

机器学习基础概念大全

一图胜千言 + 精准定义 + 类比记忆


一、核心概念思维导图

graph TD
    ML[机器学习] --> SUP[监督学习]
    ML --> UNS[无监督学习]
    ML --> RL[强化学习]

    SUP --> CLA[分类]
    SUP --> REG[回归]
    UNS --> CLU[聚类]
    UNS --> DIM[降维]

    DATA[数据] --> TRAIN[训练集]
    DATA --> VAL[验证集]
    DATA --> TEST[测试集]

    MODEL[模型] --> PARAM[参数 θ]
    MODEL --> HYP[假设空间 H]

    LOSS[损失函数] --> OPT[优化器]
    OPT --> GD[梯度下降]

    EVAL[评估] --> ACC[准确率]
    EVAL --> PRE[精确率]
    EVAL --> REC[召回率]
    EVAL --> F1[F1]
    EVAL --> MSE[MSE]

二、30个核心概念(定义 + 类比 + 公式

#概念定义类比公式/示例
1机器学习让计算机从数据中自动学习规律学生不背公式,靠做题总结规律f(X) ≈ y
2训练集用来“教”模型的数据课本例题80% 数据
3验证集用来调参、选模型课后练习10% 数据
4测试集最终评估模型,只能看一次期末考试10% 数据
5特征(Feature)输入变量描述一个人的“身高、体重”X = [x₁, x₂, ..., xₙ]
6标签(Label)监督学习中的正确答案选择题答案y ∈ {0,1} 或 ℝ
7模型(Model)数学函数,输入X输出预测“脑子”ŷ = f_θ(X)
8参数(Parameter)模型内部可学习的数字脑中的“权重”θ = {w, b}
9超参数(Hyperparameter)训练前人工设置的参数学习方法(如学习率)α=0.01, 树深度=5
10假设空间(Hypothesis Space)模型可能学到的所有函数集合所有可能的“答案”H = {所有线性函数}
11损失函数(Loss)衡量预测错多少考试扣分规则L(ŷ, y)
12经验风险训练集上的平均损失练习题平均分R_emp = (1/n) Σ L_i
13梯度下降沿着损失下降方向更新参数下山走最陡坡θ ← θ - α∇L
14学习率(Learning Rate)每步走多大迈步大小α = 0.01
15过拟合(Overfitting)模型“死记硬背”训练数据背例题,考试蒙圈训练准,测试差
16欠拟合(Underfitting)模型太简单,学不会连例题都做不对训练就差
17正则化(Regularization)惩罚复杂模型,防过拟合“别写太长答案”L1/L2 惩罚
18偏差(Bias)模型假设太简单导致系统性错误瞄准偏了高偏差 → 欠拟合
19方差(Variance)模型对训练数据太敏感手抖,瞄不准高方差 → 过拟合
20泛化(Generalization)模型在新数据上表现好举一反三测试集表现
21分类(Classification)预测离散类别判断“猫/狗”ŷ ∈ {0,1,2...}
22回归(Regression)预测连续值预测“房价”ŷ ∈ ℝ
23聚类(Clustering)无标签自动分组把水果按相似度分堆K-Means
24准确率(Accuracy)预测正确的比例考试正确率(TP+TN)/总
25精确率(Precision)预测为正的中有多少真正“抓贼”抓对率TP/(TP+FP)
26召回率(Recall)真实正样本中多少被抓住“漏网之鱼”少TP/(TP+FN)
27F1 分数精确率和召回率的调和平均平衡抓人与抓准2PR/(P+R)
28混淆矩阵分类结果统计表四格表格TP/FP/FN/TN
29交叉熵损失分类常用损失信息论中的“惊讶度”-Σ y log(ŷ)
30均方误差(MSE)回归常用损失预测偏离平方平均(1/n)Σ(ŷ-y)²

三、监督学习 vs 无监督学习(对比表)

维度监督学习无监督学习
数据有标签 (X, y)无标签 (仅 X)
目标预测 y发现数据结构
任务分类、回归聚类、降维
评估准确率、F1、MSE轮廓系数、重建误差
例子垃圾邮件检测客户分群

四、过拟合 vs 欠拟合(图解)

graph LR
    A[模型复杂度] -->|低| B[欠拟合<br>训练差<br>测试差]
    A -->|适中| C[泛化好<br>训练好<br>测试好]
    A -->|高| D[过拟合<br>训练极好<br>测试差]

五、关键公式速记

任务损失函数优化目标
回归MSE = (1/n)Σ(ŷ-y)²最小化
二分类Binary Cross Entropy最小化
多分类Categorical Cross Entropy最小化
聚类簇内距离和最小化

六、经典算法速览(入门必知)

算法类型适用场景
线性回归回归预测连续值
逻辑回归分类二分类概率
决策树分类/回归可解释性强
随机森林集成抗过拟合
K-Means聚类分群
PCA降维数据可视化

七、实战记忆口诀(背会就入门)

数据三七分,  
特征要清洗,  
模型先简单,  
损失看下降,  
验证调参数,  
测试看泛化,  
过拟合正则,  
欠拟合加模型。

八、推荐学习路径(30天入门)

目标资源
1Python + Pandas《Python编程:从入门到实践》
2数学基础线性代数、概率统计(可汗学院)
3Scikit-learn 实践Kaggle Titanic 比赛
4评估 + 调参交叉验证、网格搜索

九、你现在可以做什么?

# 3行代码跑通一个完整机器学习流程
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeClassifier

iris = load_iris()
X_train, X_test, y_train, y_test = train_test_split(iris.data, iris.target, test_size=0.2)
model = DecisionTreeClassifier().fit(X_train, y_train)
print("准确率:", model.score(X_test, y_test))  # 通常 > 0.95

想立刻动手? 我可以带你:

  • 5分钟 训练一个手写数字识别模型
  • 画出 损失曲线决策边界
  • 解释 每一个参数的含义

告诉我你想从哪开始?

文章已创建 2481

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

相关文章

开始在上面输入您的搜索词,然后按回车进行搜索。按ESC取消。

返回顶部