机器学习

机器学习概念

监督学习与无监督学习

本质区别在于在训练数据中是否有标签，部分数据有标签的称为半监督学习。

监督学习中，输出数据分散的，称为分类问题；连续的，称为回归问题。其本质是为了最小化错误率或者残差平方和。

常会出现过拟合或欠拟合的问题。

同时需要尽量降低模型的**泛化误差(噪声+误差+偏差)**。

贝叶斯决策

最小错误率贝叶斯决策

已知条件

类别数一定

已知各类在这d维的先验概率以及类条件概率密度

以最大后验概率作为判决函数

找后验概率最大的进行分类

目标

使错误概率P(e)达到最小，

根据错误概率定义以及图像分析，后验概率曲线交点为最优点。

最小风险贝叶斯决策

目标

使期望风险最小

若对每个决策，都使其条件风险最小

朴素贝叶斯决策

属性条件独立性假设：假设各属性独立地分类结果产生影响

贝叶斯估计

将待估计参数当作符合某种先验概率分布的随机变量，在对样本观测过程中，将先验概率密度修正为后验概率密度。

ML往年题涉及方面

2019秋

贝叶斯决策，最小风险和最小错误率。
决策树中ID3和C4.5的两种算法区别，预剪枝和后剪枝基本思想和优缺点。
SVM基本思想，模型表达式，软硬间隔的物理含义，如何解决非线性问题
常见采样方式，基本采样法
过拟合是什么，解决方法
PCA基于最小均方误差的思想，推导过程，计算步骤
BP算法
机器学习和深度学习联系，各自优缺点，未来深度学习如何发展

2020春

决策树ID3应用
SVM原理，软硬间隔；对非线性样本点分类
集成学习原理，boosting和bagging的简单概括
K-means原理，计算
PCA基于最大方差推导
CNN、RNN残差模块误差分析
BP算法推导
深度学习问题，未来发展预测

2020秋

决策树，会有log运算，多看例题
SVM，软硬间隔模型表示，如何应对非线性可分问题，推导熟练
集成学习(串并行)
K-means，要写出过程
解释残差神经网络为何能避免网络退化，及其损失函数求导过程
PCA基于最大方差，要会推导
BP，一定要注意有没有激活函数
对深度学习认识

21秋

感知机准则求判别函数
贝叶斯决策
PCA算法应用和其与LDA算法基本思想和区别：
K-means算法，不足，改进
SVM模型，核函数作用
决策树
BP权值更新公式
机器学习在某一领域应用

23秋

贝叶斯决策
SVM原理，遇到噪声和线性不可分的解决方案
ID3构建决策树，解决决策树过拟合问题，简述一种解决方法原理，其缺点
梯度下降法求感知机准则函数
PCA与LDA原理和区别：PCA：将原始数据投影到正交低维空间中，并使降维后方差尽可能大，均方误差尽可能小；LDA：将数据投影到低维空间，使得降维后类间距离最大，类内距离最小。区别：前者是无监督降维，对数据区分作用不大，强调保持内在信息，可能会使数据混杂在一起，对离群点较为敏感，核心是保留全局结构；后者是有监督降维，希望将数据降维后尽可能被区分开，对离群点相对稳健，核心是增强类别边界。
K-means原理，缺点，改进方案
集成学习基本思想，并行串行：集成学习的基本思想是通过多个学习器进行集成，可以获得比单一学习器更优的泛化性能。其关键是如何产生「好而不同」的个体学习器。
BP算法
使用机器学习优化产品业务，如何规避“信息茧房”

Parzen窗法

使区间序列VN以N的某个函数减小，同时限制KN和KN/N

Kn近邻法

使落入区域样本数kN为N的某个函数，选择VN使区域包含x的kN个近邻

RNN基本思想

通过循环连接传递历史信息，处理序列数据（如文本、时间序列）。
核心缺陷：梯度消失/爆炸，难以学习长期依赖。
流程：1.初始化隐状态；2.从前向后传播；3.通过BPTT反向传播，计算梯度，更新参数。

LSTM基本思想

通过门控机制（遗忘门、输入门、输出门）和细胞状态解决长期依赖问题。
核心创新：细胞状态Ct作为“信息高速公路”，梯度可无损传播。
流程：1.初始化；2.通过遗忘门、输入门、候选记忆、细胞状态、输出门等门控机制从前向后前向传播

Transformer

完全抛弃循环结构，只通过自注意力（Self-Attention）并行处理序列，捕捉全局依赖。
流程：1.依照查询和键计算注意力评分，通过softmax得到不同的显著性值；2.根据不同注意力权重，对值进行加权求和。
三者比对：RNN适合处理简单序列分类等短序列任务，顺序计算；LSTM适合机器翻译、语音识别等中长序列任务，顺序计算；Transformer适合BERT、GPT、多模态模型、图像去噪、数据降维、无监督特征提取等任意长序列任务，完全并行计算。
RNN和CNN与Transformer比较：CNN和RNN都只是用固定窗口建模，同时后者按序处理元素，限制了并行，序列长度增加会导致序列开始和结束依赖关系难以捕捉。