机器学习

机器学习概念

监督学习与无监督学习

本质区别在于在训练数据中是否有标签,部分数据有标签的称为半监督学习。

监督学习中,输出数据分散的,称为分类问题;连续的,称为回归问题。其本质是为了最小化错误率或者残差平方和

常会出现过拟合欠拟合的问题。

同时需要尽量降低模型的**泛化误差(噪声+误差+偏差)**。

贝叶斯决策

最小错误率贝叶斯决策

已知条件

类别数一定

已知各类在这d维的先验概率以及类条件概率密度

最大后验概率作为判决函数

找后验概率最大的进行分类

目标

使错误概率P(e)达到最小,

根据错误概率定义以及图像分析,后验概率曲线交点为最优点。

最小风险贝叶斯决策

目标

使期望风险最小

若对每个决策,都使其条件风险最小

朴素贝叶斯决策

属性条件独立性假设:假设各属性独立地分类结果产生影响

贝叶斯估计

将待估计参数当作符合某种先验概率分布的随机变量,在对样本观测过程中,将先验概率密度修正为后验概率密度。

ML往年题涉及方面

2019秋

  1. 贝叶斯决策,最小风险和最小错误率。
  2. 决策树中ID3和C4.5的两种算法区别,预剪枝和后剪枝基本思想和优缺点。
  3. SVM基本思想,模型表达式,软硬间隔的物理含义,如何解决非线性问题
  4. 常见采样方式,基本采样法
  5. 过拟合是什么,解决方法
  6. PCA基于最小均方误差的思想,推导过程,计算步骤
  7. BP算法
  8. 机器学习和深度学习联系,各自优缺点,未来深度学习如何发展

2020春

  1. 决策树ID3应用
  2. SVM原理,软硬间隔;对非线性样本点分类
  3. 集成学习原理,boosting和bagging的简单概括
  4. K-means原理,计算
  5. PCA基于最大方差推导
  6. CNN、RNN残差模块误差分析
  7. BP算法推导
  8. 深度学习问题,未来发展预测

2020秋

  1. 决策树,会有log运算,多看例题
  2. SVM,软硬间隔模型表示,如何应对非线性可分问题,推导熟练
  3. 集成学习(串并行)
  4. K-means,要写出过程
  5. 解释残差神经网络为何能避免网络退化,及其损失函数求导过程
  6. PCA基于最大方差,要会推导
  7. BP,一定要注意有没有激活函数
  8. 对深度学习认识

21秋

  1. 感知机准则求判别函数
  2. 贝叶斯决策
  3. PCA算法应用和其与LDA算法基本思想和区别:
  4. K-means算法,不足,改进
  5. SVM模型,核函数作用
  6. 决策树
  7. BP权值更新公式
  8. 机器学习在某一领域应用

23秋

  1. 贝叶斯决策
  2. SVM原理,遇到噪声和线性不可分的解决方案
  3. ID3构建决策树,解决决策树过拟合问题,简述一种解决方法原理,其缺点
  4. 梯度下降法求感知机准则函数
  5. PCA与LDA原理和区别:PCA:将原始数据投影到正交低维空间中,并使降维后方差尽可能大,均方误差尽可能小;LDA:将数据投影到低维空间,使得降维后类间距离最大,类内距离最小。区别:前者是无监督降维,对数据区分作用不大,强调保持内在信息,可能会使数据混杂在一起,对离群点较为敏感,核心是保留全局结构;后者是有监督降维,希望将数据降维后尽可能被区分开,对离群点相对稳健,核心是增强类别边界。
  6. K-means原理,缺点,改进方案
  7. 集成学习基本思想,并行串行:集成学习的基本思想是通过多个学习器进行集成,可以获得比单一学习器更优的泛化性能。其关键是如何产生「好而不同」的个体学习器。
  8. BP算法
  9. 使用机器学习优化产品业务,如何规避“信息茧房”

Parzen窗法

使区间序列VN以N的某个函数减小,同时限制KN和KN/N

Kn近邻法

使落入区域样本数kN为N的某个函数,选择VN使区域包含x的kN个近邻

RNN基本思想

通过循环连接传递历史信息,处理序列数据(如文本、时间序列)。
核心缺陷:梯度消失/爆炸,难以学习长期依赖。
流程:1.初始化隐状态;2.从前向后传播;3.通过BPTT反向传播,计算梯度,更新参数。

LSTM基本思想

通过门控机制(遗忘门、输入门、输出门)和细胞状态解决长期依赖问题。
核心创新:细胞状态Ct作为“信息高速公路”,梯度可无损传播。
流程:1.初始化;2.通过遗忘门、输入门、候选记忆、细胞状态、输出门等门控机制从前向后前向传播

Transformer

完全抛弃循环结构,只通过自注意力(Self-Attention) 并行处理序列,捕捉全局依赖。
流程:1.依照查询和键计算注意力评分,通过softmax得到不同的显著性值;2.根据不同注意力权重,对值进行加权求和。
三者比对:RNN适合处理简单序列分类等短序列任务,顺序计算;LSTM适合机器翻译、语音识别等中长序列任务,顺序计算;Transformer适合BERT、GPT、多模态模型、图像去噪、数据降维、无监督特征提取等任意长序列任务,完全并行计算。
RNN和CNN与Transformer比较:CNN和RNN都只是用固定窗口建模,同时后者按序处理元素,限制了并行,序列长度增加会导致序列开始和结束依赖关系难以捕捉。