ML
机器学习
机器学习概念
监督学习与无监督学习
本质区别在于在训练数据中是否有标签,部分数据有标签的称为半监督学习。
监督学习中,输出数据分散的,称为分类问题;连续的,称为回归问题。其本质是为了最小化错误率或者残差平方和。
常会出现过拟合或欠拟合的问题。
同时需要尽量降低模型的**泛化误差(噪声+误差+偏差)**。
贝叶斯决策
最小错误率贝叶斯决策
已知条件
类别数一定
已知各类在这d维的先验概率以及类条件概率密度
以最大后验概率作为判决函数
找后验概率最大的进行分类
目标
使错误概率P(e)
达到最小,
根据错误概率定义以及图像分析,后验概率曲线交点为最优点。
最小风险贝叶斯决策
目标
使期望风险最小
若对每个决策,都使其条件风险最小
朴素贝叶斯决策
属性条件独立性假设:假设各属性独立地分类结果产生影响
贝叶斯估计
将待估计参数当作符合某种先验概率分布的随机变量,在对样本观测过程中,将先验概率密度修正为后验概率密度。
ML往年题涉及方面
2019秋
- 贝叶斯决策,最小风险和最小错误率。
- 决策树中ID3和C4.5的两种算法区别,预剪枝和后剪枝基本思想和优缺点。
- SVM基本思想,模型表达式,软硬间隔的物理含义,如何解决非线性问题
- 常见采样方式,基本采样法
- 过拟合是什么,解决方法
- PCA基于最小均方误差的思想,推导过程,计算步骤
- BP算法
- 机器学习和深度学习联系,各自优缺点,未来深度学习如何发展
2020春
- 决策树ID3应用
- SVM原理,软硬间隔;对非线性样本点分类
- 集成学习原理,boosting和bagging的简单概括
- K-means原理,计算
- PCA基于最大方差推导
- CNN、RNN残差模块误差分析
- BP算法推导
- 深度学习问题,未来发展预测
2020秋
- 决策树,会有log运算,多看例题
- SVM,软硬间隔模型表示,如何应对非线性可分问题,推导熟练
- 集成学习(串并行)
- K-means,要写出过程
- 解释残差神经网络为何能避免网络退化,及其损失函数求导过程
- PCA基于最大方差,要会推导
- BP,一定要注意有没有激活函数
- 对深度学习认识
21秋
- 感知机准则求判别函数
- 贝叶斯决策
- PCA算法应用和其与LDA算法基本思想和区别:
- K-means算法,不足,改进
- SVM模型,核函数作用
- 决策树
- BP权值更新公式
- 机器学习在某一领域应用
23秋
- 贝叶斯决策
- SVM原理,遇到噪声和线性不可分的解决方案
- ID3构建决策树,解决决策树过拟合问题,简述一种解决方法原理,其缺点
- 梯度下降法求感知机准则函数
- PCA与LDA原理和区别:PCA:将原始数据投影到正交低维空间中,并使降维后方差尽可能大,均方误差尽可能小;LDA:将数据投影到低维空间,使得降维后类间距离最大,类内距离最小。区别:前者是无监督降维,对数据区分作用不大,强调保持内在信息,可能会使数据混杂在一起,对离群点较为敏感,核心是保留全局结构;后者是有监督降维,希望将数据降维后尽可能被区分开,对离群点相对稳健,核心是增强类别边界。
- K-means原理,缺点,改进方案
- 集成学习基本思想,并行串行:集成学习的基本思想是通过多个学习器进行集成,可以获得比单一学习器更优的泛化性能。其关键是如何产生「好而不同」的个体学习器。
- BP算法
- 使用机器学习优化产品业务,如何规避“信息茧房”
Parzen窗法
使区间序列VN以N的某个函数减小,同时限制KN和KN/N
Kn近邻法
使落入区域样本数kN为N的某个函数,选择VN使区域包含x的kN个近邻
RNN基本思想
通过循环连接传递历史信息,处理序列数据(如文本、时间序列)。
核心缺陷:梯度消失/爆炸,难以学习长期依赖。
流程:1.初始化隐状态;2.从前向后传播;3.通过BPTT反向传播,计算梯度,更新参数。
LSTM基本思想
通过门控机制(遗忘门、输入门、输出门)和细胞状态解决长期依赖问题。
核心创新:细胞状态Ct作为“信息高速公路”,梯度可无损传播。
流程:1.初始化;2.通过遗忘门、输入门、候选记忆、细胞状态、输出门等门控机制从前向后前向传播
Transformer
完全抛弃循环结构,只通过自注意力(Self-Attention) 并行处理序列,捕捉全局依赖。
流程:1.依照查询和键计算注意力评分,通过softmax得到不同的显著性值;2.根据不同注意力权重,对值进行加权求和。
三者比对:RNN适合处理简单序列分类等短序列任务,顺序计算;LSTM适合机器翻译、语音识别等中长序列任务,顺序计算;Transformer适合BERT、GPT、多模态模型、图像去噪、数据降维、无监督特征提取等任意长序列任务,完全并行计算。
RNN和CNN与Transformer比较:CNN和RNN都只是用固定窗口建模,同时后者按序处理元素,限制了并行,序列长度增加会导致序列开始和结束依赖关系难以捕捉。