机器学习

降维：PCA(Principal component analysis)

几何角度、概率角度

Posted by LT on May 4, 2020

一、背景

维度灾难👉数据稀疏性
过拟合（训练误差小，泛化误差大）的解决方法
- 增加数据
- 正则化
- 降维
  - 直接降维👉特征选择
  - 线性降维👉PCA，MDS
  - 非线性降维👉流形

二、几何角度：PCA(Principal component analysis)

一个中心
- 原始特征空间重构：相关👉无关
两个基本点（同一个意思，都是为中心服务的）
- 最大投影方差
- 最小重构距离
最大投影方差
- 找到主成分（一组线性无关的正交基/坐标轴）
- 步骤
  - 中心化/标准化：$x_i- \bar x$
  - 先看一个点。
    - 加入找到的主成分是$u_1$。$u_1$的模是1。
    - $x_i$在$u_1$上的投影就是$J=(x_i- \bar x)^T u_1$
    - 所以N个点的投影方差是$ J= \frac{1}{N} \sum_{i=1}^{N} ( (x_i- \bar x)^T u_1 )^2 \ = u_1^T S u_1$，其中$u_1$的模是1，S是样本方差。
    - $ \hat u_1= arg max J $，其中$u_1$的模是1。可以用拉格朗日乘子法求解，即$ Su_1= λ_1 u_1 $。(λ是特征值)
- 步骤小结：
  - 特征重构，找到$u_1,…u_p$，分别对应的是$λ_1,…,λ_p$。（x是p维）
  - 筛选前q个主成分u。
最小重构代价/距离
- 如果保留p个主成分$u_1,…u_p$，把它们看作坐标轴来表示（重构）x，就是$ x_i= \sum_{k=1}^{p} (x_i^T u_k)u_k $
  - 注，这里$x_i$看作中心化/标准化之后的：$x_i- \bar x$
- 实际上，我们做了降维（保留前q个主成分u），所以重构的x其实是$ \hat x_i= \sum_{k=1}^{q} (x_i^T u_k)u_k $
- 所以，重构代价是$ J= \frac{1}{N} \sum_{i=1}^{N} (x_i- \hat x_i)^2 \ = \sum_{k=q+1}^{p} u_k^T S u_k $
  - $ u_k= arg min \sum_{q+1}^{p} u_k^T S u_k $
  - 其中，$u_k$的模是1，q < p

三、概率角度看PCA：p-PCA

p-PCA，符号表示

$ x \in R^p, z \in R^q $
其中，x是观测数据（observed data），z是隐变量（latent variable），q < p。
$ z \sim N(0_q, I_q)
x= wz +μ + ε
ε \sim N(0, σ^2 I_p) $

以上方程组可看作Linear Gaussian Model，由于分布构造形式简单，[z, x

z, x, z

x](./2020-05-01-频率-贝叶斯.md)都可以计算出来。

p-PCA可以解决的两个问题
- 推断：p(z x)
- 学习：w，μ，σ²👉如果MLE不好求就用EM
p-PCA和GMM区别
- p-PCA 连续
- GMM 离散

对比

Diffeomorphism(微分同胚)：
- 一个映射，如果正变换和逆变换都是光滑的（有连续偏导），则称该映射是Diffeomorphism
PCA，ICA(independent component analysis)区别
- PCA：特征提取，降维。（用于预处理）
- ICA：认为观测信号是若干个统计独立的分量的线性组合。（比如解混响）
PCA，线性判别分析(LDA, Linear Discriminant Analysis)思想有点像。不同之处是，
- PCA用于降维/特征提取
- LDA用于线性分类中的硬分类