LDA原理(剖析源代码,详解)--688IT编程网

LDA原理（剖析源代码，详解）

上篇⽂章我们讲解了PCA的原理，在这⾥我们先分析⼀下PCA和LDA的区别

LDA线性判别分析也是⼀种经典的降维⽅法，LDA是⼀种监督学习的降维技术，也就是说它的数据集的每个样本是有类别输出的。这点和PCA不同。PCA是不考虑样本类别输出的⽆监督降维技术。LDA的思想可以⽤⼀句话概括，就是“投影后类内⽅差最⼩，类间⽅差最⼤”。

什么意思呢？我们要将数据在低维度上进⾏投影，投影后希望每⼀种类别数据的投影点尽可能的接近，⽽不同类别的数据的类别中⼼之间的距离尽可能的⼤。

可能还是有点抽象，我们先看看最简单的情况。假设我们有两类数据分别为红⾊和蓝⾊，如下图所⽰，这些数据特征是⼆维的，我们希望将这些数据投影到⼀维的⼀条直线，让每⼀种类别数据的投影点尽可能的接近，⽽红⾊和蓝⾊数据中⼼之间的距离尽可能的⼤。

左边是PCA的投影效果，右边是LDA的投影效果。可以看出PCA只是考虑了整体的情况，投影到⽅差最⼤的⽅向，⽽LDA投影的时候考虑到类内⽅差减⼩，类间⽅差增⼤，这样可以更好的进⾏区分。

针对这个数据集，如果同样选择使⽤PCA，选择⽅差最⼤的⽅向作为投影⽅向，来对数据进⾏降维。那么PCA选出的最佳投影⽅向，将是图中红⾊直线所⽰的⽅向。这样做投影确实⽅差最⼤，但是是不是有其他问题。聪明的你⼀定发现了，这样做投影之后两类数据样本将混合在⼀起，将不再线性可分，甚⾄是不可分的。这对我们来说简直就是地狱，本来线性可分的样本被我们亲⼿变得不再可分。

帅⽓英俊的你也⼀定发现了，图中还有⼀条耀眼的黄⾊直线，向这条直线做投影即能使数据降维，同时还能保证两类数据仍然是线性可分的。上⾯的这个数据集如果使⽤LDA降维，出的投影⽅向就是

黄⾊直线所在的⽅向。

这其实就是LDA的思想，或者说LDA降维的⽬标：将带有标签的数据降维，投影到低维空间同时满⾜三个条件：

尽可能多地保留数据样本的信息（即选择最⼤的特征是对应的特征向量所代表的的⽅向）。

寻使样本尽可能好分的最佳投影⽅向。

投影后使得同类样本尽可能近，不同类样本尽可能远。

两者的相同点是：

1）两者均可以对数据进⾏降维。

2）两者在降维时均使⽤了矩阵特征分解的思想。

3）两者都假设数据符合⾼斯分布【正态分布】。

两者的不同点是：

1）LDA是有监督的降维⽅法，⽽PCA是⽆监督的降维⽅法

2）LDA降维最多降到类别数**k-1**的维数，⽽PCA没有这个限制。

3）LDA除了可以⽤于降维，还可以⽤于分类。（有predict⽅法，⽽PCA没有）

4）LDA选择分类性能最好的投影⽅向，⽽PCA选择样本点投影具有最⼤⽅差的⽅向。

下⾯开始进⾏分析它是如何计算出来的？

在这⾥我们还是使⽤鸢尾花的数据进⾏分析（属性较少，更直观，容易理解！）

import numpy as np

from sklearn.discriminant_analysis import LinearDiscriminantAnalysis

from sklearn import datasets

import warnings

warnings.filterwarnings('ignore')

X,y = datasets.load_iris(True)

X[:5]

array([[5.1, 3.5, 1.4, 0.2],

[4.9, 3. , 1.4, 0.2],

[4.7, 3.2, 1.3, 0.2],

[4.6, 3.1, 1.5, 0.2],

[5. , 3.6, 1.4, 0.2]])

为了验证我们计算的准确⽆误，下⾯是对原码进⾏剖析的结果，我在源代码中进⾏了修改，打印了Sw,St,Sb的准确值，⽤来⽐较如下图是源代码，在这⾥我们主要是对solver='eigen’这种情况进⾏剖析（⽐较常⽤）

class LinearDiscriminantAnalysis(BaseEstimator, LinearClassifierMixin,

TransformerMixin):

def_solve_eigen(self, X, y, shrinkage):

Sw = variance_ # within scatter

print('------Sw为',Sw)

St = _cov(X, shrinkage)# total scatter

print('******St为',St)

Sb = St - Sw # between scatter

print('++++++Sb为',Sb)

evals, evecs = linalg.eigh(Sb, Sw)

print('------evals',evals)

)[::-1][:self._max_components]

evecs = evecs[:, np.argsort(evals)[::-1]]# sort eigenvectors

# 特征值和特征向量

lda = LinearDiscriminantAnalysis(solver='eigen',n_components=2)

X_lda = lda.fit_transform(X,y)

X_lda[:5]

------Sw为 [[0.259708 0.09086667 0.164164 0.03763333]

[0.09086667 0.11308 0.05413867 0.032056 ]

[0.164164 0.05413867 0.181484 0.041812 ]

[0.03763333 0.032056 0.041812 0.041044 ]]

******St为 [[ 0.68112222 -0.04215111 1.26582 0.51282889]

[-0.04215111 0.18871289 -0.32745867 -0.12082844]

[ 1.26582 -0.32745867 3.09550267 1.286972 ]

[ 0.51282889 -0.12082844 1.286972 0.57713289]]

++++++Sb为 [[ 0.42141422 -0.13301778 1.101656 0.47519556]

[-0.13301778 0.07563289 -0.38159733 -0.15288444]

[ 1.101656 -0.38159733 2.91401867 1.24516 ]

[ 0.47519556 -0.15288444 1.24516 0.53608889]]

------evals [-2.16757273e-14 6.63220529e-15 2.85391043e-01 3.21919292e+01]

array([[6.01716893, 7.03257409],

[5.0745834 , 5.9344564 ],

[5.43939015, 6.46102462],

[4.75589325, 6.05166375],

[6.08839432, 7.24878907]])

1、总的散度矩阵

# 协⽅差

St = np.cov(X.T,bias =1)

源代码电影讲解St

array([[ 0.68112222, -0.04215111, 1.26582 , 0.51282889],

[-0.04215111, 0.18871289, -0.32745867, -0.12082844],

[ 1.26582 , -0.32745867, 3.09550267, 1.286972 ],

[ 0.51282889, -0.12082844, 1.286972 , 0.57713289]])

！！注意这⾥为什么使⽤bias=1？（重点）答案也是剖析源代码得出结果：

def_cov(X, shrinkage=None):

shrinkage ="empirical"if shrinkage is None else shrinkage

if isinstance(shrinkage,str):

if shrinkage =='auto':

sc = StandardScaler()# standardize features

X = sc.fit_transform(X)

s = ledoit_wolf(X)[0]

# rescale

s = sc.scale_[:, np.newaxis]* s * sc.scale_[np.newaxis,:]

elif shrinkage =='empirical':

s = empirical_covariance(X)

else:

raise ValueError('unknown shrinkage parameter')

从上⾯部分代码可以看出，我们对shrinkage没有设置所以会执⾏s = empirical_covariance(X)步，好奇的我就会点进去，⼀探究竟，果然！！

if assume_centered:

covariance = np.dot(X.T, X)/ X.shape[0]

else:

covariance = np.cov(X.T, bias=1)

if covariance.ndim ==0:

covariance = np.array([[covariance]])

return covariance

bias=1乖乖浮出浮出⽔⾯，这会就会发现不会有⼩的误差，准确⾄极~~

2、类内的散度矩阵

# Scatter散点图，within（内）

Sw = np.full(shape =(4,4),fill_value=0,dtype=np.float64)

for i in range(3):

Sw += np.cov(X[y == i],rowvar =False,bias =1)

Sw/=3

array([[0.259708 , 0.09086667, 0.164164 , 0.03763333],

[0.09086667, 0.11308 , 0.05413867, 0.032056 ],

[0.164164 , 0.05413867, 0.181484 , 0.041812 ],

[0.03763333, 0.032056 , 0.041812 , 0.041044 ]])

3、计算类间的散度矩阵

# Scatter between

Sb = St - Sw

array([[ 0.42141422, -0.13301778, 1.101656 , 0.47519556],

[-0.13301778, 0.07563289, -0.38159733, -0.15288444],

[ 1.101656 , -0.38159733, 2.91401867, 1.24516 ],

[ 0.47519556, -0.15288444, 1.24516 , 0.53608889]])

# scipy这个模块下的线性代数⼦模块

from scipy import linalg

4、特征值，和特征向量

eigen,ev = linalg.eigh(Sb,Sw)

display(eigen,ev)

ev = ev[:, np.argsort(eigen)[::-1]]

array([-1.84103303e-14, 1.18322589e-14, 2.85391043e-01, 3.21919292e+01])

array([[ 1.54162331, -2.82590065, 0.02434685, 0.83779794],

[-2.49358543, 1.05970269, 2.18649663, 1.55005187],

[-2.86907801, 1.01439507, -0.94138258, -2.22355955],

[ 4.58628831, 0.45101349, 2.86801283, -2.83899363]])

array([[ 0.83779794, 0.02434685, -2.82590065, 1.54162331],

[ 1.55005187, 2.18649663, 1.05970269, -2.49358543],

[-2.22355955, -0.94138258, 1.01439507, -2.86907801],

[-2.83899363, 2.86801283, 0.45101349, 4.58628831]])

这⾥的ev[:, np.argsort(eigen)[::-1]]为什么要进⾏这样的转换？

看源码！就可以知道答案啦~~

class LinearDiscriminantAnalysis(BaseEstimator, LinearClassifierMixin,

TransformerMixin):

def_solve_eigen(self, X, y, shrinkage):

Sw = variance_ # within scatter

print('------Sw为',Sw)

St = _cov(X, shrinkage)# total scatter

print('******St为',St)

Sb = St - Sw # between scatter

print('++++++Sb为',Sb)

evals, evecs = linalg.eigh(Sb, Sw)

print('------evals',evals)

)[::-1][:self._max_components]

evecs = evecs[:, np.argsort(evals)[::-1]]# sort eigenvectors

X_lda[:5]

array([[6.01716893, 7.03257409],

[5.0745834 , 5.9344564 ],

[5.43939015, 6.46102462],

[4.75589325, 6.05166375],

[6.08839432, 7.24878907]])

5、删选特征向量，进⾏矩阵运算

X.dot(ev)[:,:2]

array([[ 6.01716893, 7.03257409],

[ 5.0745834 , 5.9344564 ],

[ 5.43939015, 6.46102462],

[ 4.75589325, 6.05166375],

[ 6.08839432, 7.24878907],

[ 5.65366246, 8.20566459],

.........

可以看出，原码交给我们的真的是受益匪浅，答案准确⽆误！完美！

688IT编程网

LDA原理(剖析源代码,详解)

发表评论

推荐文章

emo是什么意思

东风化雨是什么意思

英语作文20年后的我有汉语意思女生版

英语文学导论诗歌意象

英语中各种词性的意义及用法

热门文章

leaf的意思用法大全

论文发表参考文献的大写字母代表含义

美国五十州地名意思

春晓的意思是什么

wlan是什么意思-wlan和wifi的区别是什么

别出心裁的裁什么意思

小学低段英语教学,趣味先行!

春夏秋冬_春夏秋冬的意思_成语词典

blouse的中文意思

常见英文人名大全_英文人名含义

英语人名的含义

bluespring是什么意思

论文参考文献的各种字母的含义及写法

红在东西方中不同的含义象征

?春事阑珊什么意思?有什么典故?

metoo是什么意思

英语单词normal是什么意思-详尽释义用法搭配及例句

save的用法和短语例句是什么意思

巧用发音规则记单词

【弦】_弦字的读音弦的意思

最新文章

emo是什么意思

英语文学导论诗歌意象

英语中各种词性的意义及用法

pale的意思用法总结

作文遇见春暖花开600字

[转载]【译心译意】Early

标签列表