![数据挖掘技术及其在恒星光谱分析中的应用研究](https://wfqqreader-1252317822.image.myqcloud.com/cover/302/47379302/b_47379302.jpg)
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人
2.1 背景知识
2.1.1 线性判别分析
线性判别分析从高维特征空间中提取最具鉴别能力的低维特征,使得在低维空间里不同类别的样本尽量分开,同时每个类内部样本尽量密集。
设有d维样本,其中
表示第i个样本,N表示样本总数。设
是一个
的矩阵,每个列向量表示第i类的一个n维样本。其中,
表示第i类中的第j个样本,
表示第i类样本个数,c表示样本类别总数。所有样本的均值
。设第i类的样本均值为
(i=1, …,c),则有
。
Fisher准则函数定义如下:
![](https://epubservercos.yuewen.com/0C2FC6/26764070809603606/epubprivate/OEBPS/Images/35167-00-29-4.jpg?sign=1739195474-oaWFvv2kY6TVyT0s6Jnu7bnpKMsyuINu-0-37d93b297470a22280ba838d6389164a)
其中,类间离散度矩阵SB和类内离散度矩阵SW分别定义为
![](https://epubservercos.yuewen.com/0C2FC6/26764070809603606/epubprivate/OEBPS/Images/35167-00-29-5.jpg?sign=1739195474-ae39pBbhBHHC71k9G3dfgPoQ8nyghzqN-0-11c5712733edeac32faef94195e74595)
由线性代数理论不难发现Wopt是满足等式
SBW=λSWW
的解。
线性判别分析面临两大挑战。
1.秩限制问题
下面考察类间离散度矩阵SB的秩,由前面的定义有
![](https://epubservercos.yuewen.com/0C2FC6/26764070809603606/epubprivate/OEBPS/Images/35167-00-29-6.jpg?sign=1739195474-9TRKK3gLbqvGQCVJddIz8v4UsmTuxu45-0-3569a9fa6a178e83a2b0bcc476d72777)
则类间离散度矩阵SB的秩为
![](https://epubservercos.yuewen.com/0C2FC6/26764070809603606/epubprivate/OEBPS/Images/35167-00-29-7.jpg?sign=1739195474-XjgNwJtGIoxG2zY6rpAwXIdGU2Th5INz-0-082108ef4cf0545211a84d49c7264266)
式(2.1.2)表明LDA最多只能求c−1个非零特征向量,即LDA至多只能求c−1个判别方向,从而限制了更多判别信息的获得,进而造成分类性能的局限,这就是所谓的秩限制问题。
2.小样本问题
当样本总数大于样本维数时,类内离散度矩阵SW通常是非奇异的;否则,SW是奇异的。此种情况称为小样本问题。