一、向量的性质
- 设(n)维向量(x=[x_1,x_2,...,x_n]^T)与(n)维向量(y=[y_1,y_2,...,y_n]^T),则定义
称作向量内积,即([x,y]=x^Ty)(这种表示用的比较多)。
2. 定义 若(x^Ty=0)则称向量(x)与(y)正交,即内积为0的两个向量正交。
3. 定理 若(n)维向量(alpha_1,alpha_2,...,alpha_r)是一组两两正交的非零向量,则向量组(alpha_1,alpha_2,...,alpha_r)线性无关。
证明: 设有(lambda_1,lambda_2,...,lambda_r)使得
用(alpha_i)与上式做内积(([alpha_i,alpha_j]=0quad, i eq j))故
而([alpha_i,alpha_i]>0),故(lambda_i=0),从而向量组(alpha_1,alpha_2,...,alpha_r)线性无关。
- 定义 设(n)维向量(e_1,e_2,...,e_r)是向量空间(V)的一组基,如果(e_1,e_2,...,e_r)正交,且都是单位矩阵,则称(e_1,e_2,...,e_r)是(V)的标准正交基。
(V)中任一个向量(alpha)可以表示为
用(e_i^T)左乘向量(alpha)可以求出(lambda_i),即
- (Schmidt)正交化 设(alpha_1,alpha_2,...,alpha_r)是空间(V)的一组基,可以通过下面方法求(V)的一组标准正交基
然后将他们单位化
则(e_1,e_2,...,e_r)就是(V)的一组标准正交基。
- 定义 如果(n)阶矩阵(A)满足
那么称(A)为正交矩阵,简称正交阵。
设(A=[alpha_1,alpha_2,alpha_n]),则(A^TA=E)得
这说明方阵(A)是正交矩阵的充分必要条件是(A)的列向量都是单位向量,且两两正交。
- 定义 设(P)是正交矩阵,则线性变换(y=Px)是正交变换。
可知(||y||=sqrt{y^Ty}=sqrt{x^TP^TPx}=sqrt{x^Tx}=||x||),这说明正交变换不改变向量的长度,只改变向量的方向。
二、特征值分解与奇异值分解
1、特征值与特征向量的定义
定义 设(A)是(n)阶方阵,如果常数(lambda)和(n)维非零向量(x)满足
称(lambda)为特征值,(x)为特征向量。
特征向量的求法,上式变形为
在复数范围内(A)有(n)个特征向量。求解出(lambda_i)后,可以根据((A-lambda_iE)x=0)求解出特征向量(x).
2、特征值与特征向量的性质
-
设(n)阶矩阵(A=(a_{ij}))的特征值为(lambda_1,lambda_2,...,lambda_n),则
(1) (lambda_1+lambda_2+...+lambda_n=a_{11}+a_{22}+...+a_{nn}=tr(A))
(2) (lambda_1lambda_2...lambda_n=|A|)
(3) 若(lambda)是(A)的特征值,则(lambda^2)是(A^2)的特征值;当(A)可逆时,(frac{1}{lambda})是(A^{-1})的特征值。
(4) (A)可逆 (quad Longleftrightarrow quad) (A)的全部特征值都不为零。 -
定理 设(lambda_1,lambda_2,...,lambda_m)是方阵(A)的(m)个互不相等的特征值,(p_1,p_2,...,p_m)依次是其对应的特征向量,则向量组(p_1,p_2,...,p_n)线性无关。一句话概括就是:属于不同值特征的向量是线性无关的。(可用数学归纳法证之,略)
3、矩阵相似的概念
定义 设(A)和(B)都是(n)阶方阵,若有可逆矩阵(P)使得
则称(A)与(B)相似,记做(A sim B)
** 定理 ** 若(n)阶矩阵(A)与(B)相似,则(A)与(B)的特征多项式相同,从而(A)与(B)的特征值相同。(一句话:相似矩阵具有相同特征值)
证明:
定义 对(n)阶矩阵(A),寻求相似变换矩阵(P)使得(P^{-1}AP=dig(lambda_1,lambda_2,...,lambda_n)),称把矩阵(A)对角化。
不妨设我们已经找到可逆矩阵(P),使得(P^{-1}AP=dig(lambda_1,lambda_2,...,lambda_n)),将(P)表示称列向量的形式设 (; P=(p_1,p_2,...,p_n)),则
于是有
这说明(p_i)就是(A)的特征向量(lambda_i)就是(A)的特征值,(A)恰好有(n)个特征值,并可以求出(n)个特征向量,这(n)个特征向量即可构成矩阵(P)。
定理 (A)能对角化的充分必要条件是(A)有(n)个线性无关的特征向量。它的充分不必要条件是(A)有(n)个互不相等的特征值。
4、矩阵特征值分解
特征值与特征向量的几何意义 矩阵的乘法对应一个线性变换,是把任意一个向量变成另一个方向或者长度不同的新向量。在这个变换中,原向量主要发生旋转、伸缩变化。所谓特征向量其实就是在该矩阵的作用下,不对该向量产生旋转效果,只对他们做伸缩变换,伸缩比例就是特征值的大小。
矩阵特征值分解就是将一个矩阵分解为
其中,(Lambda) 为由(A)的特征值组成的对角矩阵,(P)为相应的特征向量组成的矩阵。特征值是从大到小排列的,这些特征值所对应的特征向量就是描述这个矩阵变化的方向(从主要变化到次要变化的排列)。
也就是说,矩阵(A)的信息可以由其特征值与特征向量表示,矩阵对应的变换有很多变换方向,我们通过特征值分解得到前(N)个特征向量,那么就对应这个矩阵主要的变换方向,可以利用这前(N)个变化方向来近似表示这个矩阵的变换。总结一下就是,特征值表示这个特征有多重要,而特征向量表示这个特征是什么。它的局限性在于,变换的矩阵必须是方阵。
5、矩阵奇异值分解
特征值分解是一个提取矩阵特征很不错的方法,但是它只针对方阵而言,在现实世界中,我们看到的大部分矩阵都不是方阵,那么如何提取一个(m imes n)矩阵的特征呢?奇异值分解就是来干这个事情的,奇异值分解能适用于任意矩阵的一种分解方法。
设(A)是一个(m imes n)的矩阵,则(A)的分解形式为
分解得到的矩阵具有特殊的结构。(U)是一个(m imes m)正交矩阵(左奇异向量),(D)是一个$m imes n (对角矩阵(奇异值),)V(是一个)n imes n$的正交矩阵(右奇异向量)。
那么奇异值如何计算呢?将(A^T)乘以(A)得到一个方程
通过上面方法求出(A^TA)的特征值(lambda_i)和特征向量(v_i),于是就可以得到奇异值为
并且(A)的左奇异向量就是(AA^T)的特征向量,(A)的右奇异向量就是(A^TA)的特征向量。(A)的非零奇异值就是(AA^T)的特征值的平方根,(A^TA)也是一样的。
奇异值(sigma)和特征值类似,在矩阵(D)中也是从小到大排列的,而(sigma)的减少特别快,在很多情况下,前(10\%)甚至前(1\%)的奇异值就占了全部奇异值和的(99\%)以上。也就是说我们可以用前(r)((r)远小于(m,n))个奇异值来近似代替和描述矩阵,即为部分奇异值的分解
如果想要压缩空间来表示原矩阵(A),可以存下这里的三个矩阵:(U、D、V)即可。
关于奇异值的计算是一个难题,是一个(O(n^3))的算法,可以采用并行方法求解,在大规模矩阵求解中,一般使用迭代方法。
三、矩阵的迹算子
设矩阵(A)为(m imes n)的矩阵,则(A)的迹(Tr(A))定义为
迹算子具有很好的性质,在很多情况下很有用。例如矩阵(A)的(F)范数可以表示为
并且(A)的迹与(A^T)的迹相同,即为
并且迹的运算满足轮换规则
更一般的