• 【高等代数】02


      矩阵本质的意义在于线性变换,可以说离开线性变换,矩阵是毫无用处的。而线性变换的基本运算就是加法和乘法,其中对矩阵乘法的研究一直是线性代数中的核心内容。其中包括矩阵的幂次方、矩阵的逆、矩阵的分解,而且它们是互相渗透的。虽然说研究矩阵乘法的目的是线性变换,但乘法本身的性质可以脱离线性变换而讨论,我们将再花两篇的空间来展开阐述。

    1. 矩阵的逆

    1.1 矩阵的计算

      一般矩阵的乘法是不可交换的((AB e BA)),但在一些特殊情况可以满足交换律,适当地使用交换性将得到很多漂亮的结论。一个典型的代表就是同一个矩阵的幂次(A^k)之间是可交换的,这使得对任何多项式(f(x)),(f(A))可以自由使用。这包含两层意思,一个是不管(f(x))写成什么样的因式形式,(f(A))都是相同的;另一个意思是对任何多项式都有(f(A)g(A)=g(A)f(A)),这使得一些复杂表达式的处理更加自由。

       另外,证明矩阵可逆和求矩阵的逆,一般使用定义(行列式非零和代数余子式)以及初等变换法。对于一些特殊矩阵,其实可以直接拼凑出(AB=I)的形式,这样就得到(A^{-1}=B)。在本篇特殊矩阵部分,我们还会碰到这样的例子,这里先举一些普通的例子。比如已知(A+B=AB),则有(A(B-I)=B),两边减去(I)整理得((I-A)(I-B)=I),从而(I-A,I-B)互为逆矩阵。随之还能得到((I-B)(I-A)=I),展开后有(A+B=BA),从而还能得到(AB=BA)。

      另外前面已经证明(|I_m-AB|=|I_n-BA|),那么如果已经知道(C=(I_m-AB)^{-1}),如何来求((I_n-BA)^{-1})呢?基本思路其实就是拼凑,首先由于((I_m-AB)C=I),为了凑出(BA),现在两边同时乘上(B),整理后得到(B=(I_n-BA)BC)。两边同时乘上(A)并用(I_n)来减,整理后得到((I_n-BA)(I_n+BCA)=I_n),所以有式(1)成立。

    [(I_n-BA)^{-1}=I_n+B(I_m-AB)^{-1}A ag{1}]

    1.2 广义逆矩阵

      以前我们简单介绍过广义逆矩阵,这里再稍微细致地讨论一下。在一般矩阵方程(AX=B)中,如果(A)可逆,则(X)完全确定且可以简单地表示出来(A^{-1}B)。但(A)不可逆时,现在却没有较好的工具描述(AX=B)有解的充要条件,并给出解的一般形式。这时我们希望能有类似(A)的逆的概念,或者说矩阵的逆进行扩展,下面从方程(AX=eta)的解中寻找广义逆的形式特点。

      如果(A)的秩为(r),则存在可逆矩阵(P,Q)使得(A=Pegin{bmatrix}I_r&0\0&0end{bmatrix}Q),带入方程可以得到(egin{bmatrix}I_r&0\0&0end{bmatrix}QX=P^{-1}eta)。把(P^{-1}eta)分块写成([Y_r, Z]'),方程有解的必要条件是(Y_r e 0, Z=0),且这时方程等价于(QX=[Y_r, W]’),其中(W)任意。不难看出,([Y_r,W]')其实可以表示为(egin{bmatrix}I_r&B\C&Dend{bmatrix}egin{bmatrix}Y_r\0end{bmatrix}=egin{bmatrix}I_r&B\C&Dend{bmatrix}P^{-1}eta),其中(B,D)任意,而(CY_r)要能取遍所有(W)。由(Y_r e 0)可知(C)可以任意取,这就得到了式(2)方程的通解,其中(B,C,D)任意。

    [AX=eta;Rightarrow;X=Q^{-1}egin{bmatrix}I_r&B\C&Dend{bmatrix}P^{-1}eta ag{2}]

      可以看出把式(3)做为(A)的“逆矩阵”是合理的,它被称为(A)的广义逆矩阵,记作(A^-)。(A^-)虽然没有一般逆矩阵的所有性质,但也有个别性质和逆矩阵很像,比如这里的方程解。再比如有等式(AA^-A=A),其实如果有(ABA=A),利用(A=Pegin{bmatrix}I_r&0\0&0end{bmatrix}Q),不难推到(B=A^-),故(A^-)有式(4)的等价定义。

    [A=Pegin{bmatrix}I_r&0\0&0end{bmatrix}Q;Rightarrow;A^-=Q^{-1}egin{bmatrix}I_r&B\C&Dend{bmatrix}P^{-1} ag{3}]

    [B=A^-;Leftrightarrow;ABA=A ag{4}]

      现在我们回到方程,还有一个问题没有解决,就是只用(A,eta)来描述方程有解的充要条件。首先方程有解时,(eta=AX=AA^-eta),反之当(AA^-eta=eta)时,方程显然有解(A^-eta)。故方程(AX=eta)有解的充要条件是(AA^-eta=eta)。以上通解形式只是理论结果,在使用过程中很不方便,我们需要寻找别的表示方法。当得到一个特解(A^-eta)后((A^-)取一特定值),只需求解其次方程(AX=0)。首先不难构造出解((I-A^-A)W),其次对于如何解都有((I-A^-A)X=X),从而((I-A^-A)W)是(AX=0)的通解,最终便有了(AX=eta)的通解式(5),其中(W)为任意(n)维向量。

    [AX=eta;Rightarrow;X=A^-eta+(I_n-A^-A)W ag{5}]

      广义逆矩阵可以运用在更多的矩阵方程中,构造法往往是求得通解的方法,教材上有具体的例子。现在来看一个判断广义逆的秩方法,使用的是式(6)的秩关系式,先用Sylvester秩不等式得到(geqslant),再由变换(egin{bmatrix}A&0\0&I-BAend{bmatrix} ightarrowegin{bmatrix}A-ABA&0\BA&Iend{bmatrix})可以得到(leqslant)。(B=A^-)等价于(A=ABA),而由式(6)就知道这等价于式(7)右,它便是我们要说的秩判别法。

    [ ext{rank}(A-ABA)= ext{rank}(A)+ ext{rank}(I-BA)-n ag{6}]

    [B=A^-;Leftrightarrow; ext{rank}(A)+ ext{rank}(I-BA)=n ag{7}]

    1.3 Moose-Penrose广义逆

      广义逆矩阵可能不唯一,而且也没有很多简单的性质,甚至连基本的对称性都不满足。那么在众多广义逆矩阵里,有没有更加独特的哪一个呢?既然有(AXA=A),至少还应该有(XAX=X)吧,乘积(A^-A,AA^-)虽然不是单位矩阵,但至少是对称的吧。满足式(8)右的矩阵便称为Moose-Penrose广义逆,记作(A^+)。先来看(A^+)是否存在,当(A=0)时,容易知道有唯一解(A^+=0)。当(A e 0)时,设(A=BC),其中(B,C)分别列、行满秩。可以验证式(9)右满足条件,并且讨论式(10)还能论证唯一性。

    [B=A^+;Leftrightarrow;ABA=A, BAB=B,(overline{BA})'=BA, (overline{AB})'=AB ag{8}]

    [A=BC;;Rightarrow;;A^+=C^R(CC^R)^{-1}(C^RB)^{-1}B^R, ;(X^R=ar{X}') ag{9}]

    [X_1=X_1AX_1=X_1(AX_2)(AX_1)=X_1(AX_1AX_2)^R=X_1X_2^RA^R=X_1AX_2 ag{10}]

      自然由对称性可知((A^+)^+=A),但却不能如愿地得到((AB)^+=B^+A^+)。还需要添加一些条件,比如令(A,B)分别为列、行满秩矩阵,则有(A=AI,B=IB)。由式(9)知(A^+=(A^RA)^{-1}A^R,B^+=B^R(BB^R)^{-1}),然后就容易验证得到式(11)。

    [ ext{rank}(A_{m imes n})=n,\, ext{rank}(B_{n imes m})=n;Rightarrow;(AB)^+=B^+A^+ ag{11}]

    2. 线性变换

    2.1 相似变换

      我们知道,一个线性变换等价于一类矩阵,这类矩阵称为相似的,并且它们之间有相似变换(B=P^{-1}AP)。为了找到线性变换的根本特性,就需要找到这类矩阵的相似不变量,用尽量少而简单的特征来区分和刻画不同的线性变换。这个问题在复空间上得到完满解决,Jordan标准型给出了独一无二的刻画方法。在其它数域上,标准型经常无法给出,我们转而研究可对角化的线性变换,它们有着更加实用的形式。

      相似变换的不变量有很多,其中有个不显眼但却很有趣的量,就是矩阵对角线之和( ext{tr}(A)),它也称为方阵的。迹有个很重要的结论,就是式(12)左的交换乘积顺序不变性,并由此能轻松推到式(12)右的相似不变性。这个特点在有些场合有助于判断矩阵的性质,比如如果(AB-BA=A),则可以判断(A)不可逆,否则就有(ABA^{-1}-B=I),而两边的迹显然不相等。

    [ ext{tr}(AB)= ext{tr}(BA);Rightarrow; ext{tr}(P^{-1}AP)= ext{tr}(A) ag{12}]

    2.2 特征值和特征多项式

      当然,相似变换的最重要的不变量还是特征值(或特征多项式),它们也是矩阵对角化的主角,特征多项式是指行列式(|lambda I-A|)。利用行列式的性质,可以将它按行(或列)拆成(2^n)个行列式之和,其中每个行列式的第(i)行取自(lambda I)或(-A)。从而每个行列式都是单项式(alambda^k),其中(k)等同于行列式取自(lambda I)的行的个数,(a)则是(-A)剩下的主子式。这就是说特征多项式的(lambda^k)系数就是(-A)所有(n-k)阶主子式之和,特别地,(lambda^{n-1})的系数是(- ext{tr}(A)),常数项则是((-1)^{n}|A|)。

      由于方阵是否可逆等价于(|A|)是否为(0),这就说明了方阵可逆的充要条件是它没有特征值(0)。而对可逆矩阵,由(Aalpha=lambdaalpha)可知(lambda^{-1}alpha=A^{-1}alpha),从而可逆矩阵与它的逆有相同的特征向量,且对应的特征值为其倒数。还有一个浅显的结论是,如果(lambda)是(A)的特征值,则显然(lambda^k)是(A^k)的特征值,而(f(lambda))是(f(A))的特征值。

      反过来还可以证明,(f(lambda))便是(f(A))的所有特征值。为此先设(A)的(n)个特征值为(lambda_i)(包括重根),再设任意(m)次首(1)多项式(g(x))的(m)个根为(mu_j)(包括重根),不难得到式(13)的推导。从而直接有(|lambda I-f(A)|=prod(lambda-f(lambda_i))),所以(f(A))的所有特征值就是(f(lambda_i)),结论得证。

    [|g(A)|=prod_{j=1}^m|A-mu_jI|=prod_{j=1}^mprod_{i=1}^n(lambda_i-mu_j) =prod_{i=1}^ng(lambda_i) ag{13}]

      当然也不是所有特征值都是要解特征多项式,对于一些特殊矩阵,充分利用它的特点,也可以很快计算出特征值,这里仅举两例。正交矩阵是指满足(A'A=I)的方阵,从而有(A^{-1}=A')以及(AA'=I),也就是说它的每行(列)的范数为(1)且互相正交。假设(Aalpha=lambdaalpha),考察(C=(Aalpha)'Aalpha),首先有(C=alpha'A'Aalpha=|alpha|^2),还可以有((lambdaalpha)'(lambdaalpha)=lambda^2|alpha|^2),从而得到(lambda=pm 1)。另外容易有(|A|=pm 1),而所有特征值的积为(|A|),故当(|A|=-1)时它必有特征值(-1),当(|A|=1)且阶为奇数时必有特征值(1)。

      再来看一下(AB,BA)特征值的关系,由等式(|I_m-AB|=|I_n-BA|)不难推导出式(14)。这就是说(AB,BA)完全相同的特征值和重数((0)除外),且(0)特征值的重数相差(|m-n|),当(A,B)为方阵时它们有相同的特征值和重数。另外如果(alpha)是(AB)的特征向量,则有(ABalpha=lambdaalpha),两边乘上(B)有(BA(Balpha)=lambda(Balpha)),从而(Balpha)是(BA)同一特征值下的特征向量。

    [lambda^n|lambda I_m-AB|=lambda^m|lambda I_n-BA| ag{14}]

      最后我们来一个简单的特征值的估算方法,先假设(Aalpha=lambdaalpha),其中(alpha=(a_1,a_2,cdots,a_n)')。假设({|a_i|})的最大值为(|a_k|),则考察(Aalpha=lambdaalpha)的第(k)个元素,整理后不难有估计式(15)。对于(A)的每一行(列),式(15)的取值范围也被称为Gersgorin圆盘,从而任何特征值一定在某个圆盘中。有时把(A)的复特征值集合称为(A)的,而特征值模的最大值称为(A)谱半径(S_r(A)),利用公式(15)容易得到式(16)。

    [|lambda-a_{kk}|leqslantsum_{j e k}|a_{kj}| ag{15}]

    [S_r(A)leqslantmaxsum_j|a_{ij}|;;;S_r(A)leqslantmaxsum_i|a_{ij}| ag{16}]

    2.3 对角化和实对称矩阵

      再来回到相似对角化上来,我们知道矩阵可相似对角化的充要条件是:所有特征向量空间的秩和为(n)。这个判断方法使用起来比较麻烦,倒是很多充分条件判断起来更容易且更实用,比如特征值互不相同,再比如实对称矩阵等。可对角化的矩阵对于计算非常有利,尤其是计算矩阵的幂(A^m),可以直接得到结果(P^{-1}D^mP)。

       求证:(1)如果(Asim B),则(A^*sim B^*);(2)如果(A)可对角化,则(A^*)也可以对角化,并求对角元。

      实对称矩阵是很常见的一种矩阵,它在线性代数中也占据了十分重要的地位,它的最大特点就是可以正交对角化(以下来证明)。设(lambda,alpha)是实对称矩阵(A)的特征值、特征向量,则易知(ar{lambda},ar{alpha})也是(A)的特征值、特征向量。由于(A=A'),从两个角度考察(alpha'Aar{alpha}),分别得到(lambda|alpha|^2,ar{lambda}|alpha|^2),从而得到(lambda=ar{lambda}),得到(lambda)是实数。从而实对称矩阵的(复)特征值、特征向量都是实数,任何实对称矩阵都至少有一个特征值(lambda)和特征向量(alpha)。

       求证:反对称实矩阵的特征值为纯虚数。

      将特征向量(alpha)扩展为一组正交基并组成正交矩阵(T_0),不难证明(T^{-1}_0AT_0)具有形式(egin{bmatrix}lambda&0\0&Bend{bmatrix}),且(B)还是实对称矩阵。利用归纳法容易证明,存在正交矩阵(T)使得(A=T^{-1}DT),其中(D= ext{diag}{lambda_i})。这就是说,实对称矩阵(正交)相似于对角矩阵,且不难证明所有特征值是实对称矩阵的完全不变量。结论在另一方面还说明,实对称矩阵不同特征值的特征向量相互正交。这个结论其实也可以直接证明。比如从两个角度考察(alpha'_1Aalpha_2),分别得到(lambda_1(alpha_1,alpha_2),lambda_2(alpha_1,alpha_2)),从而(lambda_1 elambda_2)时必然有((alpha_1,alpha_2)=0)。

      实对称矩阵的正交可对角化是个非常重要的结论,后面的二次型中还会讨论到,这里先举个典型的例子。同样设(A=T^{-1}DT),考察(alpha'Aalpha),并记(Talpha=[b_1,cdots,b_n]'),则容易有式(17)的推导(其中(lambda_1,lambda_n)分别是(A)的最小和最大特征值)。这样就得到了式(18)左的估计式,特别地取(alpha)为第(i)位为(1)、其它位为(0)的向量,还能得到式(18)右的估计式。

    [alpha'Aalpha=sum_{i=1}^nlambda_ib_i^2in[lambda_1|Talpha|^2,lambda_n|Talpha|^2]=[lambda_1,lambda_n]|alpha|^2 ag{17}]

    [lambda_1leqslantdfrac{alpha'Aalpha}{|alpha|^2}leqslantlambda_n;;;;lambda_1leqslant a_{ii}leqslantlambda_n ag{18}]

      最后来看一个有趣的应用,Fibonacci数列大家都不陌生,它的递推式为(a_{n+2}=a_{n+1}+a_n)。如果记(alpha_n=[a_{n+1}, a_n]'),则递推式可以写成(alpha_{n+1}=Aalpha_n),其中(A=egin{bmatrix}1&1\1&0end{bmatrix})。求得(A)的特征值后便可以有对角化分解(A=P^{-1}DP),其中(P=egin{bmatrix}lambda_1&lambda_2\1&1end{bmatrix},D=egin{bmatrix}lambda_1&\&lambda_2end{bmatrix})。另外由递推式可知(alpha_n=A^nalpha_0),这样就能得到(a_n)的通项公式。

    3. 特殊矩阵

      具有特殊形式或性质的矩阵,在矩阵运算中和分析中具有很重要的作用。当然特殊矩阵的概念很宽泛,包括可逆矩阵、三角矩阵、对角矩阵、对称矩阵、正交矩阵等都可以称为特殊矩阵。这里先列举几个与本篇内容相关的特殊矩阵,一是为了综合运用上面的知识,二是这些矩阵的确有自己的独特性质。下一篇中的矩阵分解中,我们将继续讨论特殊矩阵的特点和应用。

    3.1 幂零矩阵

      如果存在正整数(k)使得(A^k=0),这样的方阵(A)称为幂零矩阵,它的典型代表就是式(19)左的对角线为(0)的上三角矩阵(A),(A^i)只有右上角的(n-i)条次对角线非零,并且(A^n=0)。其中更特殊的就是式(19)右的矩阵,它只有上次对角线全为(1)的(其它为(0)),易知(A^i)只有第(i)条上次对角线全为(1)(其它为(0))。

    [egin{bmatrix}0&a_{12}&cdots&a_{1n}\&ddots&ddots&vdots\&&ddots&a_{(n-1)n}\&&&0end{bmatrix};;;egin{bmatrix}0&1&&\&ddots&ddots&\&&ddots&1\&&&0end{bmatrix} ag{19}]

      利用式(20)我们就容易知道,(I-aA)和(sumlimits_{i=1}^{n-1}a^{i}A^i)都是可逆矩阵,且互相为对方的逆矩阵。这就为求一类矩阵的逆提供了快捷的结论,而(a=pm 1)时的结论比较常用。这种方法同样适用于全(1)矩阵(J_n),它是一个所有元素都为(1)的方阵,它的典型特点是(J^2=nJ)。利用利用这个等式和方程思想,便可以计算一些矩阵的逆。比如要求(I+J)的逆,可以直接假设((I+J)(I+xJ)=I),然后解得(x=-1/(n+1))。

    [(I-aA)(I+aA+a^2A^2+cdots+a^{n-1}A^{n-1})=I-a^nA^n=I ag{20}]

    3.2 幂等矩阵

      幂等矩阵就是满足(A^2=A)的方阵,由定义显然有(A(I-A)=0),从这个平淡无奇的式子里能得到什么呢?令(B=I-A),由对称性知(B)也是幂等矩阵,且(A+B=I)。首先由(AB=0)知( ext{rank}(A)+ ext{rank}(B)leqslant n),另外还有( ext{rank}(A)+ ext{rank}(B)geqslant  ext{rank}(A+B)=n),从而得到( ext{rank}(A)+ ext{rank}(B)=n)。反之如果(A+B=I)且( ext{rank}(A)+ ext{rank}(B)= ext{rank}(A+B)),由Sylvester秩不等式便有( ext{rank}(AB)=0),从而得到(A,B)都是幂等矩阵。

      这个结论其实可以得到很好的扩展,更一般地,设方阵满足(A=A_1+cdots+A_s)。以下看三个条件:(I)(A_i)都为幂等矩阵,且(i e j)时有(A_iA_j=0);(II)(A)为幂等矩阵;(III)(sum ext{rank}(A_i)= ext{rank}(A))。其中条件(II)等价于(II')( ext{rank}(A)+ ext{rank}(I-A)=n),下面来寻找条件(I)的等价条件。令(D= ext{diag}{A_1,cdots,A_s}),再令(K)是(s imes s)个(I)组成的分块矩阵,则不难发现条件(I)等价于是说:(K)是(D)的广义逆。

      利用公式(7)知它等价于( ext{rank}(D)+ ext{rank}(I-KD)=ns),对(I-KD)进行初等变换可以得到( ext{diag}{I-A,I,cdots,I}),从而有( ext{rank}(I-KD)=n(s-1)+ ext{rank}(I-A))。注意到( ext{rank}(D)=sum ext{rank}(A_i)),这时(I)的等价条件变为(I')(sum ext{rank}(A_i)=n- ext{rank}(I-A))。现在看条件(I')(II')(III),其中任意两者都可以推导出第三者,这个结论对条件(I)(II)(III)当然也是成立的。

      另外对于特征值(lambda)和特征向量(alpha),由于(A^2alpha=Aalpha)得到(lambda^2alpha=lambdaalpha),从而(A)只有特征值(1,0)。特征值(0)的特征空间就是((0-A)X=0)的解空间,它的秩为(n-r),其中(r)为(A)的秩。特征值(1)的特征空间是((I-A)X=0)的解空间,由于(I-A)的秩为(n-r),故解空间的秩为(r)。这样两个特征空间的秩和为(n),故幂等矩阵能相似对角化,且对角矩阵为(egin{bmatrix}I_r&0\0&0end{bmatrix})。由于迹的不变性,反之能得到任何幂等矩阵的秩为( ext{tr}(A)),这非常便于计算。比如以上条件(II)如果加上“(A_i)都是幂等的”,并能有条件(III),从而可知条件(I)成立。

    3.3 位移矩阵

      位移矩阵是指矩阵(S_n=egin{bmatrix}0&I_{n-1}\1&0end{bmatrix}),当它左乘矩阵(A)时,相当于把(A)循环上移一行,当它右乘矩阵(A)时,相当于(A)循环右移一列。(S_n)是一个特殊的正交矩阵,它的逆显然是(egin{bmatrix}0&1\I_{n-1}&0end{bmatrix}),(S_n^{-1})的作用与(S_n)恰好相反。容易算得(S_n)的特征多项式为(lambda^n-1),故它的特征值是所有单位复数(omega^i),由(S_n)的循环特性不难构造出(omega^i)的特征向量([1,omega^i,cdots,omega^{(n-1)i}]')。这样就有(S_n=P^{-1}DP),其中(D= ext{diag}{1,omega,cdots,omega^{n-1}}),且(P={omega^{ij}})。

      第一篇中我们碰到过循环矩阵(C_n),观察(S_n^k)的形式特点,不难得到式(21)。从而(C_n)的(n)个特征值为(f(omega^i)),且和(S_n)有相同的特征向量(P),这样就可以把(C_n)写成(P^{-1}D'P),其中(D'={f(omega^i)})。这样就不难算得(|C_n|=|D'|=prod f(omega^i)),和前一篇的结论是一样的,但思路却更加自然。

    [C_n=f(S_n)=a_1I_n+a_2S_n+a_3S_n^2+cdots+a_nS_n^{n-1} ag{21}]

  • 相关阅读:
    maven打包额外的资源文件
    阿里巴巴的程序员等级
    sql是最成功的第四代语言
    nginx的配置与应用
    浏览器的同源策略与跨域问题的解决方案
    算法:二分查找(基础)
    动态类型语言和静态类型语言
    【VS开发】单文档中往视图中加入控件
    【VS开发】使用VS2010创建MFC ActiveX工程项目
    【VS开发】使用VS2010创建MFC ActiveX工程项目
  • 原文地址:https://www.cnblogs.com/edward-bian/p/12846723.html
Copyright © 2020-2023  润新知