矩阵分析 3
这一章的内容十分的有趣
三角分解
我们先对三角分解作一个简单的定义
- 如果矩阵\(A\)可以表示为一个上三角矩阵\(L\)和一个下三角矩阵\(U\)的乘积,即\(A = LU\),那么这种乘积称为\(A\)的三角分解或\(LU\)分解,特别的,如果\(L\)是单位下三角矩阵(主对角线上的元素为\(1\)),那么此时的三角分解称为Doolittle分解,如果\(U\)是单位上三角矩阵,那么称为Crout分解
在讨论三角分解的存在性之前,我们先对唯一性来作一些描述
如果\(A = LU\),并且\(L, U\)都不是单位三角矩阵,那么对于任意\(k \neq 0\),\(A = (kL)(k^{-1}U)\)将是另一种分解方式,而加入了单位三角矩阵的限制后,我们就有了下述结论
对于方阵\(A\),其可以唯一地分解为
\[A = LDU\]
的充要条件为\(A\)的前\(n - 1\)个顺序主子式\(H_1,H_2,...,H_{n-1}\)都不为\(0\),式中\(L, U\)分别为单位下三角矩阵,单位上三角矩阵,\(D\)为对角矩阵,并且设\(D = diag\{d_1,d_2,...,d_n\}\),则\(d_1 = 1, d_i = H_i/H_{i-1}\)
- 这个定理的证明按照大小进行归纳即可
由于\(LDU\)分解是唯一的,因此Doolittle分解和Crout分解也都是唯一的
我们还可以讨论特殊矩阵的\(LDU\)分解
对于对称正定矩阵\(A\),存在一个实的可逆下三角矩阵\(L\),使得
\[A = LL^T\]
在限定\(L\)的对角线元素为正时,\(L\)是唯一的
存在性:由于\(A\)的顺序主子式都大于\(0\),因此\(A\)存在\(LDU\)分解,不妨设\(A = LDU\)
由于\(A = A^T\),那么\(LDU = U^TDL^T\),由\(LDU\)分解的唯一性,我们得到\(U^T = L\)
即\(A = LDL^T\),由于\(|A| \neq 0\),因此\(L, D\)都可逆,那么\(D = L^{-1}A(L^{-1})^T\),如此,\(D\)也是正定矩阵,因此\(D\)中元素都将大于\(0\),设\(D = diag(d_1, d_2, ..., d_n)\),再设\(D' = diag(\sqrt d_1, \sqrt d_2, ..., \sqrt d_n)\),那么\(A = (LD')(LD')^T\),由\(|LD'| = |L||D'| \neq 0\)知\(LD'\)可逆
唯一性:设\(A = L_1L_1^T = L_2L_2^T\),则\((L_2^{-1}L_1) = (L_2^{-1}L_1)^T\),\(L_2^{-1}L_1\)是上三角矩阵,因此\(L_2^{-1}L_1 = I\),即\(L_1 = L_2\)
\(QR\)分解
如果实(复)非奇异矩阵\(A\)能表示为一个正交(酉)矩阵\(Q\)和一个实(复)非奇异上三角矩阵\(R\)的乘积,那么
\[A = QR\]
就称为\(A\)的\(QR\)分解
任何非奇异矩阵\(A\)都存在\(QR\)分解,并且除了对角线上的元素差一个绝对值为\(1\)的因子外,\(QR\)分解是唯一的
存在性:设\(A\)的列向量为\((a_1, a_2, ..., a_n)\),其可以构成一组基,我们对这组基进行Schmidt正交化,得到一组标准正交基\((b_1, b_2, ..., b_n)\)
那么,由Schmidt正交化的公式\(b_i' = a_i - \sum_{j < i} b_j' * \frac{(a_i, b_j)}{(b_j, b_j)}\),标准化之后乘一个非零常数,应该存在\(R\)为非奇异上三角矩阵,使得\((b_1, b_2, ..., b_n) = (a_1, a_2, ..., a_n) R\)
由于\(R\)可逆,那么\((a_1, a_2, ..., a_n) = (b_1,b_2,...,b_n)R^{-1}\),取\(Q = (b_1,b_2,...,b_n)\)即可
唯一性:设\(A = Q_1R_1 = Q_2R_2\),那么\(Q_2^{-1}Q_1 = R_2R_1^{-1}\),\(Q_2^{-1}Q_1\)为正交阵,\(R_2R_1^{-1}\)为上三角阵,不难知道,\(Q_2^{-1}Q_1 = R_2R_1^{-1} = I\),即\(Q_1 = Q_2\)
谱分解
正规矩阵
- 如果\(AA^H = A^HA\),则称\(A\)为正规矩阵
- 如果对实方阵\(A\),\(AA^T=A^TA\),则称\(A\)为实正规矩阵
正规矩阵有一些较为简单的性质
如果三角阵\(L\)是正规矩阵,那么\(L\)是对角阵
由\(LL^H = LL^H\),我们有\(\sum_{k} \overline{l_{ki}} * l_{kj} = \sum_{k} \overline{l_{jk}} * l_{ik}\),而当\(i = j\)时,有\(\sum_k |l_{ki}|^2 = \sum_k |l_{ik}|^2\)
不妨设\(L\)是下三角阵,由于\(\sum_k |l_{k1}|^2 = \sum_k |l_{1k}|^2 = |l_{11}|^2\),我们得到\(l_{21} = l_{31} = ... = l_{n1} = 0\),之后对\(i = j = 2\)进行讨论,得到\(l_{32} = ... = l_{n2} = 0\),依次类推,我们可以得到\(L\)只在对角线上非零,即\(L\)为对角阵
埃米尔特矩阵和酉矩阵都是正规矩阵,尝试将埃米尔特矩阵和酉矩阵的性质推导到正规矩阵上,一般来说,我们有下述定理
方阵\(A\)酉相似于对角阵的充要条件为\(A\)是正规矩阵
考虑这个定理的证明
- 充分性:根据Schur定理,存在酉矩阵\(U\),使得\(A = U^HLU\),其中\(L\)为上三角阵,并且对角线上为\(A\)的特征值,那么由\(A^HA= AA^H\),得到\(L^HL = LL^H\),由于\(L\)同时是三角阵和正规阵,那么\(L\)将是对角阵,因而\(A\)与对角阵\(L\)酉相似
- 必要性:设\(A = U^H \Lambda U\),其中\(\Lambda\)为对角阵,那么\(AA^H = U^H \Lambda \Lambda^H U = U^H \Lambda^H \Lambda U = A^HA\)
如果\(A\)酉相似于对角阵,即\(A = U^H \Lambda U\),那么矩阵\(U\)可以看做是\(A\)的特征向量的集合,而\(\Lambda\)则为\(A\)对应的特征值,因此\(A\)将有\(n\)个互相正交的单位特征向量
谱分解
对于正规矩阵\(A\),存在酉矩阵\(U\),使得\(A = U^H \Lambda U\)
记\(U = (u_1, u_2, ..., u_n)\),那么
\[\begin{align*} A &= (u_1, u_2, ..., u_n)^H *diag(\lambda_1, \lambda_2,..., \lambda_n)* (u_1, u_2, ..., u_n)\\ &= \lambda_1 u_1^Hu_1 + \lambda_2 u_2^Hu_2 + ... + \lambda_nu_n^Hu_n \end{align*}\]
我们称此为\(A\)的谱分解或者特征值分解
如果我们将谱分解稍微改写形式\(A = \lambda_1(u_{11}^Hu_{11} + ...+u_{1s}^Hu_{1s}) + ... + \lambda_r(u_{r1}^Hu_{r1} + ...+u_{rs}^Hu_{rs})\),其中\(\lambda_i\)互不相同
记\(P_1 = u_{11}^Hu_{11} + ...+u_{1s}^Hu_{1s}, ...,P_r = u_{r1}^Hu_{r1} + ...+u_{rs}^Hu_{rs}\)
由于\(u_{11}, ..., u_{1s}, ..., u_{r1}, ..., u_{rs}\)两两正交,我们有\(P_iP_j = O, P_i^2 = P_i, P_i^H=P_i\),因此单独取出\(P_i\),其表示为一种正交投影
最大秩分解
设\(A\)是秩为\(r\)的\(m * n\)的矩阵,那么存在秩为\(r\)的\(m * r\)的矩阵\(B\)以及\(r * n\)的矩阵\(C\),使得
\[A = BC\]
也就是说,\(A\)可以分解为两个满秩矩阵的积
设\(A\)的列向量为\(a_1, a_2, ...,a_n\),那么\(A = (a_1, a_2, ..., a_n)\)
不妨设列向量中的极大线性无关组为\((a_1, a_2, ..., a_r)\),由于\(a_1, a_2,..., a_n\)中任意元素可以被\(a_1,...a_r\)表出,不妨设\(a_i = \sum_{j=1}^r a_j c_{ji}\)
那么
\[A = (a_1, a_2,..., a_r) \begin{pmatrix} c_{11} & c_{12} & ... & c_{1n} \\ c_{21} & c_{22} & ... & c_{2n} \\ ... &... & ... &... \\c_{r1} & c_{r2} & ... & c_{rn}\end{pmatrix}\]
记
\[B = (a_1, a_2,..., a_r), C = \begin{pmatrix} c_{11} & c_{12} & ... & c_{1n} \\ c_{21} & c_{22} & ... & c_{2n} \\ ... &... & ... &... \\c_{r1} & c_{r2} & ... & c_{rn}\end{pmatrix}\]
由于\(r = rank(A) \leq \min\{rank(B), rank(C)\} \leq r\),因此两者秩都为\(r\)
注意到这个证明中,没有对所取的\(a_1,...,a_r\)作任何的限制,因此,我们甚至可以限制\(a_1,...,a_r\)为一组标准正交基
example:
求
\[A = \begin{pmatrix} 1 & 1 & 1 & 1 \\ 1 & 1 & 1 & 0 \\ 1 & 1 & 0 & 0 \\3 & 3 & 2 & 1\end{pmatrix}\]
的最大秩分解
我们可以利用初等行变化保持线性关系的性质
将\(A\)化作行标准形
\[A' = \begin{pmatrix} 1 & 1 & 0 & 0 \\ 0 & 0 & 1 & 0 \\ 0 & 0 & 0 & 1 \\0 & 0 & 0 & 0\end{pmatrix}\]
取\(1, 3, 4\)列的列向量作为极大线性无关组,即
\[B = \begin{pmatrix} 1 & 1 & 1 \\ 1 & 1 & 0 \\ 1 & 0 & 0 \\3 & 2 & 1\end{pmatrix}\]
再取\(A'\)中的非零行(也即组合系数),令
\[C = \begin{pmatrix} 1 & 1 & 0 & 0 \\ 0 & 0 & 1 & 0 \\ 0 & 0 & 0 & 1\end{pmatrix}\]
那么\(A = BC\),且\(B, C\)满秩
奇异值分解
矩阵的奇异值分解又称SVD(Singular Value Decomposition)分解
奇异值
引理:矩阵\(AA^H\)的特征值为非负实数
- 矩阵\(AA^H\)半正定,并且为埃尔米特矩阵,因此其特征值为非负实数
对于矩阵\(A\),我们记\(AA^H\)的特征值为\(\lambda_1, \lambda_2,...,\lambda_n\),我们称\(\sigma_i = \sqrt \lambda_{i}\)为矩阵\(A\)的奇异值
若\(A\)与\(B\)酉相抵(存在酉矩阵\(U, V\),使得\(B = UAV\)),则\(A\)与\(B\)有相同的奇异值
- \(B^HB = V^HA^HU^HUAV=V^H(A^HA)V = V^{-1}(A^HA)V\),那么\(B^HB\)与\(A^HA\)有相同的特征值,因此\(A\)与\(B\)有相同的奇异值
奇异值分解
对于任意\(n*m\)大小的复矩阵\(A\),存在酉矩阵\(U, V\),使得
\[U^HAV = diag(\sigma_1, \sigma_2, ..., \sigma_r, 0, ..., 0)\]
其中\(\sigma_1, \sigma_2, ..., \sigma_r\)为\(A\)的非零奇异值
下面的证明不仅给出了证明方法,而且还给出了构造的具体方法
由于\(AA^H\)为埃尔米特矩阵,并且半正定,因此存在酉矩阵\(U\),使得
\[U^HAA^HU = diag(\sigma_1^2, \sigma_2^2, ..., \sigma_r^2, 0, ..., 0) \tag{a}\]
如果记\(U = (U_1, U_2)\),其中\(U_1\)为\(U\)的前\(r\)个列向量构成的矩阵,那么我们可以得到\[U_1^HAA^HU_1 = \Lambda^2 \tag{b}\]
\[U_2^HAA^HU_2 = O \tag{c}\]
由于\(AA^H = O\),当且仅当\(A = O\)(考察对角线上的元素),因此\(U_2^HA = O\)
现在我们尝试构造\(V = (V_1, V_2)\),其中\(V_1\)为\(n * r\)的矩阵,使得\(U^HAV = \Lambda\)
不难知道
\[(U_1, U_2)^H A (V_1, V_2) = \begin{pmatrix} U_1^HAV_1 & U_1^HAV_2\\ U_2^HAV_1 & U_2^HAV_2 \end{pmatrix}\]
与\(\begin{pmatrix} \Lambda & O\\ O & O \end{pmatrix}\)对比,我们得到\(U_1^HAV_1 = \Lambda, U_1^HAV_2 = U_2^HAV_1 =U_2^HAV_2=O\)
由于\(U_2^HA=O\),后面两项的成立是显然的,观察\((b)\)式,我们知道取\(V_1 = A^HU_1 \Lambda^{-1}\)可以满足要求,暂定\(V_1\),从而\(U_1^HAV_2 = \Lambda^{H} V_1^HV_2\),只需要取\(V_2\)时,保证其与\(V_1\)正交即可,这个当然是可以满足的
我们还需要确定\(V_1\)满足酉矩阵的要求,代入\(V_1\),我们得到\(V_1^HV_1=(\Lambda^{-1})^H(U_1^HA A^HU_1)\Lambda^{-1} = \Lambda^{-1}\Lambda^2\Lambda^{-1} = I\),这也就证明了\(V_1\)确实满足条件
极分解
对于任意\(n*n\)的复阵\(A\),存在酉矩阵\(U\)和唯一的半正定矩阵\(G, H\),使得
\[A = GU = UH\]
存在性:设\(A\)的奇异值分解为\(A = U^H_0 \Lambda V\)
那么令\(G = U^H_0 \Lambda U, H = V^H \Lambda V, U_1 = U^H_0V\),得到\(A = GU_1 = U_1H\)
唯一性:由于\(U\)可逆,唯一性显然
可同时对角化
这个知识点感觉还是点一点...
一般在高等代数中,就会接触到一个结论
设\(A, B\)都是\(n\)阶埃米尔特矩阵,且\(A\)正定,那么存在非奇异矩阵\(Q\),使得
\[Q^{H}AQ = I, Q^HBQ= diag\{\lambda_1, \lambda_2, ...\lambda_n\}\]
一般采取如下方式证明:由于\(A\)正定,因此存在非奇异矩阵\(P\),使得\(P^HAP = I\),由于\(P^HBP\)仍为埃尔米特矩阵,因此存在酉矩阵\(U\),使得\((PU)^H B (PU) = diag\{\lambda_1, ..., \lambda_n\}\),令\(Q = PU\)即可
我们尝试考察\(\lambda_1,...,\lambda_n\)的值,首先,它们是\(P^HBP\)的特征值
注意到\(|\lambda I - P^HBP| = |\lambda P^HAP - P^HBP| = |P^H||P||A|*|\lambda I - A^{-1}B|\)
由于\(|P| \neq 0, |A| \neq 0\),因此\(\lambda_1, ... \lambda_n\)也是\(A^{-1}B\)的特征追
现在我们来考虑同时酉对角化的问题,也即
设\(A, B\)为正规矩阵,则\(A, B\)可同时酉对角化的充要条件为\(AB = BA\)
“\(\Rightarrow\)”:设\(A = U^H \Lambda_1 U, B = U^H \Lambda_2 U\),则\(AB = BA\)可以由\(\Lambda_1, \Lambda_2\)的可交换性得出
“\(\Leftarrow\)”:设\(A\)对应于特征值\(a\)的特征子空间为\(V_a\),取\(V_a\)的一组标准正交基为\(a_1, a_2,...,a_r\)
注意到\(AB a_i = BAa_i = Baa_i = a (Ba_i)\),这说明\(Ba_1, Ba_2,...,Ba_r\)也是\(V_a\)中的元素,也说明\(BV_a \subseteq V_a\)
设从\(C^n\)到\(V_a\)的投影变换为\(P_a\),考虑线性映射\(B_a = P_aBP_a\),由于\(P_aV_a = V_a\),因此\(B_aV_a \subseteq V_a\),注意到\(B_aB_a^H = P_aBB^HP_a = P_aB^HBP_a = B_a^HB_a\),那么\(B_a\)在\(V_a\)上是一个正规变换,也就相应的对应于正规矩阵
设\(B_a\)的线性无关的标准正交特征向量组为\(b_1,b_2,...,b_k\),由于\(b_i \in V_a\),因此\(b_i\)是\(A\)的一个特征向量,又\(B b_i = P_a B P_a b_i = B_ab_i\),这说明\(b_i\)也是\(B\)的一个特征向量
由于\(B_a\)在\(V_a\)上对应于正规矩阵,那么应该有\(k = r\),那么对于每个特征值,我们都能找到相应的公共特征向量,鉴于\(A\)是正规矩阵,我们还可以把这些公共特征向量处理为正交的向量,因此得到两者可以同时酉对角化
如果\(AB = BA\),且\(A, B\)为正规矩阵,那么\(AB\)也为正规矩阵
- \(A, B\)可同时酉对角化,设\(A = U^H \Lambda_1 U, B = U^H \Lambda_2 U\),那么\(AB = U^H \Lambda_1 \Lambda_2 U\),因此\(AB\)酉相似于对角矩阵,如此\(AB\)为正规矩阵
- 不难发现,\(AB\)的特征值和\(A, B\)的特征值之间存在关系,也即在按照同时酉对角化矩阵的顺序排列下时,有\(\lambda_{AB}^{(i)} = \lambda_{A}^{(i)} * \lambda_{B}^{(i)}\),且对应的特征向量也是相同的