矩阵分析 3

这一章的内容十分的有趣

三角分解

我们先对三角分解作一个简单的定义

  • 如果矩阵\(A\)可以表示为一个上三角矩阵\(L\)和一个下三角矩阵\(U\)的乘积,即\(A = LU\),那么这种乘积称为\(A\)三角分解\(LU\)分解,特别的,如果\(L\)是单位下三角矩阵(主对角线上的元素为\(1\)),那么此时的三角分解称为Doolittle分解,如果\(U\)是单位上三角矩阵,那么称为Crout分解

在讨论三角分解的存在性之前,我们先对唯一性来作一些描述

如果\(A = LU\),并且\(L, U\)都不是单位三角矩阵,那么对于任意\(k \neq 0\)\(A = (kL)(k^{-1}U)\)将是另一种分解方式,而加入了单位三角矩阵的限制后,我们就有了下述结论

  • 对于方阵\(A\),其可以唯一地分解为

    \[A = LDU\]

    的充要条件为\(A\)的前\(n - 1\)个顺序主子式\(H_1,H_2,...,H_{n-1}\)都不为\(0\),式中\(L, U\)分别为单位下三角矩阵,单位上三角矩阵,\(D\)为对角矩阵,并且设\(D = diag\{d_1,d_2,...,d_n\}\),则\(d_1 = 1, d_i = H_i/H_{i-1}\)

    • 这个定理的证明按照大小进行归纳即可
  • 由于\(LDU\)分解是唯一的,因此Doolittle分解和Crout分解也都是唯一的

我们还可以讨论特殊矩阵的\(LDU\)分解

  • 对于对称正定矩阵\(A\),存在一个实的可逆下三角矩阵\(L\),使得

    \[A = LL^T\]

    在限定\(L\)的对角线元素为正时,\(L\)是唯一的

    • 存在性:由于\(A\)的顺序主子式都大于\(0\),因此\(A\)存在\(LDU\)分解,不妨设\(A = LDU\)

      由于\(A = A^T\),那么\(LDU = U^TDL^T\),由\(LDU\)分解的唯一性,我们得到\(U^T = L\)

      \(A = LDL^T\),由于\(|A| \neq 0\),因此\(L, D\)都可逆,那么\(D = L^{-1}A(L^{-1})^T\),如此,\(D\)也是正定矩阵,因此\(D\)中元素都将大于\(0\),设\(D = diag(d_1, d_2, ..., d_n)\),再设\(D' = diag(\sqrt d_1, \sqrt d_2, ..., \sqrt d_n)\),那么\(A = (LD')(LD')^T\),由\(|LD'| = |L||D'| \neq 0\)\(LD'\)可逆

    • 唯一性:设\(A = L_1L_1^T = L_2L_2^T\),则\((L_2^{-1}L_1) = (L_2^{-1}L_1)^T\)\(L_2^{-1}L_1\)是上三角矩阵,因此\(L_2^{-1}L_1 = I\),即\(L_1 = L_2\)

\(QR\)分解

  • 如果实(复)非奇异矩阵\(A\)能表示为一个正交(酉)矩阵\(Q\)和一个实(复)非奇异上三角矩阵\(R\)的乘积,那么

    \[A = QR\]

    就称为\(A\)\(QR\)分解

  • 任何非奇异矩阵\(A\)都存在\(QR\)分解,并且除了对角线上的元素差一个绝对值为\(1\)的因子外,\(QR\)分解是唯一的

    • 存在性:设\(A\)的列向量为\((a_1, a_2, ..., a_n)\),其可以构成一组基,我们对这组基进行Schmidt正交化,得到一组标准正交基\((b_1, b_2, ..., b_n)\)

      那么,由Schmidt正交化的公式\(b_i' = a_i - \sum_{j < i} b_j' * \frac{(a_i, b_j)}{(b_j, b_j)}\),标准化之后乘一个非零常数,应该存在\(R\)为非奇异上三角矩阵,使得\((b_1, b_2, ..., b_n) = (a_1, a_2, ..., a_n) R\)

      由于\(R\)可逆,那么\((a_1, a_2, ..., a_n) = (b_1,b_2,...,b_n)R^{-1}\),取\(Q = (b_1,b_2,...,b_n)\)即可

    • 唯一性:设\(A = Q_1R_1 = Q_2R_2\),那么\(Q_2^{-1}Q_1 = R_2R_1^{-1}\)\(Q_2^{-1}Q_1\)为正交阵,\(R_2R_1^{-1}\)为上三角阵,不难知道,\(Q_2^{-1}Q_1 = R_2R_1^{-1} = I\),即\(Q_1 = Q_2\)

谱分解

正规矩阵
  • 如果\(AA^H = A^HA\),则称\(A\)正规矩阵
  • 如果对实方阵\(A\)\(AA^T=A^TA\),则称\(A\)实正规矩阵

正规矩阵有一些较为简单的性质

  • 如果三角阵\(L\)是正规矩阵,那么\(L\)是对角阵

    • \(LL^H = LL^H\),我们有\(\sum_{k} \overline{l_{ki}} * l_{kj} = \sum_{k} \overline{l_{jk}} * l_{ik}\),而当\(i = j\)时,有\(\sum_k |l_{ki}|^2 = \sum_k |l_{ik}|^2\)

      不妨设\(L\)是下三角阵,由于\(\sum_k |l_{k1}|^2 = \sum_k |l_{1k}|^2 = |l_{11}|^2\),我们得到\(l_{21} = l_{31} = ... = l_{n1} = 0\),之后对\(i = j = 2\)进行讨论,得到\(l_{32} = ... = l_{n2} = 0\),依次类推,我们可以得到\(L\)只在对角线上非零,即\(L\)为对角阵

埃米尔特矩阵和酉矩阵都是正规矩阵,尝试将埃米尔特矩阵和酉矩阵的性质推导到正规矩阵上,一般来说,我们有下述定理

  • 方阵\(A\)酉相似于对角阵的充要条件为\(A\)是正规矩阵

    考虑这个定理的证明

    • 充分性:根据Schur定理,存在酉矩阵\(U\),使得\(A = U^HLU\),其中\(L\)为上三角阵,并且对角线上为\(A\)的特征值,那么由\(A^HA= AA^H\),得到\(L^HL = LL^H\),由于\(L\)同时是三角阵和正规阵,那么\(L\)将是对角阵,因而\(A\)与对角阵\(L\)酉相似
    • 必要性:设\(A = U^H \Lambda U\),其中\(\Lambda\)为对角阵,那么\(AA^H = U^H \Lambda \Lambda^H U = U^H \Lambda^H \Lambda U = A^HA\)

如果\(A\)酉相似于对角阵,即\(A = U^H \Lambda U\),那么矩阵\(U\)可以看做是\(A\)的特征向量的集合,而\(\Lambda\)则为\(A\)对应的特征值,因此\(A\)将有\(n\)个互相正交的单位特征向量

谱分解
  • 对于正规矩阵\(A\),存在酉矩阵\(U\),使得\(A = U^H \Lambda U\)

    \(U = (u_1, u_2, ..., u_n)\),那么

    \[\begin{align*} A &= (u_1, u_2, ..., u_n)^H *diag(\lambda_1, \lambda_2,..., \lambda_n)* (u_1, u_2, ..., u_n)\\ &= \lambda_1 u_1^Hu_1 + \lambda_2 u_2^Hu_2 + ... + \lambda_nu_n^Hu_n \end{align*}\]

    我们称此为\(A\)的谱分解或者特征值分解

  • 如果我们将谱分解稍微改写形式\(A = \lambda_1(u_{11}^Hu_{11} + ...+u_{1s}^Hu_{1s}) + ... + \lambda_r(u_{r1}^Hu_{r1} + ...+u_{rs}^Hu_{rs})\),其中\(\lambda_i\)互不相同

    \(P_1 = u_{11}^Hu_{11} + ...+u_{1s}^Hu_{1s}, ...,P_r = u_{r1}^Hu_{r1} + ...+u_{rs}^Hu_{rs}\)

    由于\(u_{11}, ..., u_{1s}, ..., u_{r1}, ..., u_{rs}\)两两正交,我们有\(P_iP_j = O, P_i^2 = P_i, P_i^H=P_i\),因此单独取出\(P_i\),其表示为一种正交投影

最大秩分解

  • \(A\)是秩为\(r\)\(m * n\)的矩阵,那么存在秩为\(r\)\(m * r\)的矩阵\(B\)以及\(r * n\)的矩阵\(C\),使得

    \[A = BC\]

    也就是说,\(A\)可以分解为两个满秩矩阵的积

    • \(A\)的列向量为\(a_1, a_2, ...,a_n\),那么\(A = (a_1, a_2, ..., a_n)\)

      不妨设列向量中的极大线性无关组为\((a_1, a_2, ..., a_r)\),由于\(a_1, a_2,..., a_n\)中任意元素可以被\(a_1,...a_r\)表出,不妨设\(a_i = \sum_{j=1}^r a_j c_{ji}\)

      那么

      \[A = (a_1, a_2,..., a_r) \begin{pmatrix} c_{11} & c_{12} & ... & c_{1n} \\ c_{21} & c_{22} & ... & c_{2n} \\ ... &... & ... &... \\c_{r1} & c_{r2} & ... & c_{rn}\end{pmatrix}\]

      \[B = (a_1, a_2,..., a_r), C = \begin{pmatrix} c_{11} & c_{12} & ... & c_{1n} \\ c_{21} & c_{22} & ... & c_{2n} \\ ... &... & ... &... \\c_{r1} & c_{r2} & ... & c_{rn}\end{pmatrix}\]

      由于\(r = rank(A) \leq \min\{rank(B), rank(C)\} \leq r\),因此两者秩都为\(r\)

    • 注意到这个证明中,没有对所取的\(a_1,...,a_r\)作任何的限制,因此,我们甚至可以限制\(a_1,...,a_r\)为一组标准正交基

  • example:

    \[A = \begin{pmatrix} 1 & 1 & 1 & 1 \\ 1 & 1 & 1 & 0 \\ 1 & 1 & 0 & 0 \\3 & 3 & 2 & 1\end{pmatrix}\]

    的最大秩分解

    我们可以利用初等行变化保持线性关系的性质

    \(A\)化作行标准形

    \[A' = \begin{pmatrix} 1 & 1 & 0 & 0 \\ 0 & 0 & 1 & 0 \\ 0 & 0 & 0 & 1 \\0 & 0 & 0 & 0\end{pmatrix}\]

    \(1, 3, 4\)列的列向量作为极大线性无关组,即

    \[B = \begin{pmatrix} 1 & 1 & 1 \\ 1 & 1 & 0 \\ 1 & 0 & 0 \\3 & 2 & 1\end{pmatrix}\]

    再取\(A'\)中的非零行(也即组合系数),令

    \[C = \begin{pmatrix} 1 & 1 & 0 & 0 \\ 0 & 0 & 1 & 0 \\ 0 & 0 & 0 & 1\end{pmatrix}\]

    那么\(A = BC\),且\(B, C\)满秩

奇异值分解

矩阵的奇异值分解又称SVD(Singular Value Decomposition)分解

奇异值
  • 引理:矩阵\(AA^H\)的特征值为非负实数

    • 矩阵\(AA^H\)半正定,并且为埃尔米特矩阵,因此其特征值为非负实数
  • 对于矩阵\(A\),我们记\(AA^H\)的特征值为\(\lambda_1, \lambda_2,...,\lambda_n\),我们称\(\sigma_i = \sqrt \lambda_{i}\)为矩阵\(A\)的奇异值

  • \(A\)\(B\)酉相抵(存在酉矩阵\(U, V\),使得\(B = UAV\)),则\(A\)\(B\)有相同的奇异值

    • \(B^HB = V^HA^HU^HUAV=V^H(A^HA)V = V^{-1}(A^HA)V\),那么\(B^HB\)\(A^HA\)有相同的特征值,因此\(A\)\(B\)有相同的奇异值
奇异值分解
  • 对于任意\(n*m\)大小的复矩阵\(A\),存在酉矩阵\(U, V\),使得

    \[U^HAV = diag(\sigma_1, \sigma_2, ..., \sigma_r, 0, ..., 0)\]

    其中\(\sigma_1, \sigma_2, ..., \sigma_r\)\(A\)的非零奇异值

    • 下面的证明不仅给出了证明方法,而且还给出了构造的具体方法

    • 由于\(AA^H\)为埃尔米特矩阵,并且半正定,因此存在酉矩阵\(U\),使得

      \[U^HAA^HU = diag(\sigma_1^2, \sigma_2^2, ..., \sigma_r^2, 0, ..., 0) \tag{a}\]

      如果记\(U = (U_1, U_2)\),其中\(U_1\)\(U\)的前\(r\)个列向量构成的矩阵,那么我们可以得到\[U_1^HAA^HU_1 = \Lambda^2 \tag{b}\]

      \[U_2^HAA^HU_2 = O \tag{c}\]

      由于\(AA^H = O\),当且仅当\(A = O\)(考察对角线上的元素),因此\(U_2^HA = O\)

      现在我们尝试构造\(V = (V_1, V_2)\),其中\(V_1\)\(n * r\)的矩阵,使得\(U^HAV = \Lambda\)

      不难知道

      \[(U_1, U_2)^H A (V_1, V_2) = \begin{pmatrix} U_1^HAV_1 & U_1^HAV_2\\ U_2^HAV_1 & U_2^HAV_2 \end{pmatrix}\]

      \(\begin{pmatrix} \Lambda & O\\ O & O \end{pmatrix}\)对比,我们得到\(U_1^HAV_1 = \Lambda, U_1^HAV_2 = U_2^HAV_1 =U_2^HAV_2=O\)

      由于\(U_2^HA=O\),后面两项的成立是显然的,观察\((b)\)式,我们知道取\(V_1 = A^HU_1 \Lambda^{-1}\)可以满足要求,暂定\(V_1\),从而\(U_1^HAV_2 = \Lambda^{H} V_1^HV_2\),只需要取\(V_2\)时,保证其与\(V_1\)正交即可,这个当然是可以满足的

      我们还需要确定\(V_1\)满足酉矩阵的要求,代入\(V_1\),我们得到\(V_1^HV_1=(\Lambda^{-1})^H(U_1^HA A^HU_1)\Lambda^{-1} = \Lambda^{-1}\Lambda^2\Lambda^{-1} = I\),这也就证明了\(V_1\)确实满足条件

极分解

  • 对于任意\(n*n\)的复阵\(A\),存在酉矩阵\(U\)和唯一的半正定矩阵\(G, H\),使得

    \[A = GU = UH\]

    • 存在性:设\(A\)的奇异值分解为\(A = U^H_0 \Lambda V\)

      那么令\(G = U^H_0 \Lambda U, H = V^H \Lambda V, U_1 = U^H_0V\),得到\(A = GU_1 = U_1H\)

    • 唯一性:由于\(U\)可逆,唯一性显然

可同时对角化

这个知识点感觉还是点一点...

一般在高等代数中,就会接触到一个结论

  • \(A, B\)都是\(n\)阶埃米尔特矩阵,且\(A\)正定,那么存在非奇异矩阵\(Q\),使得

    \[Q^{H}AQ = I, Q^HBQ= diag\{\lambda_1, \lambda_2, ...\lambda_n\}\]

    • 一般采取如下方式证明:由于\(A\)正定,因此存在非奇异矩阵\(P\),使得\(P^HAP = I\),由于\(P^HBP\)仍为埃尔米特矩阵,因此存在酉矩阵\(U\),使得\((PU)^H B (PU) = diag\{\lambda_1, ..., \lambda_n\}\),令\(Q = PU\)即可

    • 我们尝试考察\(\lambda_1,...,\lambda_n\)的值,首先,它们是\(P^HBP\)的特征值

      注意到\(|\lambda I - P^HBP| = |\lambda P^HAP - P^HBP| = |P^H||P||A|*|\lambda I - A^{-1}B|\)

      由于\(|P| \neq 0, |A| \neq 0\),因此\(\lambda_1, ... \lambda_n\)也是\(A^{-1}B\)的特征追

现在我们来考虑同时酉对角化的问题,也即

  • \(A, B\)为正规矩阵,则\(A, B\)可同时酉对角化的充要条件为\(AB = BA\)

    • \(\Rightarrow\)”:设\(A = U^H \Lambda_1 U, B = U^H \Lambda_2 U\),则\(AB = BA\)可以由\(\Lambda_1, \Lambda_2\)的可交换性得出

    • \(\Leftarrow\)”:设\(A\)对应于特征值\(a\)的特征子空间为\(V_a\),取\(V_a\)的一组标准正交基为\(a_1, a_2,...,a_r\)

      注意到\(AB a_i = BAa_i = Baa_i = a (Ba_i)\),这说明\(Ba_1, Ba_2,...,Ba_r\)也是\(V_a\)中的元素,也说明\(BV_a \subseteq V_a\)

      设从\(C^n\)\(V_a\)的投影变换为\(P_a\),考虑线性映射\(B_a = P_aBP_a\),由于\(P_aV_a = V_a\),因此\(B_aV_a \subseteq V_a\),注意到\(B_aB_a^H = P_aBB^HP_a = P_aB^HBP_a = B_a^HB_a\),那么\(B_a\)\(V_a\)上是一个正规变换,也就相应的对应于正规矩阵

      \(B_a\)的线性无关的标准正交特征向量组为\(b_1,b_2,...,b_k\),由于\(b_i \in V_a\),因此\(b_i\)\(A\)的一个特征向量,又\(B b_i = P_a B P_a b_i = B_ab_i\),这说明\(b_i\)也是\(B\)的一个特征向量

      由于\(B_a\)\(V_a\)上对应于正规矩阵,那么应该有\(k = r\),那么对于每个特征值,我们都能找到相应的公共特征向量,鉴于\(A\)是正规矩阵,我们还可以把这些公共特征向量处理为正交的向量,因此得到两者可以同时酉对角化

  • 如果\(AB = BA\),且\(A, B\)为正规矩阵,那么\(AB\)也为正规矩阵

    • \(A, B\)可同时酉对角化,设\(A = U^H \Lambda_1 U, B = U^H \Lambda_2 U\),那么\(AB = U^H \Lambda_1 \Lambda_2 U\),因此\(AB\)酉相似于对角矩阵,如此\(AB\)为正规矩阵
    • 不难发现,\(AB\)的特征值和\(A, B\)的特征值之间存在关系,也即在按照同时酉对角化矩阵的顺序排列下时,有\(\lambda_{AB}^{(i)} = \lambda_{A}^{(i)} * \lambda_{B}^{(i)}\),且对应的特征向量也是相同的