矩阵分析 6
- 完备的赋范线性空间,称为Banach空间
矩阵序列的极限
定义:设有矩阵序列\(\{A_k\}\),其中\(A_k = (a_{ij}^{(k)})_{n*n}\),且当\(k \to \infty\)时,\(a_{ij}^{(k)} \to a_{ij}\),则称\(\{A_k\}\)收敛,并称\(A = (a_{ij})\)为\(\{A_k\}\)的极限,记做
\[\lim_{k \to \infty} A_k = A\]
不收敛的序列称为发散的
这个定义研究起来并不是很方便,我们可以引出一个等价的定义
- 在有限维巴拿赫空间中,矩阵序列\(\{A_k\}\)收敛于\(A\)等价于矩阵序列\(\{A_k\}\)按范数收敛于\(A\)
- 由于所有范数是等价的,我们不妨取矩阵的F-范数来研究,此时矩阵相等于\(n*m\)维的一个向量,由向量范数的性质知道,对于F-范数而言,这个定理是成立的
同大多数极限一样,矩阵极限有相应的运算性质
如果\(\lim_{k \to \infty} A_k = A\),那么序列\(\{||A_k||\}\)有界
如果\(\lim_{k \to \infty} A_k = A, \lim_{k \to \infty} B_k = B\),那么
\[\lim_{k \to \infty} (aA_k + bB_k) = aA + bB\]
如果\(\lim_{k \to \infty} A_k = A. \lim_{k \to \infty} B_k = B\),那么
\[\lim_{k \to \infty} A_kB_k = AB\]
- \(||A_kB_k - AB|| \leq ||(A_k- A)||*||B_k|| + ||(B_k-B)||*||A||\)
如果\(\lim_{k \to \infty} A_k = A\),且\(A_k(k \in N^{+}), A\)都可逆,那么
\[\lim_{k \to \infty} A_k^{=1} = A^{-1}\]
注意到对于任意\(A_k\)中的子式而言,它可以表示为\(A_k\)中元素的连续函数,由连续性,\(A_k\)的子式一定收敛于\(A\)中对应的子式,特别的,\(|A_k| \to |A|\)
同样的,我们将有\(\text{adj} A_k \to \text{adj} A\),从而有\(A_k^{-1} \to A^{-1}\)
下面是一个基础的定理
\(\lim_{k \to \infty} A^k = 0\)的充要条件是\(\rho(A) < 1\)
考虑矩阵\(A\)的若尔当标准形\(J\),即\(A = TJT^{-1}\),那么\(A^k = T J^K T^{-1}\)
因此\(\lim_{k \to \infty} A^k = 0\),当且仅当\(\lim_{k \to \infty} J^k = 0\)
设\(J = diag\{J_1, ..., J_r\}\),那么\(J^k = diag\{J_1^k, ..., J_r^k\}\)
注意到\(J_i^k = \begin{pmatrix} \lambda_i^k & \binom{k}{1} \lambda_i^{k-1} & ... & \binom{k}{n_i - 1} \lambda_i^{k - n_i + 1} \\ 0 & \lambda_i^{k} & ... & \binom{k}{n_i-2} \lambda_{i}^{k-n_i+2} \\ ...&... & ... &... \\ ... & ... & ... & \lambda_i^k\end{pmatrix}\)
矩阵每个元素都形如\(f(k) * \lambda^k\),其中\(f(k)\)是关于\(k\)的多项式
因此,当\(|\lambda| < \rho(A) < 1\)时,就有\(J_i^k \to O\),从而\(J^k \to O\)
反过来,当\(J^k \to O\)时,\(J_i^k \to O\),因此\(\lambda_i^k \to 0\),从而\(|\lambda_i| < 1\),\(\rho(A)<1\)
矩阵级数
对矩阵序列\(\{A_k\}\),称\(\sum_{i=0}^{\infty} A_i\)为矩阵级数,而\(A_k\)称为矩阵级数的一般项
称\(S_k = \sum_{i=0}^k A_i\)为部分和,如果\(\{S_k\}\)收敛,那么称矩阵级数\(\sum_{i=0}^{\infty} A_i\)收敛,否则称矩阵级数发散
- 矩阵级数收敛的充要条件为\(n^2\)个对应的数项级数收敛
\(\sum_{i=0}^{\infty} A_i\)收敛,那么\(\lim_{n \to \infty} A_n = O\)
\(\sum_{i=0}^{\infty} A_i, \sum_{i=0}^{\infty} B_i\)都收敛时,\(\sum_{i=0}^{\infty} (A_i + B_i) = \sum_{i=0}^{\infty} A_i + \sum_{i=0}^{\infty} B_i\)
\(\sum_{i=0}^{\infty} A_i\)收敛时,\(\sum_{i=0}^{\infty} kA_i = k \sum_{i=0}^{\infty} A_i\)
如果\(n^2\)个对应的数项级数都绝对收敛,那么称矩阵级数绝对收敛
矩阵级数\(\sum_{i=0}^{\infty} A_i\)绝对收敛的充要条件为\(\sum_{i=0}^{\infty} ||A_i||\)收敛,其中\(||\cdot||\)为任意一种矩阵级数
把矩阵想象成一个向量,利用\(F\)-范数不难证明
仿照数分中的结果,对于矩阵级数,我们有相似的结果
- 如果\(\sum_{i=0}^{\infty} A_i, \sum_{i=0}^{\infty} B_i\)绝对收敛于\(A, B\),那么\(\sum_{i=0}^{\infty} \sum_{j+k = i} A_jB_k\)绝对收敛于\(AB\)
- 如果\(\sum_{i=0}^{\infty} A_i\)绝对收敛,那么\(\sum_{i=0}^{\infty} A_i\)收敛,并且\(\sum_{i=0}^{\infty} A_i\)改变求和次序后,收敛结果不变
也有一些和数分中有差异的结果
如果\(\sum_{i=0}^{\infty} A_i\)(绝对)收敛,那么对于非奇异矩阵\(P, Q\),有\(\sum_{i=0}^{\infty} PA_iQ\)(绝对)收敛
在绝对收敛的情况下,给出证明
注意到\(||PA_iQ|| \leq ||P||*||Q|| * ||A_i||\),而\(||P||*||Q||\)为非零常数
接下来考虑矩阵幂级数
- 形如\(\sum c_i A^i\)的矩阵级数称为矩阵幂级数
考虑到范数的相容性,我们有
如果对于某一种矩阵范数,\(\sum c_i ||A||^i\)收敛,那么对应的矩阵级数绝对收敛
如果对于某一种矩阵范数,\(||A||\)落在\(\sum c_i z^i\)的收敛圆中,那么对应的矩阵级数绝对收敛
如果\(A\)的谱半径\(\rho(A)\)落在纯量幂级数\(\sum c_ix^i\)的收敛圆中,那么对应的矩阵级数绝对收敛;如果\(A\)的特征值有一个落在\(\sum c_iz^i\)的收敛圆外,那么对应的矩阵级数发散
- 考虑若尔当标准形
矩阵函数
考虑以下三个矩阵级数
\[\exp(A) = \sum_{i=0}^{\infty} \frac{A^i}{i!}\]
\[\sin(A) = \sum_{i=0}^{\infty} (-1)^i \frac{A^{2i+1}}{(2i+1)!}\]
\[\cos(A) = \sum_{i=0}^{\infty} (-1)^i \frac{A^{2i}}{(2i)!}\]
它们都是绝对收敛的,具体而言,设\(z = ||A||\),那么,当\(i \geq 1\)时,由\(||\frac{A^i}{i!}|| \leq z^i *(i!)^{-1}\),得到\(||\sum_{i=0}^{\infty} \frac{A^i}{i!}|| \leq ||I|| + \sum_{i=1}^{\infty} z^i * (i!)^{-1} = e^z - 1 + ||I||\),因此\(\exp(A)\)绝对收敛
\(\sin(A), \cos(A)\)的绝对收敛性可以类似地证明
即使是基础的矩阵函数,性质也和普通的函数有所不同
如果\(A, B\)可交换,即\(AB = BA\),则有\(e^A * e^B = e^B * e^A = e^{A+B}\)
证明:由于\(e^A, e^B\)绝对收敛,我们可以考虑两者的柯西乘积
\[\begin{align*}e^A * e^B &= (I + A + \frac{1}{2!}A^2 + ...)(I + B + \frac{1}{2!}B^2 + ...) \\ &= I + (A+B) + \frac{1}{2!}(A+B)^2 + ... \\ &= e^{A+B}\end{align*}\]
如果\(A, B\)可交换,那么\(\cos(A+B) = \cos A \cos B - \sin A \sin B\)
证明:对比两式同次数的项,显然奇次数项都为0,我们只需要证明
\[\begin{align*}RHS &= \sum_{i+j = k} (-1)^{i+j} \frac{A^{2i}}{(2i)!} \frac{B^{2j}}{(2j)!} - \sum_{i+j = k-1} (-1)^{i+j} \frac{A^{2i+1}}{(2i+1)!} \frac{B^{2j+1}}{(2j+1)!}\\ &= (-1)^k [\sum_{i+j = k} \frac{A^{2i}}{(2i)!} \frac{B^{2j}}{(2j)!} + \sum_{i+j = k-1} \frac{A^{2i+1}}{(2i+1)!} \frac{B^{2j+1}}{(2j+1)!}] \\ &= \frac{(-1)^k}{(2k)!} [\sum_{i} \binom{2k}{2i}A^{2i}B^{2k-2i} + \sum_i \binom{2k}{2i+1}A^{2i+1}B^{2k-2i-1}] \\ &= \frac{(-1)^k}{(2k)!} \sum_i \binom{2k}{i} A^i B^{2k-i} \\ &= \frac{(-1)^k}{(2k)!} (A+B)^{2k} \\ &= LHS\end{align*}\]
如果\(A, B\)可交换,那么\(\sin(A+B) = \sin A \cos B + \cos A \sin B\)
当然,也有一些和普通函数相同的性质
\(\cos(-A) = \cos A, \sin (-A) = -\sin(A)\)
欧拉公式
\[\exp(iA) = \cos A + i \sin A\]
下面给出一些特殊情况下的矩阵函数的求法
- 如果矩阵\(A\)具有谱分解\(\sum \lambda_i x_ix_i^T\),那么矩阵函数\(f(A) = \sum f(\lambda_i) x_ix_i^T\)
首先有一个容易验证的引理:对于多项式\(f(x)\),如果\(x\)是\(A\)的属于\(\lambda\)的一个特征向量,那么\(x\)也是\(f(A)\)的属于\(f(\lambda)\)的一个特征向量
我们设出部分和\(f_N(A) = \sum_{i=0}^N c_iA_i\),那么根据上面的引理,有\(f_N(A) = \sum f_N(\lambda_i) x_ix_i^T\)
令\(N \to \infty\),我们就有\(f(A) = \sum f(\lambda_i) x_ix_i^T\)
矩阵微积分
矩阵对标量的导数
对于矩阵\(A\),如果其元素\(a_{ij}\)都是变量\(x\)的函数\(a_{ij}(x)\),那么我们称矩阵\(A\)为变量\(x\)的函数矩阵
- 函数矩阵的极限:当\(\forall i, j, \lim_{x \to x_0} a_{ij}(x) = a^{*}_{ij}\)存在时,我们称\(A\)有极限,且极限为\(A^* = \{a^{*}_{ij}\}\)
- 函数矩阵的连续性:当\(\forall i, j, \lim_{x \to x_0} a_{ij}(x) = a_{ij}(x_0)\)时,我们称\(A\)在\(x_0\)这一点连续
- 函数矩阵的导数:当\(\forall i, j, \lim_{x \to x_0} \frac{a_{ij}(x) - a_{ij}(x_0)}{x-x_0} = a'_{ij}(x_0)\)存在时,我们称\(A\)在\(x_0\)这一点可导,且导数为\(A'(x_0) = \{a'_{ij}(x_0)\}\)
由于可以看成是每个分量函数的一种组合,因此函数矩阵的导数自然地有
\((aA+bB)'=aA'+bB'\)
\((f(x)A(x))' = f'(x)A(x) + f(x)A'(x)\)
还有一些并不能自然得到的性质
- \((A(x)B(x))'=A'(x)B(x)+A(x)B'(x)\)
- \((A^{-1}(x))'=-A^{-1}(x)A'(x)A^{-1}(x)\)
我们对这两个性质作出证明,首先是性质1
\((A(x)B(x))_{ij}' = (\sum_k a_{ik}b_{kj})' = \sum_k a'_{ik}b_{kj} + \sum_k a_{ik}b_{kj}' = (A'B+AB')_{ij}\)
性质2可以视为是对性质1的简单应用
\((A(x)A^{-1}(x))' = A'(x)A^{-1}(x)+(A^{-1}(x))'A(x)=O\)
即使是矩阵对标量的导数,一般也没有简单的形式,比如
\[\frac{\text{d} A^3}{\text{d} x} = A'AA+AA'A+AAA'\]
不过一些初等函数保持了比较好的性质,对于任何常量矩阵\(A\),总有
- \((e^{Ax})' = A e^{Ax} = e^{Ax}A\)
- \((\cos Ax)' = -A \sin Ax = - \sin Ax *A\)
- \((\sin Ax)' = A \cos Ax = \cos Ax * A\)
- \((\tr A)' = \tr A'\)
数量函数对矩阵的导数
设\(f(A)\)是一个将矩阵\(A\)映射到标量上的函数,那么我们定义
\[\frac{\text{d} f(A)}{\text{d} A} = (\frac{\part f(A)}{\part a_{ij}})_{m \times n}\]
为\(f(A)\)对矩阵\(A\)的导数
向量时矩阵的一种特例,因此这里也定义出了向量的情况
一般导数的线性性和乘法法则仍是成立的,我们考察一些特殊的例子
- 设\(f(x) = x^TAx\),求\(\frac{\text{d} f(x)}{\text{d} x}\)
\[\begin{align}\frac{\part f(x)}{\part x_k} &= \frac{\part}{\part x_k} x^TAx \\ &=\frac{\part}{\part x_k} \sum_{i, j} a_{ij}x_ix_j \\ &= \sum_i a_{ik}x_i + \sum_{j}a_{kj}x_j \\ &= (Ax)_k + (A^Tx)_k\end{align}\]
因此,我们有
\[\frac{\text{d} f(x)}{\text{d} x} = (A+A^T)x\]
- 设\(f(x) = ||Ax-b||_2^2\),求\(\frac{\text{d} f(x)}{\text{d} x}\)
\[\begin{align}\frac{\part f(x)}{\part x_k} &= \frac{\part}{\part x_k} ||Ax-b||^2_2 \\ &= \frac{\part}{\part x_k} \sum_i (\sum a_{ij}x_j - b_i)^2 \\ &= \sum_i 2a_{ik}(\sum a_{ij}x_j - b_i) \\ &= 2\sum_{i, j} a_{ik}a_{ij}x_j - 2\sum_i a_{ik}b_i \\ &=2 (A^TAx-A^Tb)_{k}\end{align}\]
因此,\(\frac{\text{d} f(x)}{\text{d} x} = 2(A^TAx-A^Tb)\)
一般来说,当一个函数取到极值时,其导数为0,而这个函数正是我们十分熟悉的最小二乘法的函数,我们令其导数为0,将得到\(x = (A^TA)^{-1} Ab\)
- 设\(f(A) = |A|\),求\(\frac{\text{d} f(A)}{\text{d} A}\),这里\(|A|\)是矩阵\(A\)的行列式
事实上,要求对\(ij\)位置元素的偏导数,我们可以考虑按矩阵\(A\)的第\(i\)行展开
\(A = \sum_j a_{ij} A_{ij}\),那么,不难直接看出,\(\frac{\part f(A)}{\part a_{ij}} = A_{ij}\)
因此,\(\frac{\text{d} f(A)}{\text{d} A} = (A^*)^T\)
当\(|A| \neq 0\)时,我们可以用\(A^{-1}\)来表示,即\(\frac{\text{d} f(A)}{\text{d} A} = (|A|A^{-1})^T = |A|(A^{-1})^T\)