矩阵分析 5

Posted on 2021-08-02 Edited on 2021-08-05 In notes

Symbols count in article: 4k Reading time ≈ 4 mins.

一些杂记

向量范数

介绍

定义：如果\(V\)是数域\(P\)上的线性空间，且对于\(x \in V\)，存在\(V \to R\)的函数\(||x||\)，满足
- 非负性：\(||x|| \geq 0\)，当且仅当\(x = 0\)取等
- 齐次性：\(||kx|| = |k|*||x||\)
- 三角不等式：\(||x+y|| \leq ||x|| + ||y||\)

这里记录一些常见的范数

\(||x|| = \sqrt {\sum_{i=1}^n |x_i|^2}\)，称作2-范数或者欧式范数，记为\(||x||_2\)
- 该函数显然满足非负性和齐次性，利用柯西不等式可以得到三角不等式也满足
\(||x|| = max_{i=1}^n |x_i|\)，称作\(\infty-\)范数，记为\(||x||_{\infty}\)
- 验证三条性质都是简单的
\(||x|| = (\sum_{i=1}^n |x_i|^p)^{\frac{1}{p}}\)，称作p-范数，其中\(1 \leq p < +\infty\)，记为\(||x||_p\)
- 非负性和齐次性仍然是显然的
- 三角不等式则可由Young不等式或Holder不等式得出
- 不难发现\(p= 2\)和\(p \to +\infty\)的情况下，p-范数变为上述两种情况
对于正定埃尔米特矩阵\(A\)，定义\(||x||_A = \sqrt {x^HAx}\)，称作椭圆范数
- 非负性和齐次性仍然是显然的
- 三角不等式：由于\(A\)是正定埃尔米特矩阵，因此存在非奇异矩阵\(P\)，使得\(A = P^HP\)
  
  那么，\(||x||_A = ||Px||_2\)，而\(||P(x+y)||_2 = ||Px+Py||_2 \leq ||Px||_2 + ||Py||_2\)

向量范数的等价性

称向量范数\(||\cdot||_a\)，\(||\cdot||_b\)等价，当且仅当存在\(c_1, c_2 > 0\)，使得对于任意\(x\)，

\[c_1||x||_b \leq ||x||_a \leq c_2||x||_b\]
两个范数等价，当且仅当它们具有相同的敛散性
- 充分性是显然的，我们考虑必要性的证明
  
  反证法，不妨设对于任意大的整数\(n\)，都存在\(x_n\)，使得\(||x_n||_b > n||x_n||_a\)
  
  那么，我们考虑序列\(x_n' = x_n * ||x_n||_b^{-1}\)，显然\(\lim_{n \to \infty} ||x_n'||_b = 1\)
  
  而\(||x_n'||_a = ||x_n||_a *||x_n||_b^{-1} < \frac{1}{n}\)，因此\(\lim_{n \to \infty} ||x_n'||_a = 0\)，这与有相同的敛散性这一条件矛盾，矛盾的根源在于假设，因此命题是正确的
有限维线性空间上的不同范数是等价的
- 向量范数的等价关系有传递性，我们只需证明所有范数都与某种范数等价即可
- 首先，由于是有限维线性空间，我们取一组基底\(e_1, e_2, ..., e_n\)，对于任意向量\(x\)，如果\(x = \sum x_ie_i\)，那么，对于向量范数\(||\cdot||_a\)，定义\(f(x_1, x_2, ..., x_n) = ||x||_a\)，不难证明\(f(x_1,x_2,...,x_n)\)是一个连续函数
  
  不妨设\(||x||_b\)是另一种范数，我们考虑\(f(x_1,x_2,...,x_n)\)在\(||x||_b = 1\)上的分布情况，由\(f\)的连续性可知它可以取到最大值\(M\)和最小值\(m\)
  
  而对于\(||x||_b = k(k \neq 0)\)的一般情况，我们有\(m \leq ||x * k^{-1}||_a \leq M\)，即\(m||x||_b \leq ||x||_a \leq M ||x||_b\)

矩阵范数

定义：对于矩阵\(A\)，如果存在实值函数\(||A||\)，满足
- 非负性：\(||A|| \geq 0\)，当且仅当\(A = O\)时取等
- 齐次性：\(||kA|| = k||A||\)
- 三角不等式：\(||A+B|| \leq ||A|| + ||B||\)
- 相容性：\(||AB|| \leq ||A|| *||B||\)
称该函数为矩阵范数

定义中的次乘性的一个感性理解是，当\(||A|| < 1\)时，将有\(\lim_{n \to \infty} ||A||^n = 0(n \to \infty)\)

不难验证下列函数都是矩阵范数

\[||A||_{m_1} = \sum_{i, j} |a_{ij}|\]

\[||A||_{m_2} = n* \max_{i.j} |a_{i,j}|\]

\[||A||_F = (\sum_{i.j} |a_{ij}|^2)^{1/2}\]

最后一种矩阵范数简称为F-范数，F-范数有不错的性质

设\(U, V\)为酉矩阵，那么\(||A||_F = ||UAV||_F\)
- 注意到\(||A||_F = (tr(AA^H))^{1/2}\)，\((UAV)(UAV)^H\)和\(AA^H\)相似
矩阵范数在有限维线性空间下也有等价性

算子范数

定义：设\(||x||\)是一个向量范数，那么，我们定义\(||A|| = \sup_{x \neq 0} \frac{||Ax||}{||x||} = \max_{x = 1} ||Ax||\)为由向量范数\(||\cdot||\)诱导出的算子范数
- 由定义，算子范数满足\(||Ax|| \leq ||A|| *||x||\)，此时，我们称矩阵范数\(||A||\)和向量范数\(||x||\)相容
- 算子范数是一种矩阵范数
  - 非负性，齐次性，三角不等式都可以转化为向量范数来证明
  - 对于次乘性，设\(x_0\)是在\(||x|| = 1\)中，使得\(||ABx||\)取到最大值的\(x\)，那么\(||AB|| = ||ABx_0|| \leq ||A||*||Bx_0|| \leq ||A||*||B||\)，其中的不等式利用的是算子范数的性质
- \(||I||=1\)对任何算子范数成立
我们给出几个特例的算子范数

对应于向量范数\(||x||_1, ||x||_2, ||x||_{\infty}\)的算子范数分别为

\[||A||_1 = \max_{j} \sum_{i=1}^m |a_{ij}|\]

\[||A||_2 = \sigma_{max} = \sqrt {\lambda_{max} }\]

上式中\(\lambda_{max}\)表示矩阵\(AA^H\)的最大特征值

\[||A||_{\infty} =\max_{i} \sum_{j=1}^n |a_{ij}|\]

它们分别被称作列范数，谱范数，行范数
- 列范数和行范数不难证明，我们对谱范数稍作解释
  
  对\(||x||=1\)，不难得到\(||Ax||^2_2 = (Ax)^HAx = x^H A^HAx\)
  
  设\(A^HA\)的谱分解为\(\sum \lambda_i x_i^Hx_i\)，其中\(\lambda_1 \geq ... \geq \lambda_m\)，并设\(x = \sum a_ix_i\)
  
  那么\(x^HA^HAx = \sum \lambda_i |a_i|^2 \leq \lambda_1\)，当\(a_1 = 1\)时可以取到等号

谱范数

性质

谱范数和F-范数一样，有比较好的性质

设\(U, V\)为酉矩阵，那么\(||A||_2 = ||UAV||_2\)
- 证明：\(AA^H\)和\((UAV)(UVA)^H\)相似
\(||A||_2 = ||A^H||_2\)
- \(AA^H\)和\(A^HA\)有相同的非零特征值
\(||A||_2 = \max_{||x||_2 = 1, ||y||_2=1} |y^HAx|\)
- \(|y^HAx| \leq ||y^H||_2 * ||A||_2*||x||_2 \leq ||A||_2\)
  
  存在\(x_0\)满足条件，并且使得\(||Ax_0||_2 = ||A||_2\)，此时，取\(y_0 = Ax_0 * ||Ax_0||^{-1}\)可以取得等号
\(||A^HA||_2 = ||A||_2^2\)
- \(||A^HA||_2 \leq ||A^H||_2 * ||A||_2 = ||A||_2^2\)
  
  \(||A^HA||_2 = \max |y^HA^HAx| \geq \max |x^HA^HAx|\)

谱半径

定义：设\(A\)的特征值为\(\lambda_1, ..., \lambda_n\)，那么称\(\rho(A) = \max_{i} |\lambda_i|\)，称为\(A\)的谱半径

谱半径有非常良好的性质

\(\rho(A) \leq ||A||\)，谱半径不会超过\(A\)的任何一种范数

为了证明这个定理，我们需要一个引理 `

引理：对于任何一种矩阵范数\(||\cdot||_A\)，存在与其相容的向量范数\(||\cdot||_v\)
- 任取\(y \neq 0, y \in V\)，那么定义\(||x||_v = ||xy^H||_A\)
  
  容易验证这是一个向量范数，我们来考虑相容性
  
  \(||M||_A * ||x||_v = ||M||_A*||xy^H||_A \geq ||Mxy^H||_A = ||Mx||_v\)

现在让我们回到定理的证明，设\(\lambda\)为其特征值，\(x\)为其对应的特征向量，\(||\cdot||_v\)取与其相容的向量范数，那么\(|\lambda|*||x||_v = ||\lambda x||_v = ||Ax||_v \leq ||A|| * ||x||_v\)，于是\(|\lambda| \leq ||A||\)

如果\(A\)的正规矩阵，那么\(\rho(A) = ||A||_2\)

即证\(A\)的特征值的模的最大值等于\(A\)的最大奇异值，这个由特征值的模与奇异值之间的对应关系可以得到

\(||A||_2 = \sqrt {\rho(AA^H)}\)

这个是显然的