Gilbert Strang认为线性代数有四个基本定理$^{[1]}$。
线性代数的核心问题是向量空间的线性变换,向量空间是线性代数的研究对象,线性变换是研究向量空间的基本方法。线性变换将一个向量空间的子空间映射到另一个向量空间中的子空间。
以下关于“秩-零化度定理”(rank-nullity theorem)的阐述。以下内容主要参考文献 [2] 和 [3]。
如下图所示,线性变换
-
核:若
$\mathbb{V}$ 里面有一个向量集合,其中每个向量$\pmb{u}$ 经$\pmb{T}$ 映射之后为零向量,即$\pmb{T}(\pmb{u})=\pmb{0}$ ,则此向量集合称为$\pmb{T}$ 的核(kernel),记作:$\ker(\pmb{T})$ 。$\text{ker}(\pmb{T})$ 满足向量加法和数量乘法封闭性,是$\mathbb{V}$ 的一个子空间。核也称为零空间(nullspace),$\ker(\pmb{T})={\pmb{v}\in\mathbb{V}|\pmb{T}(\pmb{v})=\pmb{0}}$ 。 -
零化度:核的维度(dimension),称为零化度(nullity),记作:$\dim\ker(\pmb{T})$ 。可以度量核的大小。
-
秩:线性变换
$\pmb{T}$ 的值域的维度,称为秩(rank),记作:$\rank\pmb{T}=\dim R(\pmb{T})$ 。
其中:
证明1:通过矩阵
将线性变换
线性变换
值域
将矩阵
$$
\pmb{R}=\begin{bmatrix}\pmb{I}_r&\pmb{F}\\pmb{0}&\pmb{0}\end{bmatrix}
$$
其中
因为矩阵行运算不改变轴数量,也不改变零空间,所以:$\rank\pmb{A}=\rank\pmb{R}=r$ 且
根据
$$
\pmb{P} = \begin{bmatrix}-\pmb{F}\\pmb{I}_{n-r}\end{bmatrix}
$$
用上述结果可以计算得到
$$
\pmb{RP}=\begin{bmatrix}\pmb{I}r&\pmb{F}\\pmb{0}&\pmb{0}\end{bmatrix}\begin{bmatrix}-\pmb{F}\\pmb{I}{n-r}\end{bmatrix}=\begin{bmatrix}-\pmb{F}+\pmb{F}\\pmb{0}+\pmb{0}\end{bmatrix}=0
$$
设 $\pmb{x}=\begin{bmatrix}\pmb{x}_1\\pmb{x}_2\end{bmatrix}$ ,其中
$$ \pmb{Rx}=\begin{bmatrix}\pmb{I}_r&\pmb{F}\\pmb{0}&\pmb{0}\end{bmatrix}\begin{bmatrix}\pmb{x}_1\\pmb{x}_2\end{bmatrix}=\begin{bmatrix}\pmb{x}_1+\pmb{Fx}_2\\pmb{0}\end{bmatrix}=\pmb{0} $$ 所以:$\pmb{x}_1=-\pmb{Fx}_2$ ,
于是:$\pmb{x}=\begin{bmatrix}-\pmb{Fx}_2\\pmb{x}2\end{bmatrix}=\begin{bmatrix}-\pmb{F}\\pmb{I}{n-r}\end{bmatrix}\pmb{x}_2=\pmb{Px}_2$
所以:$C(\pmb{P})=N(\pmb{R})$
即:$\dim N(\pmb{R})=\dim C(\pmb{P})=n-r$ 。从而证明:
$$
n = \dim N(\pmb{A}) + \rank\pmb{A}
$$
证明2:线性变换的向量空间分析
令
设
向量空间
$$
\pmb{v}=a_1\pmb{u}_1+\cdots+a_p\pmb{u}_p+b_1\pmb{w}_1+\cdots+b_r\pmb{w}_r
$$
因为
所以:
$$
\begin{split}\pmb{T}(\pmb{v})&=\pmb{T}(a_1\pmb{u}_1+\cdots+a_p\pmb{u}_p+b_1\pmb{w}_1+\cdots+b_r\pmb{w}_r)\&=a_1\pmb{T}(\pmb{u}_1)+\cdots+a_p\pmb{T}(\pmb{u}_p)+b_1\pmb{T}(\pmb{w}_1)+\cdots+b_r\pmb{T}(\pmb{w}_r)\&=b_1\pmb{T}(\pmb{w}_1)+\cdots+b_r\pmb{T}(\pmb{w}_r)\end{split}
$$
设:$c_1\pmb{T}(\pmb{w}_1)+\cdots+c_r\pmb{T}(\pmb{w}_r)=0$ ,也可以写成:$\pmb{T}(c_1\pmb{w}_1+\cdots+c_r\pmb{w}_r)=0$ ,所以
因为
$$
c_1\pmb{w}_1+\cdots+c_r\pmb{w}_r=d_1\pmb{u}_1+\cdots+d_p\pmb{u}_p
$$
又因为
故
所以:$r=\dim R(\pmb{T})=\rank\pmb{T}$
由
-
若
$\dim\mathbb{V}\gt\dim\mathbb{W}$ ,则:$$ \dim\ker(\pmb{T})=\dim\mathbb{V}-\dim R(\pmb{T})\ge\dim\mathbb{V}-\dim\mathbb{W}\gt0 $$ 即存在非零向量
$\pmb{x}\in\mathbb{V}$ 使得$\pmb{T}(\pmb{x})=\pmb{0}$ ,或曰$\pmb{T}$ 不是一对一(因为$\pmb{T}(\pmb{0})=\pmb{0}$ )。 -
若
$\dim\mathbb{V}\lt\dim\mathbb{W}$ ,则:$$ \dim R(\pmb{T})=\dim\mathbb{V}-\dim\ker(\pmb{T})\le\dim\mathbb{V}\lt\dim\mathbb{W} $$
即存在非零向量
$y\in\mathbb{W}$ 使得$\pmb{y}\notin R(\pmb{T})$ ,或曰$\pmb{T}$ 不是满射。
如果用矩阵表述:将线性变换
-
$n\gt m$ ,则:$\dim N(\pmb{A})=n-\dim C(\pmb{A})\ge n-m \gt 0$ 。即零空间$N(\pmb{A})$ 包含非零向量,或者说$\pmb{Ax}=0$ 有无穷多组解。 -
$n\lt m$ ,则:$\dim C(\pmb{A})=n-\dim N(\pmb{A})\le n \lt m$ 。即列空间$C(\pmb{A})$ 未能充满整个$\mathbb{R}^m$ (或$\mathbb{C}^m$ ),或者说$\pmb{Ax}=\pmb{b}$ 不总是有解。
进一步理解
此定理说明了线性变换前后的空间维数变化。变换后的空间维数如果相对变换前的空间维数减少了——不可能增加,说明变换前的空间经过变换之后出现了“零输出”,零空间
“秩—零化度定理”即“维数守恒定律”,
变换前的空间维数 = 零空间的维数 + 变换后的空间维数
对于
-
列空间(column space):$C(\pmb{A})={\pmb{Ax}|\pmb{x}\in\mathbb{R}^n}$ ,即矩阵的值域(range)。将矩阵用列向量的方式表示 $\pmb{A}=\begin{bmatrix}\pmb{a}_1&\cdots&\pmb{a}_n\end{bmatrix}$ ,其中
$\pmb{a}_j\in\mathbb{R}^m$ ,$C(\pmb{A})$ 是列向量的线性组合。 - 零空间(nullspace):$N(\pmb{A})={\pmb{x}\in\mathbb{R}^n|\pmb{Ax}=\pmb{0}}$
-
行空间(row space):是转置矩阵
$\pmb{A}^{\text{T}}$ 的列空间,$C(\pmb{A}^{\text{T}})$
因为矩阵的行秩等于列秩,即
$$ n = \dim N(\pmb{A}) + \dim C(\pmb{A}^{\text{T}}) $$ 将原矩阵转置,即得:
- 左零空间(left nullspace):$N(\pmb{A}^T)$
定理1已经说明了矩阵基本子空间的维数关系。
以上四个矩阵的基本子空间如下图所示$^{[5]}$:
在《机器学习数学基础》第3章3.4节“正交和投影”中,专门介绍了向量和向量空间的正交概念。此处就探讨矩阵的四个子空间的正交关系,这些关系就构成了线性代数的一个基本定理,即说明矩阵四个基本子空间的正交补的关系。
设
在向量空间
-
$N(\pmb{A})=C(\pmb{A}^{\text{T}})^{\bot}$ -
$N(\pmb{A}^{\text{T}})=C(\pmb{A})^{\bot}$
下图显示了四个基本子空间之间的正交关系:
由矩阵
$$
\pmb{Ax}=0 \Longrightarrow \pmb{Ax}=\begin{bmatrix}A的第1行(row_1)\\vdots\A的第m行(row_m)\end{bmatrix}\pmb{x}=\begin{bmatrix}0\\vdots\0\end{bmatrix}
$$
每个行向量与
又因为
所以:$N(\pmb{A})=C(\pmb{A}^{\text{T}})^{\bot}$
同样思路,对
$$
\pmb{A}^{\text{T}}\pmb{y}=\begin{bmatrix}A的第1列(col_1)\\vdots\A的第n列(col_n)\end{bmatrix}\pmb{y}=\begin{bmatrix}0\\vdots\0\end{bmatrix}
$$
矩阵
为什么称为左零空间?
设
令
其中,$\begin{cases}\pmb{e}^{\text{T}}_i\pmb{e}_i=1,\quad i=j\\pmb{e}^{\text{T}}_i\pmb{e}_i=0,\quad i\ne j\end{cases}$ 。
将(3.1)式写成矩阵相乘的形式:
$$
\pmb{A}^{\text{T}}\pmb{A}\begin{bmatrix}\pmb{e}_1&\cdots&\pmb{e}_n\end{bmatrix}=\begin{bmatrix}\pmb{e}_1&\cdots&\pmb{e}_n\end{bmatrix}\begin{bmatrix}\sigma^2_1&\cdots&0\\vdots&\ddots&\vdots\0&\cdots&\sigma^2_n\end{bmatrix}
$$
令 $\pmb{E}=\begin{bmatrix}\pmb{e}_1&\cdots&\pmb{e}_n\end{bmatrix}$ ,则
所以,$\rank(\pmb{A}^{\text{T}}\pmb{A})=\rank(diag(\sigma^2_1,\cdots,\sigma^2_n))$ 。
根据前面的假设
根据定理1,$\dim N(\pmb{A})=n-rank\pmb{A}=n-r$ 。
另外:$\begin{Vmatrix}\pmb{Ae}_i\end{Vmatrix}^2=\pmb{e}_i^{\text{T}}\pmb{A}^{\text{T}}\pmb{Ae}_i=\sigma_i^2\pmb{e}^{\text{T}}_i\pmb{e}_i=\sigma_i^2$
所以,$\begin{Vmatrix}\pmb{Ae}_i\end{Vmatrix}=\sigma_i,(1\le i\le n)$ 。
若
因为 ${\pmb{e}_1,\cdots,\pmb{e}n}$ 线性独立,且 $\dim N(\pmb{A})=n-r$ ,所以 ${\pmb{e}{r+1},\cdots,\pmb{e}_n}$ 是
根据定理2,从子空间的正交补可知,${\pmb{e}_1,\cdots,\pmb{e}_r}$ 为
将(3.1)式左乘
$$
\pmb{AA}^{\text{T}}\pmb{Ae}_i=\sigma_i^2\pmb{Ae}_i,i=1,\cdots,n
$$
则
令:$\pmb{u}_i=\frac{\pmb{Ae}_i}{\sigma_i},i=1,\cdots,r$
对于
$$
\pmb{u_i}^{\text{T}}\pmb{u}_j=\left(\frac{\pmb{Ae}_i}{\sigma_i}\right)^{\text{T}}\left(\frac{\pmb{Ae}_j}{\sigma_j}\right)=\frac{\pmb{e}_i^{\text{T}}\pmb{A}^{\text{T}}\pmb{Ae}_j}{\sigma_i\sigma_j}=\begin{cases}1\quad(i=j)\0\quad(i\ne j )\end{cases}
$$
则
因为
根据格拉姆-施密特正交化方法(参阅《机器学习数学基础》第3章3.5.1节),得左零空间
因为
综上可得:
对于
$r=\rank\pmb{A}=\rank\pmb{A}^{\text{T}}=\rank(\pmb{A}^{\text{T}}\pmb{A})=\rank(\pmb{AA}^{\text{T}})$ $C(\pmb{A}^{\text{T}})=C(\pmb{A}^{\text{T}}\pmb{A}),\quad C(\pmb{A})=C(\pmb{AA}^{\text{T}})$ $N(\pmb{A})=N(\pmb{A}^{\text{T}}\pmb{A}),\quad N(\pmb{A}^{\text{T}})=N(\pmb{AA}^{\text{T}})$ -
$\pmb{A}^{\text{T}}\pmb{A}$ 的特征值为$\sigma_1^2,\cdots,\sigma_n^2$ ,对应单位正交的特征向量$\pmb{e}_1,\cdots,\pmb{e}_n$ -
$\pmb{AA}^{\text{T}}$ 的特征值为$\sigma_1^2,\cdots,\sigma_m^2$ ,对应单位正交的特征向量$\pmb{u}_1,\cdots,\pmb{u}_m$ -
$\pmb{Ae}_i=\sigma_i\pmb{u}_i,\sigma_i\gt0,i=1,\cdots,r$ ,且$\pmb{Ae}_i=\pmb{0},i=r+1,\cdots,n$ -
$\pmb{A}^{\text{T}}\pmb{u}_j=\sigma\pmb{e}_j,\sigma_j\gt0,j=1,\cdots,r$ ,且$\pmb{A}^{\text{T}}\pmb{u}_j=\pmb{0},j=r+1,\cdots,m$
- 行空间
$C(\pmb{A}^{\text{T}})$ 的基:${\pmb{e}_1,\cdots,\pmb{e}_r}$ ,$\dim C(\pmb{A}^{\text{T}})=r$ - 零空间
$N(\pmb{A})$ 的基:${\pmb{e}_{r+1},\cdots,\pmb{e}_n}$,$\dim N(\pmb{A})=n-r$ - 列空间
$C(\pmb{A})$ 的基:${\pmb{u}_1,\cdots,\pmb{u}_r}$ ,$\dim C(\pmb{A}) = r$ - 左零空间
$N(\pmb{A}^{\text{T}})$ 的基:${\pmb{u}_{r+1},\cdots,\pmb{u}_m}$ ,$\dim N(\pmb{A}^{\text{T}})=m-r$
详见《机器学习数学基础》第3章3.5.3节。
|
|
---|---|
值域:$ran(\pmb{T})={\pmb{T}(\pmb{x}) | \pmb{x}\in\mathbb{V}}\subseteq\mathbb{W}$ |
核:$\ker(\pmb{T})={\pmb{x}\in\mathbb{V}+\pmb{T}(\pmb{x})=\pmb{0}}\subseteq\mathbb{V}$ | 零空间:$N(\pmb{A})={\pmb{x}\in\mathbb{R}^n |
秩:$\rank\pmb{T}=\dim R(\pmb{T})$ | 秩:$\rank\pmb{A}=\dim C(\pmb{A})$ |
零化度:$nullity\pmb{T}=\dim\ker(\pmb{T})$ | 零化度:$nullity\pmb{A}=\dim N(\pmb{A})$ |
满射:$R(\pmb{T})=\mathbb{W}$ ,即 |
满行秩:$C(\pmb{A})=\mathbb{R}^m$ ,即 |
单射:$\ker(\pmb{T})={\pmb{0}}$ ,即 |
满列秩:$N(\pmb{A})={\pmb{0}}$ ,即 |
同构:$\rank\pmb{T}=\dim\mathbb{W}=\dim\mathbb{V}$ | 满秩:$\rank\pmb{A}=m=n$ |
[1]. Gilbert Strang, The Fundamental Theorem of Linear Algebra, American Mathematical Monthly, 100, 1993, 848-855.
[2]. https://ccjou.wordpress.com/2009/03/23/線性代數基本定理-一/
[3]. https://zh.wikipedia.org/wiki/秩-零化度定理
[4]. 零空间
[5]. https://ccjou.wordpress.com/2009/05/06/線性代數基本定理-二/