引言
线性代数不仅是大学数学的重要组成部分,更是理解现代人工智能系统的核心语言。在向量空间中建模,在矩阵变换中理解结构,在特征分解中揭示本质,线代的每一个概念都与机器学习、深度学习和强化学习息息相关。
本系列笔记旨在对线性代数的基础概念、常用定理、典型方法与几何直觉进行系统梳理与逐章讲解,并融合我在人工智能学习中的理解与应用联系,为之后深入强化学习等课程打下坚实的数学基础。
在这里我也会给出一些优秀的学习资料参考,希望对大家有所帮助:
第一章 线性代数中的线性方程组
1.1 线性方程组
线性方程组是形如下式的方程:
a 1 x 1 + a 2 x 2 + . . . + a n x n = b a_1x_1+a_2x_2+...+a_nx_n=b
a 1 x 1 + a 2 x 2 + . . . + a n x n = b
其中 b b b 与系数 a i a_i a i 为实数或复数,通常是已知的,未知数 x i x_i x i 为变量。
方程组所有可能的解的集合称为线性方程组的解集 。
若两个线性方程组有相同的解集 ,则这两个线性方程组称为等价 的。
线性方程组的解有如下三种情况:
无解
有唯一解
有无穷多个解
我们称一个线性方程组是相容的 ,如果它至少有一个解。否则,称其为不相容的 。
这里还涉及到概念系数矩阵A 和增广矩阵C :
A = [ a 11 a 12 . . . a 1 n a 21 a 22 . . . a 2 n . . . . . . . . . . . . a m 1 a m 2 . . . a m n ] A=\begin{bmatrix}
a_{11} & a_{12} & ... & a_{1n} \\
a_{21} & a_{22} & ... & a_{2n} \\
... & ... & ... & ... \\
a_{m1} & a_{m2} & ... & a_{mn}
\end{bmatrix}
A = ⎣ ⎢ ⎢ ⎢ ⎡ a 1 1 a 2 1 . . . a m 1 a 1 2 a 2 2 . . . a m 2 . . . . . . . . . . . . a 1 n a 2 n . . . a m n ⎦ ⎥ ⎥ ⎥ ⎤
C = [ A B ] = [ a 11 a 12 . . . a 1 n b 1 a 21 a 22 . . . a 2 n b 2 . . . . . . . . . . . . . . . a m 1 a m 2 . . . a m n b m ] C=[A\quad B]=\begin{bmatrix}
a_{11} & a_{12} & ... & a_{1n} & b_1 \\
a_{21} & a_{22} & ... & a_{2n} & b_2 \\
... & ... & ... & ... & ... \\
a_{m1} & a_{m2} & ... & a_{mn} & b_m
\end{bmatrix}
C = [ A B ] = ⎣ ⎢ ⎢ ⎢ ⎡ a 1 1 a 2 1 . . . a m 1 a 1 2 a 2 2 . . . a m 2 . . . . . . . . . . . . a 1 n a 2 n . . . a m n b 1 b 2 . . . b m ⎦ ⎥ ⎥ ⎥ ⎤
常见的三种初等行变换:
(倍加变换)把某一行换成它本身与另一行的倍数的和;
(对调变换)交换矩阵的两行;
(倍乘变换)用一个非零常数乘某一行。
如果其中一个矩阵可以经过一系列初等行变换称为另外一个矩阵,我们称这两个矩阵是行等价 的,而且行变换是可逆的 。
如果两个线性方程组的增广矩阵 是行等价 的,那么这两个线性方程组有相同的解集 。
1.2 行化简与阶梯形矩阵
1.2.1 阶梯形与行简化阶梯形概念
我们先引入如下两个重要概念:
非零行或列 :指矩阵中至少包含一个非零元素的行或列;
非零行的先导元素 :该行中最左边的非零元素。
接下来我们引入阶梯形 ,我们称一个矩阵是阶梯形矩阵,满足以下三条性质:
每一个非零行都在零行之上;
非零行的先导元素所在列的下面元素全为零;
某一行行的先导元素所在的列位于前一行先导元素所在列的右侧。
形如下式:
[ 2 − 3 2 1 0 1 − 4 8 0 0 0 5 2 ] \left[
\begin{array}{rrrr}
2 & -3 & 2 & 1 \\
0 & 1 & -4 & 8 \\
0 & 0 & 0 & \dfrac{5}{2}
\end{array}
\right]
⎣ ⎢ ⎢ ⎡ 2 0 0 − 3 1 0 2 − 4 0 1 8 2 5 ⎦ ⎥ ⎥ ⎤
再引入行简化阶梯形 ,在满足阶梯形的基础上,满足以下两条性质:
每一非零行的先导元素为1;
每一先导元素1是该元素所在列的唯一非零元素。
形如下式:
[ 1 0 0 29 0 1 0 16 0 0 1 3 ] \left[
\begin{array}{ccc|c}
1 & 0 & 0 & 29 \\
0 & 1 & 0 & 16 \\
0 & 0 & 1 & 3
\end{array}
\right]
⎣ ⎢ ⎡ 1 0 0 0 1 0 0 0 1 2 9 1 6 3 ⎦ ⎥ ⎤
这里我们引入一条重要定理:每个矩阵行等价于唯一的简化阶梯形矩阵。
任何非零矩阵都可以进行行简化变为阶梯形矩阵,但用不同的方法可以得到不同的阶梯形矩阵 ;然而,一个矩阵只能化作唯一的行简化阶梯形矩阵 。
1.2.2 主元位置
这里我们定义如下:
主元 :非零行的先导元素1;
主元位置 :非零行的先导元素1所在位置;
主元列 :A A A 的含有主元位置的列。
1.2.3 行化简算法
算法前四步骤产生一个阶梯形矩阵,第五步产生简化阶梯形矩阵。这里我们引入一个实例说明:
[ 0 3 − 6 6 4 − 5 3 − 7 8 − 5 8 9 3 − 9 12 − 9 6 15 ] \left[
\begin{array}{rrrrrr}
0 & 3 & -6 & 6 & 4 & -5 \\
3 & -7 & 8 & -5 & 8 & 9 \\
3 & -9 & 12 & -9 & 6 & 15
\end{array}
\right]
⎣ ⎢ ⎡ 0 3 3 3 − 7 − 9 − 6 8 1 2 6 − 5 − 9 4 8 6 − 5 9 1 5 ⎦ ⎥ ⎤
第一步:由最左的非零行开始,这是一个主元列,主元位置在该列顶端。
[ 0 3 − 6 6 4 − 5 3 − 7 8 − 5 8 9 3 − 9 12 − 9 6 15 ] \left[
\begin{array}{rrrrrr}
0 & 3 & -6 & 6 & 4 & -5 \\
3 & -7 & 8 & -5 & 8 & 9 \\
3 & -9 & 12 & -9 & 6 & 15
\end{array}
\right]
⎣ ⎢ ⎡ 0 3 3 3 − 7 − 9 − 6 8 1 2 6 − 5 − 9 4 8 6 − 5 9 1 5 ⎦ ⎥ ⎤
其中第 1 列为当前主元列,因为在该列中第 2 行或第 3 行的元素为非零,适合进行行交换以选取主元。
第二步:在主元列中选取一个非零元素作为主元,若有必要的话,对换两行使这个元素移动到主元位置上。
[ 3 − 9 12 − 9 6 15 3 − 7 8 − 5 8 9 0 3 − 6 6 4 − 5 ] \left[
\begin{array}{rrrrrr}
\mathbf{3} & -9 & 12 & -9 & 6 & 15 \\
3 & -7 & 8 & -5 & 8 & 9 \\
0 & 3 & -6 & 6 & 4 & -5
\end{array}
\right]
⎣ ⎢ ⎡ 3 3 0 − 9 − 7 3 1 2 8 − 6 − 9 − 5 6 6 8 4 1 5 9 − 5 ⎦ ⎥ ⎤
其中第 1 行第 1 列的元素 3 \mathbf{3} 3 为主元(pivot)。
第三步:用倍加行变换将主元下面的元素变为0。
[ 3 − 9 12 − 9 6 15 0 2 − 4 4 2 − 6 0 3 − 6 6 4 − 5 ] \left[
\begin{array}{rrrrrr}
\mathbf{3} & -9 & 12 & -9 & 6 & 15 \\
0 & 2 & -4 & 4 & 2 & -6 \\
0 & 3 & -6 & 6 & 4 & -5
\end{array}
\right]
⎣ ⎢ ⎡ 3 0 0 − 9 2 3 1 2 − 4 − 6 − 9 4 6 6 2 4 1 5 − 6 − 5 ⎦ ⎥ ⎤
第四步:暂时不管包含主元位置的行以及它上面的各行,对剩下的子矩阵使用上述的三个步骤直到没有非零行需要处理为止。
[ 3 − 9 12 − 9 6 15 0 2 − 4 4 2 − 6 0 0 0 0 1 4 ] \left[
\begin{array}{rrrrrr}
\mathbf{3} & -9 & 12 & -9 & 6 & 15 \\
0 & 2 & -4 & 4 & 2 & -6 \\
0 & 0 & 0 & 0 & \mathbf{1} & 4
\end{array}
\right]
⎣ ⎢ ⎡ 3 0 0 − 9 2 0 1 2 − 4 0 − 9 4 0 6 2 1 1 5 − 6 4 ⎦ ⎥ ⎤
第五步:由最右边的主元开始,把每个主元上方的各元素变为0,若某个主元不是1,用倍乘变换将其变为1。
[ 1 0 − 2 3 0 − 24 0 1 − 2 2 0 − 7 0 0 0 0 1 4 ] \left[
\begin{array}{rrrrrr}
1 & 0 & -2 & 3 & 0 & -24 \\
0 & 1 & -2 & 2 & 0 & -7 \\
0 & 0 & 0 & 0 & 1 & 4
\end{array}
\right]
⎣ ⎢ ⎡ 1 0 0 0 1 0 − 2 − 2 0 3 2 0 0 0 1 − 2 4 − 7 4 ⎦ ⎥ ⎤
1.2.4 线性方程组的解
行简化算法应用于方程组的增广矩阵的时候,可以得到线性方程组解集的一种显示表示法 。
我们先引入基本变量 和自由变量 的概念:
基本变量 :对应于主元列的变量;
自由变量 :对应于非主元列的变量。
这里我们如下示例:
[ 1 0 − 5 1 0 1 1 4 0 0 0 0 ] \left[
\begin{array}{rrrr}
1 & 0 & -5 & 1 \\
0 & 1 & 1 & 4 \\
0 & 0 & 0 & 0
\end{array}
\right]
⎣ ⎢ ⎡ 1 0 0 0 1 0 − 5 1 0 1 4 0 ⎦ ⎥ ⎤
这里我们转换为方程组来表示为:
x 1 − 5 x 3 = 1 x 2 + x 3 = 4 \begin{aligned}
x_1-5x_3&=1 \\
x_2+x_3&=4
\end{aligned}
x 1 − 5 x 3 x 2 + x 3 = 1 = 4
这里 x 1 x_1 x 1 和 x 2 x_2 x 2 为基本变量 ,x 3 x_3 x 3 为自由变量 。
只要一个线性方程组是相容的 ,其解集就可以显示表示,可以如下形式表示通解 :
{ x 1 = 1 + 5 x 3 x 2 = 4 − x 3 x 3 是自由变量 \left\{
\begin{aligned}
x_1 &= 1 + 5x_3 \\
x_2 &= 4 - x_3 \\
x_3 &\text{ 是自由变量}
\end{aligned}
\right.
⎩ ⎪ ⎪ ⎨ ⎪ ⎪ ⎧ x 1 x 2 x 3 = 1 + 5 x 3 = 4 − x 3 是自由变量
1.2.5 解集的参数表示
如式子 (1.14) 形式就是解集的参数表示,其中自由变量作为参数 。解方程组就是要求出解集的这种参数表示或确定它无解。
当方程组不相容 的时候,无论是否有自由变量 ,解集都是空集。
1.2.6 存在性与唯一性问题
线性方程组相容的充分必要条件 是增广矩阵的最右列不是主元列 ,也就是说,增广矩阵的阶梯形没有形如:
[ 0 ⋯ 0 b ] , b ≠ 0 [0 \quad \cdots \quad 0 \quad b],b\neq 0
[ 0 ⋯ 0 b ] , b = 0
的行。若线性方程组是相容的 ,则它的解集有如下两种情况:
当没有自由变量的时候,有唯一解;
当有自由变量的时候,有无穷多解。
以下是求解线性方程组的步骤:
写出方程组的增广矩阵;
用行化简法将增广矩阵化为阶梯形,确定方程组是否相容,如果没有解就停止;否则进行下一步;
继续行化简算法得到它的简化阶梯形;
写出由第 3 步所得矩阵对应的方程组;
把第 4 步所得的每个非零方程改写为用任意自由变量表示其基本变量的形式。
1.3 向量方程
1.3.1 向量的基本概念
在线性代数中,向量是一个有序数组,可以表示为:
v = [ v 1 v 2 ⋮ v n ] \mathbf{v} = \begin{bmatrix} v_1 \\ v_2 \\ \vdots \\ v_n \end{bmatrix}
v = ⎣ ⎢ ⎢ ⎢ ⎢ ⎡ v 1 v 2 ⋮ v n ⎦ ⎥ ⎥ ⎥ ⎥ ⎤
其中 v 1 , v 2 , … , v n v_1, v_2, \ldots, v_n v 1 , v 2 , … , v n 是向量 v \mathbf{v} v 的分量。在 R n \mathbb{R}^n R n 中,向量有 n n n 个分量。
这里解释一下 R n \mathbb{R}^n R n 的含义:表示 n n n 维实数空间,其中的向量有 n n n 个分量,每个分量都是实数 。
所有元素都是零的向量称为零向量 ,记为 0 \mathbf{0} 0 。
1.3.2 向量的运算
向量加法 :两个向量相加,对应分量相加。
u + v = [ u 1 u 2 ⋮ u n ] + [ v 1 v 2 ⋮ v n ] = [ u 1 + v 1 u 2 + v 2 ⋮ u n + v n ] \mathbf{u} + \mathbf{v} = \begin{bmatrix} u_1 \\ u_2 \\ \vdots \\ u_n \end{bmatrix} + \begin{bmatrix} v_1 \\ v_2 \\ \vdots \\ v_n \end{bmatrix} = \begin{bmatrix} u_1 + v_1 \\ u_2 + v_2 \\ \vdots \\ u_n + v_n \end{bmatrix}
u + v = ⎣ ⎢ ⎢ ⎢ ⎢ ⎡ u 1 u 2 ⋮ u n ⎦ ⎥ ⎥ ⎥ ⎥ ⎤ + ⎣ ⎢ ⎢ ⎢ ⎢ ⎡ v 1 v 2 ⋮ v n ⎦ ⎥ ⎥ ⎥ ⎥ ⎤ = ⎣ ⎢ ⎢ ⎢ ⎢ ⎡ u 1 + v 1 u 2 + v 2 ⋮ u n + v n ⎦ ⎥ ⎥ ⎥ ⎥ ⎤
标量乘法 :向量乘以标量,每个分量都乘以该标量。
c v = c [ v 1 v 2 ⋮ v n ] = [ c v 1 c v 2 ⋮ c v n ] c\mathbf{v} = c\begin{bmatrix} v_1 \\ v_2 \\ \vdots \\ v_n \end{bmatrix} = \begin{bmatrix} cv_1 \\ cv_2 \\ \vdots \\ cv_n \end{bmatrix}
c v = c ⎣ ⎢ ⎢ ⎢ ⎢ ⎡ v 1 v 2 ⋮ v n ⎦ ⎥ ⎥ ⎥ ⎥ ⎤ = ⎣ ⎢ ⎢ ⎢ ⎢ ⎡ c v 1 c v 2 ⋮ c v n ⎦ ⎥ ⎥ ⎥ ⎥ ⎤
向量加法满足以下性质:
交换律:u + v = v + u \mathbf{u} + \mathbf{v} = \mathbf{v} + \mathbf{u} u + v = v + u
结合律:( u + v ) + w = u + ( v + w ) (\mathbf{u} + \mathbf{v}) + \mathbf{w} = \mathbf{u} + (\mathbf{v} + \mathbf{w}) ( u + v ) + w = u + ( v + w )
标量乘法满足以下性质:
c ( d v ) = ( c d ) v c(d\mathbf{v}) = (cd)\mathbf{v} c ( d v ) = ( c d ) v
( c + d ) v = c v + d v (c+d)\mathbf{v} = c\mathbf{v} + d\mathbf{v} ( c + d ) v = c v + d v
c ( u + v ) = c u + c v c(\mathbf{u} + \mathbf{v}) = c\mathbf{u} + c\mathbf{v} c ( u + v ) = c u + c v
1.3.3 线性组合
给定向量 v 1 , v 2 , … , v p \mathbf{v}_1, \mathbf{v}_2, \ldots, \mathbf{v}_p v 1 , v 2 , … , v p 和标量 c 1 , c 2 , … , c p c_1, c_2, \ldots, c_p c 1 , c 2 , … , c p ,表达式
c 1 v 1 + c 2 v 2 + ⋯ + c p v p c_1\mathbf{v}_1 + c_2\mathbf{v}_2 + \cdots + c_p\mathbf{v}_p
c 1 v 1 + c 2 v 2 + ⋯ + c p v p
称为向量 v 1 , v 2 , … , v p \mathbf{v}_1, \mathbf{v}_2, \ldots, \mathbf{v}_p v 1 , v 2 , … , v p 的线性组合 ,其中 c 1 , c 2 , … , c p c_1, c_2, \ldots, c_p c 1 , c 2 , … , c p 为权重 或系数 。
这里我们引入一道例题来分析存在性问题:
例题
设
a 1 = [ 1 − 2 − 5 ] , a 2 = [ 2 5 6 ] , b = [ 7 4 − 3 ] a_1 = \begin{bmatrix} 1 \\ -2 \\ -5 \end{bmatrix}, \quad
a_2 = \begin{bmatrix} 2 \\ 5 \\ 6 \end{bmatrix}, \quad
b = \begin{bmatrix} 7 \\ 4 \\ -3 \end{bmatrix}
a 1 = ⎣ ⎢ ⎡ 1 − 2 − 5 ⎦ ⎥ ⎤ , a 2 = ⎣ ⎢ ⎡ 2 5 6 ⎦ ⎥ ⎤ , b = ⎣ ⎢ ⎡ 7 4 − 3 ⎦ ⎥ ⎤
确定 b b b 是否能写成 a 1 \mathbf{a_1} a 1 和 a 2 \mathbf{a_2} a 2 的线性组合,也就是说,确定是否存在权 x 1 x_1 x 1 和 x 2 x_2 x 2 ,使得
x 1 a 1 + x 2 a 2 = b x_1 \mathbf{a_1} + x_2 \mathbf{a_2} = b
x 1 a 1 + x 2 a 2 = b
若向量方程有解,求它的解。
解:
首先我们将向量方程写成线性方程组的形式:
x 1 + 2 x 2 = 7 − 2 x 1 + 5 x 2 = 4 − 5 x 1 + 6 x 2 = − 3 \begin{aligned}
x_1 + 2x_2 &= 7 \\
-2x_1 + 5x_2 &= 4 \\
-5x_1 + 6x_2 &= -3
\end{aligned}
x 1 + 2 x 2 − 2 x 1 + 5 x 2 − 5 x 1 + 6 x 2 = 7 = 4 = − 3
然后写出对应的增广矩阵:
[ 1 2 7 − 2 5 4 − 5 6 − 3 ] \begin{bmatrix}
1 & 2 & 7 \\
-2 & 5 & 4 \\
-5 & 6 & -3
\end{bmatrix}
⎣ ⎢ ⎡ 1 − 2 − 5 2 5 6 7 4 − 3 ⎦ ⎥ ⎤
我们使用行简化算法将其化为简化阶梯形:
[ 1 0 3 0 1 2 0 0 0 ] \begin{bmatrix}
1 & 0 & 3 \\
0 & 1 & 2 \\
0 & 0 & 0
\end{bmatrix}
⎣ ⎢ ⎡ 1 0 0 0 1 0 3 2 0 ⎦ ⎥ ⎤
这里说明有唯一解为:
x 1 = 3 , x 2 = 2 x_1 = 3, \quad x_2 = 2
x 1 = 3 , x 2 = 2
因此我们可以得出以下结论:
向量方程
x 1 a 1 + x 2 a 2 + ⋯ + x n a n = b x_1\mathbf{a}_1 + x_2\mathbf{a}_2 + \cdots + x_n\mathbf{a}_n = \mathbf{b}
x 1 a 1 + x 2 a 2 + ⋯ + x n a n = b
和增广矩阵为
[ a 1 a 2 ⋯ a n b ] \begin{bmatrix}
\mathbf{a}_1 & \mathbf{a}_2 & \cdots & \mathbf{a}_n & \mathbf{b}
\end{bmatrix}
[ a 1 a 2 ⋯ a n b ]
的线性方程组有相同的解集。特别地,b \mathbf{b} b 可以表示为 a 1 , a 2 , … , a n \mathbf{a}_1, \mathbf{a}_2, \ldots, \mathbf{a}_n a 1 , a 2 , … , a n 的线性组合且当且仅当对应于上式的线性方程组有解。
1.3.4 张成空间
给定向量 v 1 , v 2 , … , v p \mathbf{v}_1, \mathbf{v}_2, \ldots, \mathbf{v}_p v 1 , v 2 , … , v p ,所有这些向量的线性组合的集合 称为由 v 1 , v 2 , … , v p \mathbf{v}_1, \mathbf{v}_2, \ldots, \mathbf{v}_p v 1 , v 2 , … , v p 张成 的张成空间 ,记作 Span { v 1 , v 2 , … , v p } \text{Span}\{\mathbf{v}_1, \mathbf{v}_2, \ldots, \mathbf{v}_p\} Span { v 1 , v 2 , … , v p } 。也就是说,Span { v 1 , v 2 , … , v p } \text{Span}\{\mathbf{v}_1, \mathbf{v}_2, \ldots, \mathbf{v}_p\} Span { v 1 , v 2 , … , v p } 是所有形如
c 1 v 1 + c 2 v 2 + ⋯ + c p v p c_1\mathbf{v}_1 + c_2\mathbf{v}_2 + \cdots + c_p\mathbf{v}_p
c 1 v 1 + c 2 v 2 + ⋯ + c p v p
的向量的集合,其中 c 1 , c 2 , … , c p c_1, c_2, \ldots, c_p c 1 , c 2 , … , c p 为标量。
要判断向量 b \mathbf{b} b 是否在张成空间 Span { v 1 , v 2 , … , v p } \text{Span}\{\mathbf{v}_1, \mathbf{v}_2, \ldots, \mathbf{v}_p\} Span { v 1 , v 2 , … , v p } 中,只需要判断向量方程
x 1 v 1 + x 2 v 2 + ⋯ + x p v p = b x_1\mathbf{v}_1 + x_2\mathbf{v}_2 + \cdots + x_p\mathbf{v}_p = \mathbf{b}
x 1 v 1 + x 2 v 2 + ⋯ + x p v p = b
是否有解即可,或者等价地,我们判断增广矩阵 为
[ v 1 v 2 ⋯ v p b ] \begin{bmatrix}
\mathbf{v}_1 & \mathbf{v}_2 & \cdots & \mathbf{v}_p & \mathbf{b}
\end{bmatrix}
[ v 1 v 2 ⋯ v p b ]
的线性方程组是否有解 即可。
注意:Span { v 1 , v 2 , … , v p } \text{Span}\{\mathbf{v}_1, \mathbf{v}_2, \ldots, \mathbf{v}_p\} Span { v 1 , v 2 , … , v p } 包含了 v i \mathbf{v_i} v i 的所有倍数,因为
c i v i = c i v i + 0 v 1 + ⋯ + 0 v i − 1 + 0 v i + 1 + ⋯ + 0 v p c_i\mathbf{v_i}=c_i\mathbf{v_i} + 0\mathbf{v_1} + \cdots + 0\mathbf{v_{i-1}} + 0\mathbf{v_{i+1}} + \cdots + 0\mathbf{v_p}
c i v i = c i v i + 0 v 1 + ⋯ + 0 v i − 1 + 0 v i + 1 + ⋯ + 0 v p
特别地,一定包含零向量 。
这里我们还给出Span { v } \text{Span}\{\mathbf{v}\} Span { v } 和Span { u , v } \text{Span}\{\mathbf{u,v}\} Span { u , v } 的几何解释:
设v \mathbf{v} v 是R 3 \mathbb{R}^3 R 3 中的一个非零向量,则Span { v } \text{Span}\{\mathbf{v}\} Span { v } 是通过原点和v \mathbf{v} v 的直线上所有点的集合,如下图所示:
设u \mathbf{u} u 和v \mathbf{v} v 是R 3 \mathbb{R}^3 R 3 中的两个不共线的非零向量,则Span { u , v } \text{Span}\{\mathbf{u,v}\} Span { u , v } 是通过原点、u \mathbf{u} u 和v \mathbf{v} v 的平面上所有点的集合,如下图所示:
例题
设 a 1 = [ 1 − 2 3 ] \mathbf{a}_1=\begin{bmatrix}1\\-2\\3\end{bmatrix} a 1 = ⎣ ⎢ ⎡ 1 − 2 3 ⎦ ⎥ ⎤ ,a 2 = [ 5 − 13 − 3 ] \mathbf{a}_2=\begin{bmatrix}5\\-13\\-3\end{bmatrix} a 2 = ⎣ ⎢ ⎡ 5 − 1 3 − 3 ⎦ ⎥ ⎤ ,b = [ − 3 8 1 ] \mathbf{b}=\begin{bmatrix}-3\\8\\1\end{bmatrix} b = ⎣ ⎢ ⎡ − 3 8 1 ⎦ ⎥ ⎤ ,则 Span { a 1 , a 2 } \operatorname{Span}\left\{\mathbf{a}_1,\mathbf{a}_2\right\} S p a n { a 1 , a 2 } 是 R 3 \mathbb{R}^{3} R 3 中通过原点的一个平面,问 b \mathbf{b} b 是否在该平面上?
解:
我们判断向量方程
x 1 a 1 + x 2 a 2 = b x_1\mathbf{a}_1 + x_2\mathbf{a}_2 = \mathbf{b}
x 1 a 1 + x 2 a 2 = b
是否有解即可,或者等价地,我们判断增广矩阵为
[ a 1 a 2 b ] \begin{bmatrix}
\mathbf{a}_1 & \mathbf{a}_2 & \mathbf{b}
\end{bmatrix}
[ a 1 a 2 b ]
的线性方程组是否有解即可。
这里我们代入增广矩阵并进行化简:
[ 1 5 − 3 − 2 − 13 8 3 − 3 1 ] \begin{bmatrix}
1 & 5 & -3 \\
-2 & -13 & 8 \\
3 & -3 & 1
\end{bmatrix}
⎣ ⎢ ⎡ 1 − 2 3 5 − 1 3 − 3 − 3 8 1 ⎦ ⎥ ⎤
化简为阶梯形如下:
[ 1 5 − 3 0 − 3 2 0 0 − 2 ] \begin{bmatrix}
1 & 5 & -3 \\
0 & -3 & 2 \\
0 & 0 & -2
\end{bmatrix}
⎣ ⎢ ⎡ 1 0 0 5 − 3 0 − 3 2 − 2 ⎦ ⎥ ⎤
明显看出向量方程无解,因此 b \mathbf{b} b 不在 Span { a 1 , a 2 } \operatorname{Span}\left\{\mathbf{a}_1,\mathbf{a}_2\right\} S p a n { a 1 , a 2 } 中。
1.3.5 向量方程与线性方程组的等价性
考虑向量方程:
x 1 a 1 + x 2 a 2 + ⋯ + x n a n = b x_1\mathbf{a}_1 + x_2\mathbf{a}_2 + \cdots + x_n\mathbf{a}_n = \mathbf{b}
x 1 a 1 + x 2 a 2 + ⋯ + x n a n = b
其中 a 1 , a 2 , … , a n \mathbf{a}_1, \mathbf{a}_2, \ldots, \mathbf{a}_n a 1 , a 2 , … , a n 和 b \mathbf{b} b 是 R m \mathbb{R}^m R m 中的向量,x 1 , x 2 , … , x n x_1, x_2, \ldots, x_n x 1 , x 2 , … , x n 是未知数。
这个向量方程等价于一个 m × n m \times n m × n 的线性方程组。如果我们将向量 a j \mathbf{a}_j a j 表示为:
a j = [ a 1 j a 2 j ⋮ a m j ] \mathbf{a}_j = \begin{bmatrix} a_{1j} \\ a_{2j} \\ \vdots \\ a_{mj} \end{bmatrix}
a j = ⎣ ⎢ ⎢ ⎢ ⎢ ⎡ a 1 j a 2 j ⋮ a m j ⎦ ⎥ ⎥ ⎥ ⎥ ⎤
那么向量方程可以写成:
x 1 [ a 11 a 21 ⋮ a m 1 ] + x 2 [ a 12 a 22 ⋮ a m 2 ] + ⋯ + x n [ a 1 n a 2 n ⋮ a m n ] = [ b 1 b 2 ⋮ b m ] x_1\begin{bmatrix} a_{11} \\ a_{21} \\ \vdots \\ a_{m1} \end{bmatrix} + x_2\begin{bmatrix} a_{12} \\ a_{22} \\ \vdots \\ a_{m2} \end{bmatrix} + \cdots + x_n\begin{bmatrix} a_{1n} \\ a_{2n} \\ \vdots \\ a_{mn} \end{bmatrix} = \begin{bmatrix} b_1 \\ b_2 \\ \vdots \\ b_m \end{bmatrix}
x 1 ⎣ ⎢ ⎢ ⎢ ⎢ ⎡ a 1 1 a 2 1 ⋮ a m 1 ⎦ ⎥ ⎥ ⎥ ⎥ ⎤ + x 2 ⎣ ⎢ ⎢ ⎢ ⎢ ⎡ a 1 2 a 2 2 ⋮ a m 2 ⎦ ⎥ ⎥ ⎥ ⎥ ⎤ + ⋯ + x n ⎣ ⎢ ⎢ ⎢ ⎢ ⎡ a 1 n a 2 n ⋮ a m n ⎦ ⎥ ⎥ ⎥ ⎥ ⎤ = ⎣ ⎢ ⎢ ⎢ ⎢ ⎡ b 1 b 2 ⋮ b m ⎦ ⎥ ⎥ ⎥ ⎥ ⎤
这等价于线性方程组:
a 11 x 1 + a 12 x 2 + ⋯ + a 1 n x n = b 1 a 21 x 1 + a 22 x 2 + ⋯ + a 2 n x n = b 2 ⋮ a m 1 x 1 + a m 2 x 2 + ⋯ + a m n x n = b m \begin{aligned}
a_{11}x_1 + a_{12}x_2 + \cdots + a_{1n}x_n &= b_1 \\
a_{21}x_1 + a_{22}x_2 + \cdots + a_{2n}x_n &= b_2 \\
\vdots \\
a_{m1}x_1 + a_{m2}x_2 + \cdots + a_{mn}x_n &= b_m
\end{aligned} a 1 1 x 1 + a 1 2 x 2 + ⋯ + a 1 n x n a 2 1 x 1 + a 2 2 x 2 + ⋯ + a 2 n x n ⋮ a m 1 x 1 + a m 2 x 2 + ⋯ + a m n x n = b 1 = b 2 = b m
1.3.6 向量方程的几何解释
向量方程 x 1 a 1 + x 2 a 2 + ⋯ + x n a n = b x_1\mathbf{a}_1 + x_2\mathbf{a}_2 + \cdots + x_n\mathbf{a}_n = \mathbf{b} x 1 a 1 + x 2 a 2 + ⋯ + x n a n = b 有解的充分必要条件是 b \mathbf{b} b 可以表示为 a 1 , a 2 , … , a n \mathbf{a}_1, \mathbf{a}_2, \ldots, \mathbf{a}_n a 1 , a 2 , … , a n 的线性组合,即 b \mathbf{b} b 在由 a 1 , a 2 , … , a n \mathbf{a}_1, \mathbf{a}_2, \ldots, \mathbf{a}_n a 1 , a 2 , … , a n 张成的向量空间中。
从几何角度看:
在 R 2 \mathbb{R}^2 R 2 中,两个不共线的向量可以张成整个平面
在 R 3 \mathbb{R}^3 R 3 中,三个不共面的向量可以张成整个空间
1.3.7 齐次向量方程
当 b = 0 \mathbf{b} = \mathbf{0} b = 0 时,向量方程 x 1 a 1 + x 2 a 2 + ⋯ + x n a n = 0 x_1\mathbf{a}_1 + x_2\mathbf{a}_2 + \cdots + x_n\mathbf{a}_n = \mathbf{0} x 1 a 1 + x 2 a 2 + ⋯ + x n a n = 0 称为齐次向量方程 。
齐次向量方程总是有平凡解 x 1 = x 2 = ⋯ = x n = 0 x_1 = x_2 = \cdots = x_n = 0 x 1 = x 2 = ⋯ = x n = 0 。如果存在非零解,则称向量 a 1 , a 2 , … , a n \mathbf{a}_1, \mathbf{a}_2, \ldots, \mathbf{a}_n a 1 , a 2 , … , a n 是线性相关 的;否则,称它们是线性无关 的。
1.4 矩阵方程 Ax=b
1.4.1 向量方程和矩阵方程
定义:
设 A A A 是一个 m × n m \times n m × n 矩阵,它的各列为 a 1 , a 2 , … , a n \mathbf{a}_1, \mathbf{a}_2, \ldots, \mathbf{a}_n a 1 , a 2 , … , a n ,则 A A A 与 x \mathbf{x} x 的积(记为 A x A\mathbf{x} A x )就是 A A A 的各列以 x \mathbf{x} x 中对应元素为权的线性组合,即
A x = [ a 1 a 2 ⋯ a n ] [ x 1 x 2 ⋮ x n ] = x 1 a 1 + x 2 a 2 + ⋯ + x n a n A\mathbf{x} =
\begin{bmatrix}
\mathbf{a}_1 & \mathbf{a}_2 & \cdots & \mathbf{a}_n
\end{bmatrix}
\begin{bmatrix}
x_1 \\
x_2 \\
\vdots \\
x_n
\end{bmatrix} = x_1\mathbf{a}_1 + x_2\mathbf{a}_2 + \cdots + x_n\mathbf{a}_n
A x = [ a 1 a 2 ⋯ a n ] ⎣ ⎢ ⎢ ⎢ ⎢ ⎡ x 1 x 2 ⋮ x n ⎦ ⎥ ⎥ ⎥ ⎥ ⎤ = x 1 a 1 + x 2 a 2 + ⋯ + x n a n
注意这里 A x A\mathbf{x} A x 当且仅当 A A A 的列数等于 x \mathbf{x} x 的行数时才有定义。
形式如 x 1 a 1 + x 2 a 2 + ⋯ + x n a n = b x_1\mathbf{a}_1 + x_2\mathbf{a}_2 + \cdots + x_n\mathbf{a}_n = \mathbf{b} x 1 a 1 + x 2 a 2 + ⋯ + x n a n = b 的方程我们称为向量方程 。
形式如 A x = b A\mathbf{x}=\mathbf{b} A x = b 的方程我们称为矩阵方程 。’
定理1:
若 A A A 是 m × n m \times n m × n 矩阵,它的各列为 a 1 , ⋯ , a n \boldsymbol{a}_{1}, \cdots, \boldsymbol{a}_{n} a 1 , ⋯ , a n ,而 b \boldsymbol{b} b 属于 R m \mathbb{R}^{m} R m ,则矩阵方程
A x = b A\boldsymbol{x} = \boldsymbol{b}
A x = b
与向量方程
x 1 a 1 + x 2 a 2 + ⋯ + x n a n = b x_{1}\boldsymbol{a}_{1} + x_{2}\boldsymbol{a}_{2} + \cdots + x_{n}\boldsymbol{a}_{n} = \boldsymbol{b}
x 1 a 1 + x 2 a 2 + ⋯ + x n a n = b
有相同的解集。它又与增广矩阵 为
[ a 1 a 2 ⋯ a n b ] \left[\begin{array}{llll}
\boldsymbol{a}_{1} & \boldsymbol{a}_{2} & \cdots & \boldsymbol{a}_{n} & \boldsymbol{b}
\end{array}\right] [ a 1 a 2 ⋯ a n b ]
的线性方程组 有相同的解集。
1.4.2 解的存在性
方程 A x = b A\mathbf{x}=\mathbf{b} A x = b 有解当且仅当 b \mathbf{b} b 可以表示为 A A A 的各列的线性组合。
定理2:
设 A A A 是 m × n m \times n m × n 矩阵,则下列命题是逻辑上等价的(即对某个 A A A ,它们都成立或都不成立):
对 R m \mathbb{R}^{m} R m 中每个 b \boldsymbol{b} b ,方程 A x = b A\boldsymbol{x} = \boldsymbol{b} A x = b 有解。
R m \mathbb{R}^{m} R m 中的每个 b \boldsymbol{b} b 都是 A A A 的列的一个线性组合。
A A A 的各列生成 R m \mathbb{R}^{m} R m 。
A A A 在每一行都有一个主元位置。
注意:这里讨论的是系数矩阵而非增广矩阵 。如果是对应增广矩阵,如果每一行都有一个主元位置,并不一定有解。
1.4.3 Ax 的计算
若乘积 A x A\mathbf{x} A x 有定义,则 A x A\mathbf{x} A x 的第 i i i 个分量是矩阵 A A A 的第 i i i 行与列向量 x \mathbf{x} x 的点积。
这里需要注意,如果 A = I A=I A = I ,即为单位阵,这时候 A x = x A\mathbf{x} = \mathbf{x} A x = x 。
1.4.4 矩阵-向量积 Ax 的性质
设 A A A 是 m × n m \times n m × n 矩阵,u \mathbf{u} u 和 v \mathbf{v} v 是 n n n 维向量,c c c 是标量,则
A ( u + v ) = A u + A v A ( c u ) = c A u A(\mathbf{u} + \mathbf{v}) = A\mathbf{u} + A\mathbf{v} \\
A(c\mathbf{u}) = cA\mathbf{u}
A ( u + v ) = A u + A v A ( c u ) = c A u
1.5 线性方程组的解集
1.5.1 齐次线性方程组
齐次线性方程组 是形如 A x = 0 A\mathbf{x} = \mathbf{0} A x = 0 的方程组,其中 A A A 是一个 m × n m \times n m × n 矩阵,x \mathbf{x} x 是 n n n 维向量,0 \mathbf{0} 0 是 R m \mathbb{R}^m R m 中的零向量。
齐次线性方程组的一个重要性质是它总是有解 ,至少有零解 (或称为平凡解 )x = 0 \mathbf{x} = \mathbf{0} x = 0 。
定理3: 齐次线性方程组 A x = 0 A\mathbf{x} = \mathbf{0} A x = 0 有非平凡解的充分必要条件是方程组中的自由变量至少有一个 ,或等价地,A A A 的列数大于行秩 (即 n > r n > r n > r ,其中 r r r 是 A A A 的秩)。
注意:非平凡解向量 x \mathbf{x} x 可能会有一些零元素,但只要不是全为零,就称为非平凡解。
强调:齐次方程 A x = 0 A\mathbf{x} = \mathbf{0} A x = 0 总可以表示为张成空间的形式,即
Nul ( A ) = span { v 1 , v 2 , … , v p } \text{Nul}(A) = \text{span}\{\mathbf{v}_1, \mathbf{v}_2, \ldots, \mathbf{v}_p\}
Nul ( A ) = span { v 1 , v 2 , … , v p }
这里 v 1 , v 2 , … , v p \mathbf{v}_1, \mathbf{v}_2, \ldots, \mathbf{v}_p v 1 , v 2 , … , v p 是 A x = 0 A\mathbf{x} = \mathbf{0} A x = 0 的一组基,p p p 是 A A A 的零空间的维度,也称为 A A A 的零度 (nullity),满足 p = n − r p = n - r p = n − r ,其中 n n n 是 A A A 的列数,r r r 是 A A A 的行秩。
齐次方程通解的参数向量形式 为:
x = c 1 v 1 + c 2 v 2 + ⋯ + c p v p \mathbf{x} = c_1\mathbf{v}_1 + c_2\mathbf{v}_2 + \cdots + c_p\mathbf{v}_p
x = c 1 v 1 + c 2 v 2 + ⋯ + c p v p
其中 c 1 , c 2 , … , c p c_1, c_2, \ldots, c_p c 1 , c 2 , … , c p 是任意常数。
1.5.2 非齐次线性方程组
非齐次线性方程组 是形如 A x = b A\mathbf{x} = \mathbf{b} A x = b 的方程组,其中 b ≠ 0 \mathbf{b} \neq \mathbf{0} b = 0 。
非齐次线性方程组的解集可以表示为:
{ p + v : v ∈ Nul ( A ) } \{\mathbf{p} + \mathbf{v} : \mathbf{v} \in \text{Nul}(A)\}
{ p + v : v ∈ Nul ( A ) }
其中 p \mathbf{p} p 是非齐次方程组的一个特解,Nul ( A ) \text{Nul}(A) Nul ( A ) 是对应齐次方程组 A x = 0 A\mathbf{x} = \mathbf{0} A x = 0 的解集,也称为 A A A 的零空间 。
定理4: 如果 p \mathbf{p} p 是非齐次线性方程组 A x = b A\mathbf{x} = \mathbf{b} A x = b 的一个特解,而 v 1 , v 2 , … , v p \mathbf{v}_1, \mathbf{v}_2, \ldots, \mathbf{v}_p v 1 , v 2 , … , v p 构成对应齐次方程组 A x = 0 A\mathbf{x} = \mathbf{0} A x = 0 解空间的一组基,则 A x = b A\mathbf{x} = \mathbf{b} A x = b 的通解可以表示为:
x = p + c 1 v 1 + c 2 v 2 + ⋯ + c p v p \mathbf{x} = \mathbf{p} + c_1\mathbf{v}_1 + c_2\mathbf{v}_2 + \cdots + c_p\mathbf{v}_p
x = p + c 1 v 1 + c 2 v 2 + ⋯ + c p v p
其中 c 1 , c 2 , … , c p c_1, c_2, \ldots, c_p c 1 , c 2 , … , c p 是任意常数。
1.5.3 解集的参数表示
线性方程组的解集可以用参数表示。对于齐次线性方程组,解集可以表示为:
x = c 1 v 1 + c 2 v 2 + ⋯ + c p v p \mathbf{x} = c_1\mathbf{v}_1 + c_2\mathbf{v}_2 + \cdots + c_p\mathbf{v}_p
x = c 1 v 1 + c 2 v 2 + ⋯ + c p v p
其中 v 1 , v 2 , … , v p \mathbf{v}_1, \mathbf{v}_2, \ldots, \mathbf{v}_p v 1 , v 2 , … , v p 是零空间的一组基,c 1 , c 2 , … , c p c_1, c_2, \ldots, c_p c 1 , c 2 , … , c p 是任意常数。
对于非齐次线性方程组,解集可以表示为:
x = p + c 1 v 1 + c 2 v 2 + ⋯ + c p v p \mathbf{x} = \mathbf{p} + c_1\mathbf{v}_1 + c_2\mathbf{v}_2 + \cdots + c_p\mathbf{v}_p
x = p + c 1 v 1 + c 2 v 2 + ⋯ + c p v p
其中 p \mathbf{p} p 是一个特解。
1.5.4 解集的几何解释
线性方程组的解集在几何上有直观的解释:
1.5.5 例题
例题1: 求解线性方程组
x 1 − 2 x 2 + x 3 = 4 2 x 1 − 5 x 2 + 2 x 3 = 7 x 1 − 4 x 2 + 3 x 3 = 10 \begin{aligned}
x_1 - 2x_2 + x_3 &= 4 \\
2x_1 - 5x_2 + 2x_3 &= 7 \\
x_1 - 4x_2 + 3x_3 &= 10
\end{aligned} x 1 − 2 x 2 + x 3 2 x 1 − 5 x 2 + 2 x 3 x 1 − 4 x 2 + 3 x 3 = 4 = 7 = 1 0
解: 首先写出增广矩阵并进行行简化:
[ 1 − 2 1 4 2 − 5 2 7 1 − 4 3 10 ] \begin{bmatrix}
1 & -2 & 1 & 4 \\
2 & -5 & 2 & 7 \\
1 & -4 & 3 & 10
\end{bmatrix} ⎣ ⎢ ⎡ 1 2 1 − 2 − 5 − 4 1 2 3 4 7 1 0 ⎦ ⎥ ⎤
通过行变换将其化为简化阶梯形:
[ 1 − 2 1 4 0 − 1 0 − 1 0 0 1 3 ] \begin{bmatrix}
1 & -2 & 1 & 4 \\
0 & -1 & 0 & -1 \\
0 & 0 & 1 & 3
\end{bmatrix} ⎣ ⎢ ⎡ 1 0 0 − 2 − 1 0 1 0 1 4 − 1 3 ⎦ ⎥ ⎤
从简化阶梯形可以得到:
x 1 − 2 x 2 + x 3 = 4 − x 2 = − 1 x 3 = 3 \begin{aligned}
x_1 - 2x_2 + x_3 &= 4 \\
-x_2 &= -1 \\
x_3 &= 3
\end{aligned} x 1 − 2 x 2 + x 3 − x 2 x 3 = 4 = − 1 = 3
解得:x 2 = 1 x_2 = 1 x 2 = 1 ,x 3 = 3 x_3 = 3 x 3 = 3 ,代入第一个方程得 x 1 − 2 ⋅ 1 + 3 = 4 x_1 - 2 \cdot 1 + 3 = 4 x 1 − 2 ⋅ 1 + 3 = 4 ,即 x 1 = 3 x_1 = 3 x 1 = 3 。
因此,方程组的唯一解为 x 1 = 3 x_1 = 3 x 1 = 3 ,x 2 = 1 x_2 = 1 x 2 = 1 ,x 3 = 3 x_3 = 3 x 3 = 3 ,或写成向量形式 x = [ 3 1 3 ] \mathbf{x} = \begin{bmatrix} 3 \\ 1 \\ 3 \end{bmatrix} x = ⎣ ⎢ ⎡ 3 1 3 ⎦ ⎥ ⎤ 。
例题2: 求解齐次线性方程组
x 1 − 3 x 2 + x 3 = 0 2 x 1 − 6 x 2 + 2 x 3 = 0 − x 1 + 3 x 2 − x 3 = 0 \begin{aligned}
x_1 - 3x_2 + x_3 &= 0 \\
2x_1 - 6x_2 + 2x_3 &= 0 \\
-x_1 + 3x_2 - x_3 &= 0
\end{aligned} x 1 − 3 x 2 + x 3 2 x 1 − 6 x 2 + 2 x 3 − x 1 + 3 x 2 − x 3 = 0 = 0 = 0
解: 首先写出增广矩阵并进行行简化:
[ 1 − 3 1 0 2 − 6 2 0 − 1 3 − 1 0 ] \begin{bmatrix}
1 & -3 & 1 & 0 \\
2 & -6 & 2 & 0 \\
-1 & 3 & -1 & 0
\end{bmatrix} ⎣ ⎢ ⎡ 1 2 − 1 − 3 − 6 3 1 2 − 1 0 0 0 ⎦ ⎥ ⎤
通过行变换将其化为简化阶梯形:
[ 1 − 3 1 0 0 0 0 0 0 0 0 0 ] \begin{bmatrix}
1 & -3 & 1 & 0 \\
0 & 0 & 0 & 0 \\
0 & 0 & 0 & 0
\end{bmatrix} ⎣ ⎢ ⎡ 1 0 0 − 3 0 0 1 0 0 0 0 0 ⎦ ⎥ ⎤
从简化阶梯形可以得到:
x 1 − 3 x 2 + x 3 = 0 x_1 - 3x_2 + x_3 = 0
x 1 − 3 x 2 + x 3 = 0
这里 x 2 x_2 x 2 和 x 3 x_3 x 3 是自由变量,可以任意取值。令 x 2 = s x_2 = s x 2 = s 和 x 3 = t x_3 = t x 3 = t ,则 x 1 = 3 s − t x_1 = 3s - t x 1 = 3 s − t 。
因此,方程组的通解对应的参数向量形式 为:
x = [ 3 s − t s t ] = s [ 3 1 0 ] + t [ − 1 0 1 ] \mathbf{x} = \begin{bmatrix} 3s - t \\ s \\ t \end{bmatrix} = s\begin{bmatrix} 3 \\ 1 \\ 0 \end{bmatrix} + t\begin{bmatrix} -1 \\ 0 \\ 1 \end{bmatrix}
x = ⎣ ⎢ ⎡ 3 s − t s t ⎦ ⎥ ⎤ = s ⎣ ⎢ ⎡ 3 1 0 ⎦ ⎥ ⎤ + t ⎣ ⎢ ⎡ − 1 0 1 ⎦ ⎥ ⎤
其中 s s s 和 t t t 是任意实数。
这里我们令 u = [ 3 1 0 ] \mathbf{u}=\begin{bmatrix} 3 \\ 1 \\ 0 \end{bmatrix} u = ⎣ ⎢ ⎡ 3 1 0 ⎦ ⎥ ⎤ ,v = [ − 1 0 1 ] \mathbf{v}=\begin{bmatrix} -1 \\ 0 \\ 1 \end{bmatrix} v = ⎣ ⎢ ⎡ − 1 0 1 ⎦ ⎥ ⎤ ,平凡解只需要 s = 0 s=0 s = 0 且 t = 0 t=0 t = 0 即可。
几何意义下,解集是R 3 \mathbb{R}^3 R 3 中过原点的平面,即为Span { u , v } \text{Span}\{\mathbf{u},\mathbf{v}\} Span { u , v } ,u \mathbf{u} u 和 v \mathbf{v} v 是该平面的一组基向量。
1.6 线性无关
1.6.1 线性无关的定义
定义:
设 v 1 , v 2 , … , v p \mathbf{v}_1, \mathbf{v}_2, \ldots, \mathbf{v}_p v 1 , v 2 , … , v p 是 R n \mathbb{R}^n R n 中的一组向量,如果方程 c 1 v 1 + c 2 v 2 + ⋯ + c p v p = 0 c_1\mathbf{v}_1 + c_2\mathbf{v}_2 + \cdots + c_p\mathbf{v}_p = \mathbf{0} c 1 v 1 + c 2 v 2 + ⋯ + c p v p = 0 的唯一解是 c 1 = c 2 = ⋯ = c p = 0 c_1 = c_2 = \cdots = c_p = 0 c 1 = c 2 = ⋯ = c p = 0 (即仅有平凡解),则称向量 v 1 , v 2 , … , v p \mathbf{v}_1, \mathbf{v}_2, \ldots, \mathbf{v}_p v 1 , v 2 , … , v p 是线性无关 的;否则,称它们是线性相关的 。
这里也可以理解为,如果矩阵方程 A x = 0 A\mathbf{x}=\mathbf{0} A x = 0 只有平凡解,那么矩阵 A A A 的各列是线性无关的。
1.6.2 矩阵各列的线性无关
定理5:
设 A A A 是 m × n m \times n m × n 矩阵,它的各列为 a 1 , a 2 , … , a n \mathbf{a}_1, \mathbf{a}_2, \ldots, \mathbf{a}_n a 1 , a 2 , … , a n ,则下列命题是逻辑上等价的(即对某个 A A A ,它们都成立或都不成立):
矩阵方程 A x = 0 A\mathbf{x} = \mathbf{0} A x = 0 仅有平凡解。
向量方程 x 1 a 1 + x 2 a 2 + ⋯ + x n a n = 0 x_1\mathbf{a}_1 + x_2\mathbf{a}_2 + \cdots + x_n\mathbf{a}_n = \mathbf{0} x 1 a 1 + x 2 a 2 + ⋯ + x n a n = 0 仅有平凡解。
向量 a 1 , a 2 , … , a n \mathbf{a}_1, \mathbf{a}_2, \ldots, \mathbf{a}_n a 1 , a 2 , … , a n 是线性无关的。
1.6.3 一个或两个向量的集合
定理6:
仅含一个向量的集合线性无关 当且仅当该向量非零 。因为当 v ≠ 0 \mathbf{v} \neq \mathbf{0} v = 0 时,向量方程 x 1 v = 0 x_1\mathbf{v} = \mathbf{0} x 1 v = 0 的唯一解是 x 1 = 0 x_1 = 0 x 1 = 0 。而零向量是线性相关 的 ,因为向量方程 00 = 0 0\mathbf{0} = \mathbf{0} 0 0 = 0 有非平凡解 x 1 = 1 x_1 = 1 x 1 = 1 。
定理7:
两个向量 v 1 , v 2 \mathbf{v}_1, \mathbf{v}_2 v 1 , v 2 是线性无关的当且仅当 v 1 \mathbf{v}_1 v 1 不是 v 2 \mathbf{v}_2 v 2 的倍数。
我们从几何意义上看,两个向量线性相关,当且仅当它们落在通过原点的同一直线上,如下图所示:
1.6.4 两个或更多向量的集合
定理8:
设 v 1 , v 2 , … , v p \mathbf{v}_1, \mathbf{v}_2, \ldots, \mathbf{v}_p v 1 , v 2 , … , v p 是 R n \mathbb{R}^n R n 中的一组向量,集合 S = { v 1 , v 2 , … , v p } S=\{\mathbf{v}_1, \mathbf{v}_2, \ldots, \mathbf{v}_p\} S = { v 1 , v 2 , … , v p } 线性相关,当且仅当 S S S 中至少有一个向量是其他向量的线性组合 。事实上,若 S S S 线性相关,且 v 1 ≠ 0 \mathbf{v_1} \neq \mathbf{0} v 1 = 0 ,则某个向量 v j ( j > 1 ) \mathbf{v_j}(j>1) v j ( j > 1 ) 是它前面向量 v 1 , v 2 , … , v j − 1 \mathbf{v}_1, \mathbf{v}_2, \ldots, \mathbf{v}_{j-1} v 1 , v 2 , … , v j − 1 的线性组合。
证明:
设 S = { v 1 , v 2 , … , v p } S = \{\boldsymbol{v}_1, \boldsymbol{v}_2, \ldots, \boldsymbol{v}_p\} S = { v 1 , v 2 , … , v p } 为向量集合,则:
充分性证明
若存在 v j \boldsymbol{v}_j v j 可表示为其他向量的线性组合,即
v j = ∑ i ≠ j c i v i ( c i ∈ R ) \boldsymbol{v}_j = \sum_{i \neq j} c_i \boldsymbol{v}_i \quad (c_i \in \mathbb{R})
v j = i = j ∑ c i v i ( c i ∈ R )
通过移项可得非平凡线性关系:
( − 1 ) v j + ∑ i ≠ j c i v i = 0 (-1)\boldsymbol{v}_j + \sum_{i \neq j} c_i \boldsymbol{v}_i = \boldsymbol{0}
( − 1 ) v j + i = j ∑ c i v i = 0
故 S S S 线性相关。
必要性证明
若 S S S 线性相关,则存在不全为零的标量 c 1 , … , c p c_1, \ldots, c_p c 1 , … , c p 使得:
∑ i = 1 p c i v i = 0 \sum_{i=1}^p c_i \boldsymbol{v}_i = \boldsymbol{0}
i = 1 ∑ p c i v i = 0
情形1 :若 v 1 = 0 \boldsymbol{v}_1 = \boldsymbol{0} v 1 = 0 ,则 v 1 \boldsymbol{v}_1 v 1 可平凡表示为其他向量的线性组合(系数全零)且此时 c 1 ≠ 0 c_1 \neq 0 c 1 = 0 。
情形2 :若 v 1 ≠ 0 \boldsymbol{v}_1 \neq \boldsymbol{0} v 1 = 0 ,设 j j j 是最大下标使得 c j ≠ 0 c_j \neq 0 c j = 0 :
定理9:
若一个向量组的向量个数超过每个向量的元素个数,那么这个向量组线性相关,就是说,R n \mathbb{R}^n R n 中任意向量组 { v 1 , … , v n + 1 } \{ \mathbf{v_1, \ldots, v_{n+1}} \} { v 1 , … , v n + 1 } 当满足 p > n p>n p > n 时线性相关。
这里理解为:如果满足定理要求,则线性方程组中未知数个数大于方程个数,因此有无数个非平凡解。
定理10:
若 R n \mathbb{R}^n R n 中向量组 { v 1 , … , v p } \{ \mathbf{v_1, \ldots, v_p} \} { v 1 , … , v p } 包含零向量,则它线性相关。
1.7 线性变换介绍
1.7.1 线性变换的定义
线性变换 是一种特殊的函数,它将一个向量空间的元素映射到另一个向量空间,并保持向量加法和标量乘法的性质。
设 T : R n → R m T: \mathbb{R}^n \rightarrow \mathbb{R}^m T : R n → R m 是一个函数,如果对于 R n \mathbb{R}^n R n 中的任意向量 u \mathbf{u} u 和 v \mathbf{v} v 以及任意标量 c c c ,满足以下两个条件:
T ( u + v ) = T ( u ) + T ( v ) T(\mathbf{u} + \mathbf{v}) = T(\mathbf{u}) + T(\mathbf{v}) T ( u + v ) = T ( u ) + T ( v ) (加法保持性)
T ( c u ) = c T ( u ) T(c\mathbf{u}) = cT(\mathbf{u}) T ( c u ) = c T ( u ) (标量乘法保持性)
则称 T T T 为从 R n \mathbb{R}^n R n 到 R m \mathbb{R}^m R m 的线性变换 。
这里我们称 R n \mathbb{R}^n R n 为定义域 ,而 R m \mathbb{R}^m R m 为余定义域 (也称为取值空间)。
这里也很容易推出以下两条重要性质 :
若 T T T 是线性变换,则 T ( 0 ) = 0 T(\mathbf{0}) = \mathbf{0} T ( 0 ) = 0 ;
且对 T T T 定义域中一切向量 u \mathbf{u} u 和 v \mathbf{v} v 以及任意标量 c c c 和 d d d ,有 T ( c u + d v ) = c T ( u ) + d T ( v ) T(c\mathbf{u} + d\mathbf{v}) = cT(\mathbf{u}) + dT(\mathbf{v}) T ( c u + d v ) = c T ( u ) + d T ( v ) 。
进一步推广我们可以得到叠加原理 :
设 T : R n → R m T: \mathbb{R}^n \rightarrow \mathbb{R}^m T : R n → R m 是线性变换,则对 R n \mathbb{R}^n R n 中的任意向量 u 1 , u 2 , … , u p \mathbf{u}_1, \mathbf{u}_2, \ldots, \mathbf{u}_p u 1 , u 2 , … , u p ,以及标量 c 1 , c 2 , … , c p c_1, c_2, \ldots, c_p c 1 , c 2 , … , c p ,有
T ( c 1 u 1 + c 2 u 2 + ⋯ + c p u p ) = c 1 T ( u 1 ) + c 2 T ( u 2 ) + ⋯ + c p T ( u p ) T(c_1\mathbf{u}_1 + c_2\mathbf{u}_2 + \cdots + c_p\mathbf{u}_p) = c_1T(\mathbf{u}_1) + c_2T(\mathbf{u}_2) + \cdots + c_pT(\mathbf{u}_p)
T ( c 1 u 1 + c 2 u 2 + ⋯ + c p u p ) = c 1 T ( u 1 ) + c 2 T ( u 2 ) + ⋯ + c p T ( u p )
1.7.2 线性变换的矩阵表示
定理11:
每个从 R n \mathbb{R}^n R n 到 R m \mathbb{R}^m R m 的线性变换 T T T 都可以用一个 m × n m \times n m × n 的矩阵 A A A 来表示,使得对于 R n \mathbb{R}^n R n 中的任意向量 x \mathbf{x} x ,都有:
T ( x ) = A x T(\mathbf{x}) = A\mathbf{x}
T ( x ) = A x
矩阵 A A A 的列向量可以通过计算标准基向量的像来确定:
A = [ T ( e 1 ) T ( e 2 ) ⋯ T ( e n ) ] A = \begin{bmatrix} T(\mathbf{e}_1) & T(\mathbf{e}_2) & \cdots & T(\mathbf{e}_n) \end{bmatrix}
A = [ T ( e 1 ) T ( e 2 ) ⋯ T ( e n ) ]
其中 e j \mathbf{e}_j e j 是 R n \mathbb{R}^n R n 中的第 j j j 个标准基向量 (第 j j j 个分量为 1,其余分量为 0),即对应于单位矩阵 I n I_n I n 的第 j j j 列。
证明
记 x = I n x = [ e 1 ⋯ e n ] x = x 1 e 1 + ⋯ + x n e n \boldsymbol{x} = I_n \boldsymbol{x} = [\boldsymbol{e}_1 \cdots \boldsymbol{e}_n] \boldsymbol{x} = x_1 \boldsymbol{e}_1 + \cdots + x_n \boldsymbol{e}_n x = I n x = [ e 1 ⋯ e n ] x = x 1 e 1 + ⋯ + x n e n ,由于 T T T 是线性变换,可得:
T ( x ) = T ( x 1 e 1 + ⋯ + x n e n ) = x 1 T ( e 1 ) + ⋯ + x n T ( e n ) = [ T ( e 1 ) ⋯ T ( e n ) ] [ x 1 ⋮ x n ] = A x \begin{aligned}
T(\boldsymbol{x}) &= T(x_1 \boldsymbol{e}_1 + \cdots + x_n \boldsymbol{e}_n) \\
&= x_1 T(\boldsymbol{e}_1) + \cdots + x_n T(\boldsymbol{e}_n) \\
&= \left[ T(\boldsymbol{e}_1) \cdots T(\boldsymbol{e}_n) \right] \begin{bmatrix} x_1 \\ \vdots \\ x_n \end{bmatrix} \\
&= A \boldsymbol{x}
\end{aligned}
T ( x ) = T ( x 1 e 1 + ⋯ + x n e n ) = x 1 T ( e 1 ) + ⋯ + x n T ( e n ) = [ T ( e 1 ) ⋯ T ( e n ) ] ⎣ ⎢ ⎢ ⎡ x 1 ⋮ x n ⎦ ⎥ ⎥ ⎤ = A x
例题:
例3
设 T : R 2 → R 2 T:\mathbb{R}^2 \rightarrow \mathbb{R}^2 T : R 2 → R 2 为将 R 2 \mathbb{R}^2 R 2 中每个点绕原点逆时针旋转角度 φ \varphi φ 的变换。通过几何分析可证明这是线性变换(参见图1-39)。求该变换的标准矩阵。
解
基向量旋转结果:
[ 1 0 ] \begin{bmatrix}1\\0\end{bmatrix} [ 1 0 ] 旋转后为 [ cos φ sin φ ] \begin{bmatrix}\cos\varphi\\\sin\varphi\end{bmatrix} [ cos φ sin φ ]
[ 0 1 ] \begin{bmatrix}0\\1\end{bmatrix} [ 0 1 ] 旋转后为 [ − sin φ cos φ ] \begin{bmatrix}-\sin\varphi\\\cos\varphi\end{bmatrix} [ − sin φ cos φ ]
由定理11 (线性变换的标准矩阵构造法),直接得到:A = [ cos φ − sin φ sin φ cos φ ] A = \begin{bmatrix}
\cos\varphi & -\sin\varphi \\
\sin\varphi & \cos\varphi
\end{bmatrix}
A = [ cos φ sin φ − sin φ cos φ ]
1.7.3 线性变换的几何解释
线性变换可以从几何角度理解为对向量空间的一种变形,它保持了向量间的线性关系。以下是一些常见线性变换的几何解释:
伸缩变换 :将向量沿着某个方向拉伸或压缩。
例如,矩阵 [ 2 0 0 3 ] \begin{bmatrix} 2 & 0 \\ 0 & 3 \end{bmatrix} [ 2 0 0 3 ] 表示在 x x x 方向上拉伸为原来的 2 倍,在 y y y 方向上拉伸为原来的 3 倍。
旋转变换 :将向量绕原点旋转一定角度。
例如,矩阵 [ cos θ − sin θ sin θ cos θ ] \begin{bmatrix} \cos\theta & -\sin\theta \\ \sin\theta & \cos\theta \end{bmatrix} [ cos θ sin θ − sin θ cos θ ] 表示将向量逆时针旋转 θ \theta θ 角度。
投影变换 :将向量投影到某个子空间上。
例如,矩阵 [ 1 0 0 0 ] \begin{bmatrix} 1 & 0 \\ 0 & 0 \end{bmatrix} [ 1 0 0 0 ] 表示将向量投影到 x x x 轴上。
反射变换 :将向量关于某个子空间反射。
例如,矩阵 [ 1 0 0 − 1 ] \begin{bmatrix} 1 & 0 \\ 0 & -1 \end{bmatrix} [ 1 0 0 − 1 ] 表示将向量关于 x x x 轴反射。
剪切变换 :将向量沿着某个方向剪切。
例如,矩阵 [ 1 k 0 1 ] \begin{bmatrix} 1 & k \\ 0 & 1 \end{bmatrix} [ 1 0 k 1 ] 表示将向量沿 x x x 方向剪切,剪切因子为 k k k 。
更详细的描述见下表展示:
1.7.4 线性变换的存在性与唯一性问题
定义:
映射 T T T :若 R m \mathbb{R}^m R m 中每个 b \mathbf{b} b 是 R n \mathbb{R}^n R n 中至少一个 的像,则R n → R m \mathbb{R}^n \rightarrow \mathbb{R}^m R n → R m 称为到 R m \mathbb{R}^m R m 上的映射(也称为满射 )。
我们也根据判断 T T T 的值域是否是整个余定义域 R \mathbb{R} R 来判断是否是满射,如下图所示更清晰一点:
定义:
映射 T T T :若 R m \mathbb{R}^m R m 中每个 b \mathbf{b} b 是 R n \mathbb{R}^n R n 中至多一个 的像,则R n → R m \mathbb{R}^n \rightarrow \mathbb{R}^m R n → R m 称为到 R m \mathbb{R}^m R m 的单射(也称为一对一映射 )。
定理12:
设 T : R n → R m T: \mathbb{R}^n \rightarrow \mathbb{R}^m T : R n → R m 是线性变换,则 T T T 是单射 当且仅当方程 A x = 0 A\mathbf{x}=\mathbf{0} A x = 0 仅有平凡解 。
**证明:**
充分性:因 T T T 是线性的,故 T ( 0 ) = T ( 0 x ) = 0 T ( x ) = 0 T(\boldsymbol{0}) = T(0\mathbf{x}) = 0T(\mathbf{x}) = \boldsymbol{0} T ( 0 ) = T ( 0 x ) = 0 T ( x ) = 0 。
必要性:
例题
设 T T T 是线性变换,它的标准矩阵为
A = [ 1 − 4 8 1 0 2 − 1 3 0 0 0 5 ] A = \begin{bmatrix}
1 & -4 & 8 & 1 \\
0 & 2 & -1 & 3 \\
0 & 0 & 0 & 5
\end{bmatrix}
A = ⎣ ⎢ ⎡ 1 0 0 − 4 2 0 8 − 1 0 1 3 5 ⎦ ⎥ ⎤
T T T 是否把 R 4 \mathbb{R}^{4} R 4 映上到 R 3 \mathbb{R}^{3} R 3 ?
T T T 是否是一对一映射?
解
因 A A A 已是阶梯形,可直接观察到:
A A A 在每一行都有主元位置(由1.4.2节的定理2 )
对任意 b ∈ R 3 \boldsymbol{b} \in \mathbb{R}^{3} b ∈ R 3 ,方程 A x = b A\boldsymbol{x} = \boldsymbol{b} A x = b 相容
⇒ T T T 将 R 4 \mathbb{R}^{4} R 4 映射到 R 3 \mathbb{R}^{3} R 3 上
但方程 A x = b A\boldsymbol{x} = \boldsymbol{b} A x = b 存在自由变量(4变量中仅有3个基本变量),故:
每个 b \boldsymbol{b} b 对应多个 x \boldsymbol{x} x
⇒ T T T 不是一对一映射
定理13:
设 T : R n → R m T:\mathbb{R}^{n}\rightarrow\mathbb{R}^{m} T : R n → R m 是线性变换,A A A 为 T T T 的标准矩阵,则:
T T T 把 R n \mathbb{R}^{n} R n 映上到 R m \mathbb{R}^{m} R m ,当且仅当 A A A 的列生成 R m \mathbb{R}^{m} R m 。
T T T 是一对一的,当且仅当 A A A 的列线性无关。
例题:
例5
设线性变换 T ( x 1 , x 2 ) = ( 3 x 1 + x 2 , 5 x 1 + 7 x 2 , x 1 + 3 x 2 ) T(x_1,x_2) = (3x_1 + x_2, 5x_1 + 7x_2, x_1 + 3x_2) T ( x 1 , x 2 ) = ( 3 x 1 + x 2 , 5 x 1 + 7 x 2 , x 1 + 3 x 2 ) ,证明 T T T 是一对一线性变换。T T T 是否将 R 2 \mathbb{R}^2 R 2 映射到 R 3 \mathbb{R}^3 R 3 ?
解
将 T ( x ) T(\boldsymbol{x}) T ( x ) 表示为矩阵形式:
T ( x ) = [ 3 x 1 + x 2 5 x 1 + 7 x 2 x 1 + 3 x 2 ] = [ 3 1 5 7 1 3 ] [ x 1 x 2 ] = A x T(\boldsymbol{x}) = \begin{bmatrix}
3x_1 + x_2 \\
5x_1 + 7x_2 \\
x_1 + 3x_2
\end{bmatrix} = \begin{bmatrix}
3 & 1 \\
5 & 7 \\
1 & 3
\end{bmatrix} \begin{bmatrix}
x_1 \\
x_2
\end{bmatrix} = A\boldsymbol{x}
T ( x ) = ⎣ ⎢ ⎡ 3 x 1 + x 2 5 x 1 + 7 x 2 x 1 + 3 x 2 ⎦ ⎥ ⎤ = ⎣ ⎢ ⎡ 3 5 1 1 7 3 ⎦ ⎥ ⎤ [ x 1 x 2 ] = A x
一对一证明
矩阵 A A A 的列向量 [ 3 5 1 ] \begin{bmatrix}3\\5\\1\end{bmatrix} ⎣ ⎢ ⎡ 3 5 1 ⎦ ⎥ ⎤ 与 [ 1 7 3 ] \begin{bmatrix}1\\7\\3\end{bmatrix} ⎣ ⎢ ⎡ 1 7 3 ⎦ ⎥ ⎤ 线性无关(非倍数关系);
由定理13 ,T T T 是一对一的。
映射分析
A A A 是 3 × 2 3 \times 2 3 × 2 矩阵,最多有2个主元位置;
由定理2 ,A A A 的列无法生成 R 3 \mathbb{R}^3 R 3 (需要3个主元) ;
故 T T T 不是将 R 2 \mathbb{R}^2 R 2 映射到 R 3 \mathbb{R}^3 R 3 上的。
下图展示更为清晰一些:
这里很容易知到 T ( e 1 ) = [ 3 5 1 ] T(\mathbf{e_1}) = \begin{bmatrix}3\\5\\1\end{bmatrix} T ( e 1 ) = ⎣ ⎢ ⎡ 3 5 1 ⎦ ⎥ ⎤ ,T ( e 2 ) = [ 1 7 3 ] T(\mathbf{e_2}) = \begin{bmatrix}1\\7\\3\end{bmatrix} T ( e 2 ) = ⎣ ⎢ ⎡ 1 7 3 ⎦ ⎥ ⎤ ,即二者对应于线性变换后的两个基向量,Span { T ( e 1 ) , T ( e 2 ) } \text{Span}\{T(\mathbf{e_1}), T(\mathbf{e_2})\} Span { T ( e 1 ) , T ( e 2 ) } 只能张成平面,而非三维空间。
第二章 矩阵代数
2.1 矩阵运算
矩阵是线性代数中最基本的数学对象之一,本节将介绍矩阵的基本运算及其性质。
2.1.1 矩阵加法与标量乘法
矩阵加法 :若 A A A 和 B B B 是同型矩阵(即具有相同的行数和列数),则它们的和 A + B A+B A + B 是一个同型矩阵,其中每个元素是 A A A 和 B B B 对应元素的和。
( A + B ) i j = A i j + B i j (A+B)_{ij} = A_{ij} + B_{ij}
( A + B ) i j = A i j + B i j
标量乘法 :若 c c c 是标量,A A A 是矩阵,则 c A cA c A 是将 A A A 的每个元素都乘以 c c c 得到的矩阵。
( c A ) i j = c ⋅ A i j (cA)_{ij} = c \cdot A_{ij}
( c A ) i j = c ⋅ A i j
性质 :
交换律:A + B = B + A A + B = B + A A + B = B + A
结合律:( A + B ) + C = A + ( B + C ) (A + B) + C = A + (B + C) ( A + B ) + C = A + ( B + C )
分配律:c ( A + B ) = c A + c B c(A + B) = cA + cB c ( A + B ) = c A + c B 和 ( c + d ) A = c A + d A (c + d)A = cA + dA ( c + d ) A = c A + d A
2.1.2 矩阵乘法
矩阵乘法 :若 A A A 是 m × n m \times n m × n 矩阵,B B B 是 n × p n \times p n × p 矩阵,则它们的乘积 A B AB A B 是一个 m × p m \times p m × p 矩阵,其中:
( A B ) i j = ∑ k = 1 n A i k ⋅ B k j (AB)_{ij} = \sum_{k=1}^{n} A_{ik} \cdot B_{kj}
( A B ) i j = k = 1 ∑ n A i k ⋅ B k j
也就是说,A B AB A B 的第 i i i 行第 j j j 列元素是 A A A 的第 i i i 行与 B B B 的第 j j j 列的点积。
例题 :计算下列矩阵乘积:
A = [ 1 2 3 4 5 6 ] , B = [ 7 8 9 10 11 12 ] A = \begin{bmatrix} 1 & 2 & 3 \\ 4 & 5 & 6 \end{bmatrix}, \quad
B = \begin{bmatrix} 7 & 8 \\ 9 & 10 \\ 11 & 12 \end{bmatrix}
A = [ 1 4 2 5 3 6 ] , B = ⎣ ⎢ ⎡ 7 9 1 1 8 1 0 1 2 ⎦ ⎥ ⎤
解 :A A A 是 2 × 3 2 \times 3 2 × 3 矩阵,B B B 是 3 × 2 3 \times 2 3 × 2 矩阵,所以 A B AB A B 是 2 × 2 2 \times 2 2 × 2 矩阵。
A B = [ 1 2 3 4 5 6 ] [ 7 8 9 10 11 12 ] = [ 1 ⋅ 7 + 2 ⋅ 9 + 3 ⋅ 11 1 ⋅ 8 + 2 ⋅ 10 + 3 ⋅ 12 4 ⋅ 7 + 5 ⋅ 9 + 6 ⋅ 11 4 ⋅ 8 + 5 ⋅ 10 + 6 ⋅ 12 ] = [ 58 64 139 154 ] \begin{aligned}
AB &= \begin{bmatrix} 1 & 2 & 3 \\ 4 & 5 & 6 \end{bmatrix}
\begin{bmatrix} 7 & 8 \\ 9 & 10 \\ 11 & 12 \end{bmatrix} \\
&= \begin{bmatrix}
1 \cdot 7 + 2 \cdot 9 + 3 \cdot 11 & 1 \cdot 8 + 2 \cdot 10 + 3 \cdot 12 \\
4 \cdot 7 + 5 \cdot 9 + 6 \cdot 11 & 4 \cdot 8 + 5 \cdot 10 + 6 \cdot 12
\end{bmatrix} \\
&= \begin{bmatrix} 58 & 64 \\ 139 & 154 \end{bmatrix}
\end{aligned}
A B = [ 1 4 2 5 3 6 ] ⎣ ⎢ ⎡ 7 9 1 1 8 1 0 1 2 ⎦ ⎥ ⎤ = [ 1 ⋅ 7 + 2 ⋅ 9 + 3 ⋅ 1 1 4 ⋅ 7 + 5 ⋅ 9 + 6 ⋅ 1 1 1 ⋅ 8 + 2 ⋅ 1 0 + 3 ⋅ 1 2 4 ⋅ 8 + 5 ⋅ 1 0 + 6 ⋅ 1 2 ] = [ 5 8 1 3 9 6 4 1 5 4 ]
矩阵乘法的性质 :
一般情况下,矩阵乘法不满足交换律 ,即 A B ≠ B A AB \neq BA A B = B A
结合律:( A B ) C = A ( B C ) (AB)C = A(BC) ( A B ) C = A ( B C )
分配律:A ( B + C ) = A B + A C A(B+C) = AB + AC A ( B + C ) = A B + A C 和 ( A + B ) C = A C + B C (A+B)C = AC + BC ( A + B ) C = A C + B C
关于结合律的解释:
这里我们可以理解为复合映射 ,具体见下图所示:
这里我们取矩阵 C C C 为列向量 x \mathbf{x} x ,且 x ∈ R p \mathbf{x} \in \mathbb{R}^p x ∈ R p 。
关于结合律的简单证明:
若 A A A 是 m × n m \times n m × n 矩阵,B B B 是 n × p n \times p n × p 矩阵,x ∈ R p \mathbf{x} \in \mathbb{R}^p x ∈ R p ,用 b 1 , ⋯ , b p \mathbf{b_1}, \cdots, \mathbf{b_p} b 1 , ⋯ , b p 表示 B B B 的各列,而 x x x 的元素为 x 1 , ⋯ , x p x_1, \cdots, x_p x 1 , ⋯ , x p ,则:
B x = x 1 b 1 + ⋯ + x p b p B\mathbf{x} = x_1 \mathbf{b_1} + \cdots + x_p \mathbf{b_p}
B x = x 1 b 1 + ⋯ + x p b p
由乘以 A A A 的线性性质,
A ( B x ) = A ( x 1 b 1 + ⋯ + x p b p ) = x 1 A b 1 + ⋯ + x p A b p A(B\mathbf{x}) = A(x_1 \mathbf{b_1} + \cdots + x_p \mathbf{b_p}) = x_1 A\mathbf{b_1} + \cdots + x_p A\mathbf{b_p}
A ( B x ) = A ( x 1 b 1 + ⋯ + x p b p ) = x 1 A b 1 + ⋯ + x p A b p
向量 A ( B x ) A(B\mathbf{x}) A ( B x ) 是向量 A b 1 , ⋯ , A b p A\mathbf{b_1}, \cdots, A\mathbf{b_p} A b 1 , ⋯ , A b p 的线性组合,以 x x x 的元素为权。若我们把这些向量表示成一个矩阵的各列,就有:
A ( B x ) = [ A b 1 A b 2 ⋯ A b p ] x A(B\mathbf{x}) = [A\mathbf{b_1} \quad A\mathbf{b_2} \quad \cdots \quad A\mathbf{b_p}] \mathbf{x}
A ( B x ) = [ A b 1 A b 2 ⋯ A b p ] x
于是乘以矩阵 [ A b 1 A b 2 ⋯ A b p ] [A\mathbf{b_1} \quad A\mathbf{b_2} \quad \cdots \quad A\mathbf{b_p}] [ A b 1 A b 2 ⋯ A b p ] 把 x \mathbf{x} x 变换为 A ( B x ) A(B\mathbf{x}) A ( B x ) ,这便找到了所需要的矩阵。
定义:
若 A A A 是 m × n m \times n m × n 的矩阵,B B B 是 n × p n \times p n × p 的矩阵,B B B 的各列为 b 1 , ⋯ , b p \mathbf{b_1}, \cdots, \mathbf{b_p} b 1 , ⋯ , b p ,则 A B AB A B 是一个 m × p m \times p m × p 的矩阵,它的各列为 A b 1 , ⋯ , A b p A\mathbf{b_1}, \cdots, A\mathbf{b_p} A b 1 , ⋯ , A b p ,即
A B = [ A b 1 A b 2 ⋯ A b p ] AB = [A\mathbf{b_1} \quad A\mathbf{b_2} \quad \cdots \quad A\mathbf{b_p}]
A B = [ A b 1 A b 2 ⋯ A b p ]
计算AB的行列法则:
若乘积 A B AB A B 有定义,则 A B AB A B 的第i i i 行第j j j 列的元素是A A A 的第i i i 行与B B B 的第j j j 列的点积,即
( A B ) i j = ∑ k = 1 n A i k ⋅ B k j (AB)_{ij} = \sum_{k=1}^{n} A_{ik} \cdot B_{kj}
( A B ) i j = k = 1 ∑ n A i k ⋅ B k j
2.1.3 矩阵乘法的性质
定理14:
设 A A A 为 m × n m \times n m × n 矩阵,B B B 和 C C C 的维数使下列各式的乘积有定义:
A ( B C ) = ( A B ) C (乘法结合律) A(BC) = (AB)C \quad \text{(乘法结合律)}
A ( B C ) = ( A B ) C (乘法结合律)
A ( B + C ) = A B + A C (乘法左分配律) A(B + C) = AB + AC \quad \text{(乘法左分配律)}
A ( B + C ) = A B + A C (乘法左分配律)
( B + C ) A = B A + C A (乘法右分配律) (B + C)A = BA + CA \quad \text{(乘法右分配律)}
( B + C ) A = B A + C A (乘法右分配律)
r ( A B ) = ( r A ) B = A ( r B ) , r 为任意数 r(AB) = (rA)B = A(rB),\quad r \text{ 为任意数}
r ( A B ) = ( r A ) B = A ( r B ) , r 为任意数
I m A = A = A I n (矩阵乘法的恒等式) I_m A = A = A I_n \quad \text{(矩阵乘法的恒等式)}
I m A = A = A I n (矩阵乘法的恒等式)
2.1.4 矩阵的乘幂
定义:
设 A A A 是一个 n × n n \times n n × n 的方阵 (只有方阵才定义乘幂),则称:
A 0 = I n A^0 = I_n A 0 = I n ,单位矩阵;
A 1 = A A^1 = A A 1 = A ;
A 2 = A A A^2 = AA A 2 = A A ,即矩阵与自身相乘;
…
A k = A A ⋯ A ⏟ k 个 A^k = \underbrace{A A \cdots A}_{k \text{个}} A k = k 个 A A ⋯ A
即:
A k = { I n , k = 0 A ⋅ A k − 1 , k > 0 A^k = \begin{cases}
I_n, & k = 0 \\
A \cdot A^{k-1}, & k > 0
\end{cases}
A k = { I n , A ⋅ A k − 1 , k = 0 k > 0
运算规则:
设 A A A 是 n × n n \times n n × n 矩阵,r , s ∈ N r, s \in \mathbb{N} r , s ∈ N ,则有:
幂的加法法则 :
A r A s = A r + s A^r A^s = A^{r+s}
A r A s = A r + s
幂的乘法法则 :
( A r ) s = A r s \left( A^r \right)^s = A^{rs}
( A r ) s = A r s
与标量的结合律 :
( r A ) k = r k A k (当 r ∈ R ) (rA)^k = r^k A^k
\quad\text{(当 \( r \in \mathbb{R} \))}
( r A ) k = r k A k ( 当 r ∈ R )
单位矩阵的乘幂恒等式:
I n k = I n I_n^k = I_n
I n k = I n
注意事项 :
非方阵没有幂的定义 ,即只有方阵才能进行乘幂运算;
一般来说,矩阵幂并不具可交换性 ,即 A k B k ≠ ( A B ) k A^k B^k \neq (AB)^k A k B k = ( A B ) k ;
幂运算常用于研究差分方程、幂级数展开、Markov链等问题。
2.1.5 矩阵转置
矩阵 A A A 的转置 记为 A T A^T A T ,是将 A A A 的行与列互换得到的矩阵。如果 A A A 是 m × n m \times n m × n 矩阵,则 A T A^T A T 是 n × m n \times m n × m 矩阵,且 ( A T ) i j = A j i (A^T)_{ij} = A_{ji} ( A T ) i j = A j i 。
转置的性质 :
( A T ) T = A (A^T)^T = A ( A T ) T = A
( A + B ) T = A T + B T (A + B)^T = A^T + B^T ( A + B ) T = A T + B T
( c A ) T = c A T (cA)^T = cA^T ( c A ) T = c A T ,其中 c c c 是标量
( A B ) T = B T A T (AB)^T = B^T A^T ( A B ) T = B T A T
例题 :验证 ( A B ) T = B T A T (AB)^T = B^T A^T ( A B ) T = B T A T 。
解 :设 A A A 是 m × n m \times n m × n 矩阵,B B B 是 n × p n \times p n × p 矩阵。
( ( A B ) T ) i j = ( A B ) j i = ∑ k = 1 n A j k ⋅ B k i = ∑ k = 1 n B k i ⋅ A j k = ∑ k = 1 n B i k T ⋅ A k j T = ( B T A T ) i j \begin{aligned}
((AB)^T)_{ij} &= (AB)_{ji} \\
&= \sum_{k=1}^{n} A_{jk} \cdot B_{ki} \\
&= \sum_{k=1}^{n} B_{ki} \cdot A_{jk} \\
&= \sum_{k=1}^{n} B^T_{ik} \cdot A^T_{kj} \\
&= (B^T A^T)_{ij}
\end{aligned}
( ( A B ) T ) i j = ( A B ) j i = k = 1 ∑ n A j k ⋅ B k i = k = 1 ∑ n B k i ⋅ A j k = k = 1 ∑ n B i k T ⋅ A k j T = ( B T A T ) i j
因此,( A B ) T = B T A T (AB)^T = B^T A^T ( A B ) T = B T A T 。
2.1.6 特殊矩阵
零矩阵 :所有元素都为零的矩阵,记为 O O O 。
单位矩阵 :主对角线上的元素都为1,其余元素都为0的方阵,记为 I n I_n I n (n n n 表示阶数)。
I n = [ 1 0 ⋯ 0 0 1 ⋯ 0 ⋮ ⋮ ⋱ ⋮ 0 0 ⋯ 1 ] I_n = \begin{bmatrix}
1 & 0 & \cdots & 0 \\
0 & 1 & \cdots & 0 \\
\vdots & \vdots & \ddots & \vdots \\
0 & 0 & \cdots & 1
\end{bmatrix}
I n = ⎣ ⎢ ⎢ ⎢ ⎢ ⎡ 1 0 ⋮ 0 0 1 ⋮ 0 ⋯ ⋯ ⋱ ⋯ 0 0 ⋮ 1 ⎦ ⎥ ⎥ ⎥ ⎥ ⎤
单位矩阵的重要性质:对任意 n × n n \times n n × n 矩阵 A A A ,有 A I n = I n A = A AI_n = I_n A = A A I n = I n A = A 。
对角矩阵 :非主对角线元素都为0的方阵。
D = [ d 1 0 ⋯ 0 0 d 2 ⋯ 0 ⋮ ⋮ ⋱ ⋮ 0 0 ⋯ d n ] D = \begin{bmatrix}
d_1 & 0 & \cdots & 0 \\
0 & d_2 & \cdots & 0 \\
\vdots & \vdots & \ddots & \vdots \\
0 & 0 & \cdots & d_n
\end{bmatrix}
D = ⎣ ⎢ ⎢ ⎢ ⎢ ⎡ d 1 0 ⋮ 0 0 d 2 ⋮ 0 ⋯ ⋯ ⋱ ⋯ 0 0 ⋮ d n ⎦ ⎥ ⎥ ⎥ ⎥ ⎤
对称矩阵 :满足 A = A T A = A^T A = A T 的方阵,即 A i j = A j i A_{ij} = A_{ji} A i j = A j i 。
反对称矩阵 :满足 A = − A T A = -A^T A = − A T 的方阵,即 A i j = − A j i A_{ij} = -A_{ji} A i j = − A j i 。
2.2 矩阵的逆
2.2.1 可逆矩阵的定义
定义:
设 A A A 是一个 n × n n \times n n × n 的方阵,如果存在另一个 n × n n \times n n × n 的方阵 B B B ,使得:
A B = B A = I n AB = BA = I_n
A B = B A = I n
则称 A A A 是可逆矩阵 (或非奇异矩阵 ),B B B 是 A A A 的逆矩阵 ,记为 A − 1 A^{-1} A − 1 。
一般来说,我们称可逆矩阵为非奇异矩阵 ,不可逆矩阵为奇异矩阵 。
定理15:
如果方阵 A A A 是可逆的,则它的逆矩阵是唯一的。
证明:
假设 B B B 和 C C C 都是 A A A 的逆矩阵,则:
A B = B A = I n 且 A C = C A = I n AB = BA = I_n \quad \text{且} \quad AC = CA = I_n
A B = B A = I n 且 A C = C A = I n
于是有:
B = B I n = B ( A C ) = ( B A ) C = I n C = C B = BI_n = B(AC) = (BA)C = I_nC = C
B = B I n = B ( A C ) = ( B A ) C = I n C = C
因此,A A A 的逆矩阵是唯一的。
2.2.2 逆矩阵的性质
设 A A A 和 B B B 都是可逆的 n × n n \times n n × n 矩阵,则:
( A − 1 ) − 1 = A (A^{-1})^{-1} = A ( A − 1 ) − 1 = A
( A B ) − 1 = B − 1 A − 1 (AB)^{-1} = B^{-1}A^{-1} ( A B ) − 1 = B − 1 A − 1
( A T ) − 1 = ( A − 1 ) T (A^T)^{-1} = (A^{-1})^T ( A T ) − 1 = ( A − 1 ) T
对任意非零标量 c c c ,( c A ) − 1 = 1 c A − 1 (cA)^{-1} = \frac{1}{c}A^{-1} ( c A ) − 1 = c 1 A − 1
对任意正整数 k k k ,( A k ) − 1 = ( A − 1 ) k (A^k)^{-1} = (A^{-1})^k ( A k ) − 1 = ( A − 1 ) k
证明:
对于性质2,我们需要验证 ( A B ) ( B − 1 A − 1 ) = ( B − 1 A − 1 ) ( A B ) = I n (AB)(B^{-1}A^{-1}) = (B^{-1}A^{-1})(AB) = I_n ( A B ) ( B − 1 A − 1 ) = ( B − 1 A − 1 ) ( A B ) = I n :
( A B ) ( B − 1 A − 1 ) = A ( B B − 1 ) A − 1 = A I n A − 1 = A A − 1 = I n \begin{aligned}
(AB)(B^{-1}A^{-1}) &= A(BB^{-1})A^{-1} \\
&= AI_nA^{-1} \\
&= AA^{-1} \\
&= I_n
\end{aligned}
( A B ) ( B − 1 A − 1 ) = A ( B B − 1 ) A − 1 = A I n A − 1 = A A − 1 = I n
同理可证 ( B − 1 A − 1 ) ( A B ) = I n (B^{-1}A^{-1})(AB) = I_n ( B − 1 A − 1 ) ( A B ) = I n 。
2.2.3 矩阵可逆的充要条件
定理16:
n × n n \times n n × n 矩阵 A A A 可逆的充要条件是 A A A 行等价于 I n I_n I n 。
进一步说明为:把 A A A 经过一系列初等行变换化简为 I n I_n I n 的同时,可以将 I n I_n I n 化简为 A − 1 A^{-1} A − 1 。
定理17:
n × n n \times n n × n 矩阵 A A A 可逆的充要条件是 A A A 的简化行阶梯形为 I n I_n I n 。
定理18(可逆矩阵定理):
设 A A A 是 n × n n \times n n × n 矩阵,则以下命题等价:
A A A 是可逆矩阵。
A A A 行等价于 I n I_n I n 。
A A A 有 n n n 个主元位置。
齐次方程 A x = 0 A\mathbf{x} = \mathbf{0} A x = 0 仅有平凡解。
方程 A x = b A\mathbf{x} = \mathbf{b} A x = b 对任意 b ∈ R n \mathbf{b} \in \mathbb{R}^n b ∈ R n 有唯一解。
A A A 的列向量线性无关。
A A A 的列向量构成 R n \mathbb{R}^n R n 的一组基。
A A A 的行向量线性无关。
A A A 的行向量构成 R n \mathbb{R}^n R n 的一组基。
det ( A ) ≠ 0 \text{det}(A) \neq 0 det ( A ) = 0 (行列式不为零)。
0 不是 A A A 的特征值。
rank ( A ) = n \text{rank}(A) = n rank ( A ) = n (满秩)。
2.2.4 求逆矩阵的方法
方法一:初等行变换法
将矩阵 A A A 与单位矩阵 I n I_n I n 并排写成增广矩阵 [ A ∣ I n ] [A|I_n] [ A ∣ I n ] ,然后通过初等行变换将左侧的 A A A 化为 I n I_n I n ,此时右侧得到的矩阵就是 A − 1 A^{-1} A − 1 。
这里我们做出如下解释:
原始矩阵方程为 A x = b A\mathbf{x} = \mathbf{b} A x = b ,我们同时在等号两侧左乘 A − 1 A^{-1} A − 1 后,我们可以得到 x = A − 1 b \mathbf{x} = A^{-1}\mathbf{b} x = A − 1 b ,这两个矩阵方程是等价的,因此对应的增广矩阵也是等价的 。
例题:
求矩阵 A = [ 1 2 3 7 ] A = \begin{bmatrix} 1 & 2 \\ 3 & 7 \end{bmatrix} A = [ 1 3 2 7 ] 的逆矩阵。
解:
构造增广矩阵 [ A ∣ I 2 ] [A|I_2] [ A ∣ I 2 ] :
[ 1 2 1 0 3 7 0 1 ] \begin{bmatrix}
1 & 2 & 1 & 0 \\
3 & 7 & 0 & 1
\end{bmatrix}
[ 1 3 2 7 1 0 0 1 ]
通过初等行变换将左侧变为单位矩阵:
R 2 − 3 R 1 → R 2 R_2 - 3R_1 \rightarrow R_2 R 2 − 3 R 1 → R 2 :
[ 1 2 1 0 0 1 − 3 1 ] \begin{bmatrix}
1 & 2 & 1 & 0 \\
0 & 1 & -3 & 1
\end{bmatrix}
[ 1 0 2 1 1 − 3 0 1 ]
R 1 − 2 R 2 → R 1 R_1 - 2R_2 \rightarrow R_1 R 1 − 2 R 2 → R 1 :
[ 1 0 7 − 2 0 1 − 3 1 ] \begin{bmatrix}
1 & 0 & 7 & -2 \\
0 & 1 & -3 & 1
\end{bmatrix}
[ 1 0 0 1 7 − 3 − 2 1 ]
因此,A − 1 = [ 7 − 2 − 3 1 ] A^{-1} = \begin{bmatrix} 7 & -2 \\ -3 & 1 \end{bmatrix} A − 1 = [ 7 − 3 − 2 1 ] 。
方法二:伴随矩阵法
对于 n × n n \times n n × n 矩阵 A A A ,其逆矩阵可以表示为:
A − 1 = 1 det ( A ) adj ( A ) A^{-1} = \frac{1}{\text{det}(A)} \text{adj}(A)
A − 1 = det ( A ) 1 adj ( A )
其中,det ( A ) \text{det}(A) det ( A ) 是 A A A 的行列式,adj ( A ) \text{adj}(A) adj ( A ) 是 A A A 的伴随矩阵。
伴随矩阵我们在后续章节中再介绍。
2.2.5 逆矩阵的应用
求解线性方程组 :对于方程组 A x = b A\mathbf{x} = \mathbf{b} A x = b ,若 A A A 可逆,则解为 x = A − 1 b \mathbf{x} = A^{-1}\mathbf{b} x = A − 1 b 。
线性变换的逆变换 :若线性变换 T T T 由矩阵 A A A 表示,且 A A A 可逆,则 T T T 的逆变换由 A − 1 A^{-1} A − 1 表示。
矩阵方程求解 :对于矩阵方程 A X = B AX = B A X = B 或 X A = B XA = B X A = B ,若 A A A 可逆,则解分别为 X = A − 1 B X = A^{-1}B X = A − 1 B 或 X = B A − 1 X = BA^{-1} X = B A − 1 。
2.3 可逆矩阵的特征
2.3.1 可逆矩阵的特征
设 A A A 为 n × n n \times n n × n 矩阵,则下列 12 个命题等价 (对任意给定的 A A A ,它们同时为真或同时为假):
标记
命题描述
a.
A A A 是可逆矩阵
b.
A A A 行等价于 n × n n \times n n × n 单位矩阵
c.
A A A 有 n n n 个主元位置
d.
方程 A x = 0 A\mathbf{x} = \mathbf{0} A x = 0 仅有平凡解
e.
A A A 的各列线性无关
f.
线性变换 x ↦ A x \mathbf{x} \mapsto A\mathbf{x} x ↦ A x 是一对一的
g.
对 R n \mathbb{R}^n R n 中任意 b \mathbf{b} b ,方程 A x = b A\mathbf{x} = \mathbf{b} A x = b 至少有一个解
h.
A A A 的各列生成 R n \mathbb{R}^n R n
i.
线性变换 x ↦ A x \mathbf{x} \mapsto A\mathbf{x} x ↦ A x 把 R n \mathbb{R}^n R n 映上到 R n \mathbb{R}^n R n
j.
存在 n × n n \times n n × n 矩阵 C C C 使得 C A = I CA = I C A = I
k.
存在 n × n n \times n n × n 矩阵 D D D 使得 A D = I AD = I A D = I
1.
A T A^{T} A T 是可逆矩阵
核心等价关系图解 :
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 graph LR a[a.可逆矩阵] --> b[b.行等价单位矩阵] b --> c[c.有n主元位置] c --> d[d.仅有零解] d --> e[e.列线性无关] e --> f[f.一对一变换] f --> g[g.解存在性] g --> h[h.列生成Rⁿ] h --> i[i.映上变换] i --> j[j.左逆存在] j --> k[k.右逆存在] k --> 1[1.转置可逆] 1 --> a classDef logic stroke:#FF6B6B,stroke-width:2px; class a,b,c,d,e,f,g,h,i,j,k,1 logic;
2.3.2 可逆线性变换
线性变换 T : R n → R n T: \mathbb{R}^n \to \mathbb{R}^n T : R n → R n 称为可逆的,若存在函数 S : R n → R n S: \mathbb{R}^n \to \mathbb{R}^n S : R n → R n 使得:
对所有 x ∈ R n x \in \mathbb{R}^n x ∈ R n ,有
S ( T ( x ) ) = x (1) S(T(x)) = x \tag{1}
S ( T ( x ) ) = x ( 1 )
对所有 x ∈ R n x \in \mathbb{R}^n x ∈ R n ,有
T ( S ( x ) ) = x (2) T(S(x)) = x \tag{2}
T ( S ( x ) ) = x ( 2 )
下列定理说明:若这样的 S S S 存在,则它是唯一的且必是线性变换 。我们称 S S S 是 T T T 的逆,记作 T − 1 T^{-1} T − 1 。
定理19 :
设 T : R n → R n T: \mathbb{R}^n \to \mathbb{R}^n T : R n → R n 为线性变换,A A A 为 T T T 的标准矩阵。则:
T T T 可逆 当且仅当 A A A 是可逆矩阵。
此时由 S ( x ) = A − 1 x S(x) = A^{-1}x S ( x ) = A − 1 x 定义的线性变换 S S S ,是满足 (1) 和 (2) 的唯一函数 。
证明 :
(⇒)设 T T T 是可逆的:
由条件 (2) 可知,T T T 是从 R n \mathbb{R}^n R n 映到 R n \mathbb{R}^n R n 的映射。
因为 b ∈ R n \mathbf{b} \in \mathbb{R}^n b ∈ R n ,设 x = S ( b ) \mathbf{x} = S(\mathbf{b}) x = S ( b ) ,则:
T ( x ) = T ( S ( b ) ) = b T(\mathbf{x}) = T(S(\mathbf{b})) = \mathbf{b}
T ( x ) = T ( S ( b ) ) = b
所以每个 b \mathbf{b} b 属于 T T T 的值域。
因此可知矩阵 A A A 是可逆的。
(⇐)反之,若 A A A 是可逆的:
令:
S ( x ) = A − 1 x S(x) = A^{-1}x
S ( x ) = A − 1 x
显然 S S S 是线性变换,且满足条件 (1) 和 (2)。例如:
S ( T ( x ) ) = S ( A x ) = A − 1 ( A x ) = x S(T(x)) = S(Ax) = A^{-1}(Ax) = x
S ( T ( x ) ) = S ( A x ) = A − 1 ( A x ) = x
于是 T T T 是可逆的。
2.4 分块矩阵
2.4.1 分块矩阵的概念
分块矩阵 (或称块矩阵 、分部矩阵 )是将一个大矩阵按照行和列划分成若干个小矩阵(块)的表示方法。这种表示方法在处理大型矩阵时非常有用,可以简化计算并揭示矩阵的结构特性。
例如,矩阵 A A A 可以按如下方式划分为四个块:
A = [ A 11 A 12 A 21 A 22 ] A = \begin{bmatrix}
A_{11} & A_{12} \\
A_{21} & A_{22}
\end{bmatrix}
A = [ A 1 1 A 2 1 A 1 2 A 2 2 ]
其中 A 11 , A 12 , A 21 , A 22 A_{11}, A_{12}, A_{21}, A_{22} A 1 1 , A 1 2 , A 2 1 , A 2 2 是适当维度的子矩阵。
2.4.2 分块矩阵的运算
1. 分块矩阵的加法
如果矩阵 A A A 和 B B B 具有相同的分块方式,则它们的和是对应块的和:
A + B = [ A 11 A 12 A 21 A 22 ] + [ B 11 B 12 B 21 B 22 ] = [ A 11 + B 11 A 12 + B 12 A 21 + B 21 A 22 + B 22 ] A + B = \begin{bmatrix}
A_{11} & A_{12} \\
A_{21} & A_{22}
\end{bmatrix} +
\begin{bmatrix}
B_{11} & B_{12} \\
B_{21} & B_{22}
\end{bmatrix} =
\begin{bmatrix}
A_{11}+B_{11} & A_{12}+B_{12} \\
A_{21}+B_{21} & A_{22}+B_{22}
\end{bmatrix}
A + B = [ A 1 1 A 2 1 A 1 2 A 2 2 ] + [ B 1 1 B 2 1 B 1 2 B 2 2 ] = [ A 1 1 + B 1 1 A 2 1 + B 2 1 A 1 2 + B 1 2 A 2 2 + B 2 2 ]
2. 分块矩阵的乘法
设 A A A 和 B B B 是两个分块矩阵:
A = [ A 11 A 12 A 21 A 22 ] , B = [ B 11 B 12 B 21 B 22 ] A = \begin{bmatrix}
A_{11} & A_{12} \\
A_{21} & A_{22}
\end{bmatrix}, \quad
B = \begin{bmatrix}
B_{11} & B_{12} \\
B_{21} & B_{22}
\end{bmatrix}
A = [ A 1 1 A 2 1 A 1 2 A 2 2 ] , B = [ B 1 1 B 2 1 B 1 2 B 2 2 ]
如果各个块的维度使得乘法有定义,则它们的乘积为:
A B = [ A 11 B 11 + A 12 B 21 A 11 B 12 + A 12 B 22 A 21 B 11 + A 22 B 21 A 21 B 12 + A 22 B 22 ] AB = \begin{bmatrix}
A_{11}B_{11} + A_{12}B_{21} & A_{11}B_{12} + A_{12}B_{22} \\
A_{21}B_{11} + A_{22}B_{21} & A_{21}B_{12} + A_{22}B_{22}
\end{bmatrix}
A B = [ A 1 1 B 1 1 + A 1 2 B 2 1 A 2 1 B 1 1 + A 2 2 B 2 1 A 1 1 B 1 2 + A 1 2 B 2 2 A 2 1 B 1 2 + A 2 2 B 2 2 ]
这种乘法规则类似于普通矩阵乘法,但操作对象是矩阵块而非单个元素。
注意 :为使分块矩阵乘法有定义,必须保证相邻块的维度匹配,即 A A A 的列分块方式 必须与 B B B 的行分块方式 一致。
定理20 :
这里我们令符号 c o l k ( A ) col_k(A) c o l k ( A ) 表示 A A A 的第 k k k 列块,r o w k ( B ) row_k(B) r o w k ( B ) 表示 B B B 的第 k k k 行块。
若 A A A 是 m × n m \times n m × n 矩阵,B B B 是 n × p n \times p n × p 矩阵,则:
A B = [ col 1 ( A ) col 2 ( A ) ⋯ col n ( A ) ] [ row 1 ( B ) row 2 ( B ) ⋮ row n ( B ) ] (1) AB =
\begin{bmatrix}
\text{col}_1(A) & \text{col}_2(A) & \cdots & \text{col}_n(A)
\end{bmatrix}
\begin{bmatrix}
\text{row}_1(B) \\
\text{row}_2(B) \\
\vdots \\
\text{row}_n(B)
\end{bmatrix}
\tag{1}
A B = [ col 1 ( A ) col 2 ( A ) ⋯ col n ( A ) ] ⎣ ⎢ ⎢ ⎢ ⎢ ⎡ row 1 ( B ) row 2 ( B ) ⋮ row n ( B ) ⎦ ⎥ ⎥ ⎥ ⎥ ⎤ ( 1 )
展开为:
A B = col 1 ( A ) row 1 ( B ) + ⋯ + col n ( A ) row n ( B ) AB = \text{col}_1(A)\text{row}_1(B) + \cdots + \text{col}_n(A)\text{row}_n(B)
A B = col 1 ( A ) row 1 ( B ) + ⋯ + col n ( A ) row n ( B )
证明 :
对每个行指标 i i i 和列指标 j j j ,乘积 col k ( A ) row k ( B ) \text{col}_k(A)\text{row}_k(B) col k ( A ) row k ( B ) 的 ( i , j ) (i, j) ( i , j ) 元素是:
col k ( A ) \text{col}_k(A) col k ( A ) 中的元素 a i k a_{ik} a i k
与 row k ( B ) \text{row}_k(B) row k ( B ) 中的元素 b k j b_{kj} b k j 的乘积
因此,在等式 (1) 的和中,( i , j ) (i,j) ( i , j ) 元素为:
a i 1 b 1 j + a i 2 b 2 j + ⋯ + a i n b n j { ( k = 1 ) ( k = 2 ) ⋮ ( k = n ) a_{i1}b_{1j} + a_{i2}b_{2j} + \cdots + a_{in}b_{nj}
\quad
\begin{cases}
(k=1) \\
(k=2) \\
\vdots \\
(k=n)
\end{cases}
a i 1 b 1 j + a i 2 b 2 j + ⋯ + a i n b n j ⎩ ⎪ ⎪ ⎪ ⎪ ⎪ ⎨ ⎪ ⎪ ⎪ ⎪ ⎪ ⎧ ( k = 1 ) ( k = 2 ) ⋮ ( k = n )
根据行列法则 ,该和正好是矩阵 A B AB A B 的第 ( i , j ) (i,j) ( i , j ) 元素。
3. 分块矩阵的转置
分块矩阵的转置是将每个块转置,并且交换块的位置:
[ A 11 A 12 A 21 A 22 ] T = [ A 11 T A 21 T A 12 T A 22 T ] \begin{bmatrix}
A_{11} & A_{12} \\
A_{21} & A_{22}
\end{bmatrix}^T =
\begin{bmatrix}
A_{11}^T & A_{21}^T \\
A_{12}^T & A_{22}^T
\end{bmatrix}
[ A 1 1 A 2 1 A 1 2 A 2 2 ] T = [ A 1 1 T A 1 2 T A 2 1 T A 2 2 T ]
2.4.3 特殊的分块矩阵
1. 分块对角矩阵
当非对角块都为零矩阵时,称为分块对角矩阵:
[ A 11 O O A 22 ] \begin{bmatrix}
A_{11} & O \\
O & A_{22}
\end{bmatrix}
[ A 1 1 O O A 2 2 ]
分块对角矩阵的行列式等于对角块行列式的乘积:
det [ A 11 O O A 22 ] = det ( A 11 ) ⋅ det ( A 22 ) \det\begin{bmatrix}
A_{11} & O \\
O & A_{22}
\end{bmatrix} = \det(A_{11}) \cdot \det(A_{22})
det [ A 1 1 O O A 2 2 ] = det ( A 1 1 ) ⋅ det ( A 2 2 )
2. 分块三角矩阵
分块上三角矩阵:
[ A 11 A 12 O A 22 ] \begin{bmatrix}
A_{11} & A_{12} \\
O & A_{22}
\end{bmatrix}
[ A 1 1 O A 1 2 A 2 2 ]
分块下三角矩阵:
[ A 11 O A 21 A 22 ] \begin{bmatrix}
A_{11} & O \\
A_{21} & A_{22}
\end{bmatrix}
[ A 1 1 A 2 1 O A 2 2 ]
2.4.4 分块矩阵的逆
对于 2 × 2 2 \times 2 2 × 2 分块矩阵,如果满足特定条件,其逆矩阵可以通过以下方式计算:
1. 当 A 22 A_{22} A 2 2 可逆时
[ A 11 A 12 A 21 A 22 ] − 1 = [ ( A 11 − A 12 A 22 − 1 A 21 ) − 1 − ( A 11 − A 12 A 22 − 1 A 21 ) − 1 A 12 A 22 − 1 − A 22 − 1 A 21 ( A 11 − A 12 A 22 − 1 A 21 ) − 1 A 22 − 1 + A 22 − 1 A 21 ( A 11 − A 12 A 22 − 1 A 21 ) − 1 A 12 A 22 − 1 ] \begin{bmatrix}
A_{11} & A_{12} \\
A_{21} & A_{22}
\end{bmatrix}^{-1} =
\begin{bmatrix}
(A_{11} - A_{12}A_{22}^{-1}A_{21})^{-1} & -(A_{11} - A_{12}A_{22}^{-1}A_{21})^{-1}A_{12}A_{22}^{-1} \\
-A_{22}^{-1}A_{21}(A_{11} - A_{12}A_{22}^{-1}A_{21})^{-1} & A_{22}^{-1} + A_{22}^{-1}A_{21}(A_{11} - A_{12}A_{22}^{-1}A_{21})^{-1}A_{12}A_{22}^{-1}
\end{bmatrix}
[ A 1 1 A 2 1 A 1 2 A 2 2 ] − 1 = [ ( A 1 1 − A 1 2 A 2 2 − 1 A 2 1 ) − 1 − A 2 2 − 1 A 2 1 ( A 1 1 − A 1 2 A 2 2 − 1 A 2 1 ) − 1 − ( A 1 1 − A 1 2 A 2 2 − 1 A 2 1 ) − 1 A 1 2 A 2 2 − 1 A 2 2 − 1 + A 2 2 − 1 A 2 1 ( A 1 1 − A 1 2 A 2 2 − 1 A 2 1 ) − 1 A 1 2 A 2 2 − 1 ]
其中 S = A 11 − A 12 A 22 − 1 A 21 S = A_{11} - A_{12}A_{22}^{-1}A_{21} S = A 1 1 − A 1 2 A 2 2 − 1 A 2 1 称为 A 22 A_{22} A 2 2 的舒尔补 。
2. 当 A 11 A_{11} A 1 1 可逆时
[ A 11 A 12 A 21 A 22 ] − 1 = [ A 11 − 1 + A 11 − 1 A 12 ( A 22 − A 21 A 11 − 1 A 12 ) − 1 A 21 A 11 − 1 − A 11 − 1 A 12 ( A 22 − A 21 A 11 − 1 A 12 ) − 1 − ( A 22 − A 21 A 11 − 1 A 12 ) − 1 A 21 A 11 − 1 ( A 22 − A 21 A 11 − 1 A 12 ) − 1 ] \begin{bmatrix}
A_{11} & A_{12} \\
A_{21} & A_{22}
\end{bmatrix}^{-1} =
\begin{bmatrix}
A_{11}^{-1} + A_{11}^{-1}A_{12}(A_{22} - A_{21}A_{11}^{-1}A_{12})^{-1}A_{21}A_{11}^{-1} & -A_{11}^{-1}A_{12}(A_{22} - A_{21}A_{11}^{-1}A_{12})^{-1} \\
-(A_{22} - A_{21}A_{11}^{-1}A_{12})^{-1}A_{21}A_{11}^{-1} & (A_{22} - A_{21}A_{11}^{-1}A_{12})^{-1}
\end{bmatrix}
[ A 1 1 A 2 1 A 1 2 A 2 2 ] − 1 = [ A 1 1 − 1 + A 1 1 − 1 A 1 2 ( A 2 2 − A 2 1 A 1 1 − 1 A 1 2 ) − 1 A 2 1 A 1 1 − 1 − ( A 2 2 − A 2 1 A 1 1 − 1 A 1 2 ) − 1 A 2 1 A 1 1 − 1 − A 1 1 − 1 A 1 2 ( A 2 2 − A 2 1 A 1 1 − 1 A 1 2 ) − 1 ( A 2 2 − A 2 1 A 1 1 − 1 A 1 2 ) − 1 ]
其中 T = A 22 − A 21 A 11 − 1 A 12 T = A_{22} - A_{21}A_{11}^{-1}A_{12} T = A 2 2 − A 2 1 A 1 1 − 1 A 1 2 称为 A 11 A_{11} A 1 1 的舒尔补 。
2.4.5 分块矩阵的应用
大型线性系统求解 :将大型线性方程组分解为较小的子系统求解。
矩阵分解 :许多矩阵分解方法(如LU分解、QR分解)可以用分块矩阵形式表示。
控制理论 :在状态空间表示中,系统矩阵常常以分块形式出现。
图像处理 :大型图像可以分块处理,提高计算效率。
例题 :
计算下列分块矩阵的乘积:
[ I 2 O A I 3 ] [ I 2 B O I 3 ] \begin{bmatrix}
I_2 & O \\
A & I_3
\end{bmatrix}
\begin{bmatrix}
I_2 & B \\
O & I_3
\end{bmatrix}
[ I 2 A O I 3 ] [ I 2 O B I 3 ]
其中 A A A 是 3 × 2 3 \times 2 3 × 2 矩阵,B B B 是 2 × 3 2 \times 3 2 × 3 矩阵,I 2 I_2 I 2 和 I 3 I_3 I 3 分别是 2 × 2 2 \times 2 2 × 2 和 3 × 3 3 \times 3 3 × 3 单位矩阵,O O O 表示适当维度的零矩阵。
解 :
根据分块矩阵乘法规则:
[ I 2 O A I 3 ] [ I 2 B O I 3 ] = [ I 2 ⋅ I 2 + O ⋅ O I 2 ⋅ B + O ⋅ I 3 A ⋅ I 2 + I 3 ⋅ O A ⋅ B + I 3 ⋅ I 3 ] = [ I 2 B A A B + I 3 ] \begin{bmatrix}
I_2 & O \\
A & I_3
\end{bmatrix}
\begin{bmatrix}
I_2 & B \\
O & I_3
\end{bmatrix} =
\begin{bmatrix}
I_2 \cdot I_2 + O \cdot O & I_2 \cdot B + O \cdot I_3 \\
A \cdot I_2 + I_3 \cdot O & A \cdot B + I_3 \cdot I_3
\end{bmatrix} =
\begin{bmatrix}
I_2 & B \\
A & AB + I_3
\end{bmatrix}
[ I 2 A O I 3 ] [ I 2 O B I 3 ] = [ I 2 ⋅ I 2 + O ⋅ O A ⋅ I 2 + I 3 ⋅ O I 2 ⋅ B + O ⋅ I 3 A ⋅ B + I 3 ⋅ I 3 ] = [ I 2 A B A B + I 3 ]