深度学习

  1. 对角矩阵受到关注的部分原因是对角矩阵的乘法计算很高效。计算乘法diag(v)x,我们只需要将x中的每x_i放大v_i倍。对角方阵的逆矩阵存在,当且仅当对角元素都是非零值,在这种情况下,diag(v)^{-1}=diag([1/v_1,...,1/v_n]^T)
  2. 正交矩阵指行向量和列向量是分别标准正交的方阵,即
    A^TA = AA^T = I
    这意味着
    A^{-1} = A^{T}
    正交矩阵受到关注是因为求逆计算代价小。
  3. 特征向量是使用最广的矩阵分解之一,即我们将矩阵分解成一组特征向量和特征值。
    方阵A的特征向量是指与A相乘后相当于对该向量进行缩放的非零向量v
    Av = {lambda}v
    其中标量lambda称为这个特征向量对应的特征值,通常我们更关注右特征向量。(备注:左特征向量 v^TA = {lambda} v^T
    如何理解矩阵特征值?
    相似矩阵有什么用?
    假设矩阵A有n个线性无关的特征向量{v^{(1)},...,v^{(n)} },对应着特征值{ lambda_1,...,lambda_2 }。我们将特征向量连接成一个矩阵。使得每一列是一个特征向量;V = {v^{(1)},...,v^{(n)} }。类似地,我们也可以将特征值连接成一个向量lambda = [ lambda_1,...,lambda_2 ]^T 。因此A的特征分解可以记作
    A = Vdiag(lambda)V^{-1}
    证明:
    AV = A[v^{(1)},...,v^{(n)}]= [Av^{(1)},...,Av^{(n)} ]
    V diag(lambda)= [v^{(1)},...,v^{(n)}] diag(lambda)= [v^{(1)}{lambda}_1,...,v^{(n)} {lambda}_n]
    AV = V diag(lambda)
    A: 1*1
     V:1*n
      diag(lambda) : n*n
    线性代数(同济大学第六版)第五章第3节定理 4 n阶矩阵A与对角矩阵相似(即A能对角化)的充分必要条件是A有n个线性无关的特征向量
  4. 奇异值分解详解
    奇异值分解的物理意义

    • 矩阵乘法运算律:
      (AB)C = A(BC)
      lambda (AB)=(lambda A)B=A(lambda B)
      A(B+C)=AB+AC, (B+C)A=BA+CA
    • (A^TA)^T=A^TA
      (AA^T)=AA^T
      AA^TA^TA是实对称矩阵,可以相似三角化。
    • A=XY=sum_{i=1}^{k}{delta _i u_i v_i^T} = sum_{i=1}^{k}{Av_i v_i^T} = A sum_{i=1}^{k}{v_i v_i^T} = AE
    • 点乘 Av_i是列向量
      Av_i cdot Av_i= (Av_i)^TAv_i