查看原文
其他

【特征向量新解法】数学天才陶哲轩和三位物理学家的新发现

飞奔的大象l 数学算法俱乐部 2020-10-12

A为n阶矩阵,若数λ和n维非0列向量x满足Ax=λx,那么数λ称为A的特征值,x称为A的对应于特征值λ的特征向量。


它的物理意义是:

一个矩阵A乘以一个向量x,

就相当于做了一个线性变换λx。

方向仍然保持不变,

只是拉伸或者压缩一定倍数λ。


特征向量和特征值的几何本质,其实就是:

空间矢量的旋转和缩放


线性变换 A 对于特征空间只起到“扩张(或者压缩)”的作用(扩张后还是同样的特征空间)


求解特征向量

按照传统解法:

计算特征多项式→求解特征值→求解齐次线性方程组,得出特征向量。


没错,就是这个再普通不过的基础数学求解公式。这也是教科书里面求特征值的方法!

然而,三位物理学家PeterDenton、StephenParke、张西宁发现了一个全新的方法:

知道特征值,只需要列一个简单的方程式,特征向量便可迎刃而解。

重点来了:

只需要列一个简单的方程式
只需要列一个简单的方程式
只需要列一个简单的方程式

重要的事情说三遍!


陶大神一口气用了三种方法证明了这个公式!


大神和三位物理学家一起发表了论文,阐述了这个公式的证明过程!


论文arxiv截图


△三位物理学家分别是:张西宁、Peter Denton和Stephen Parke。

就像陶哲轩所说:
这个公式看起来好得令人难以置信。
我完全没想过,子矩阵的特征值编码了原矩阵特征向量的隐藏信息。

陶哲轩对这个新方法第一反应却是:


这么短、这么简单的东西,早就应该出现在教科书里了!


新方法怎么来的?


但三位物理学家在计算中微子振荡概率的时候发现:

特征向量和特征值的几何本质,其实就是空间矢量的旋转和缩放。而中微子的三个味(电子,μ子,τ子),不就相当于空间中的三个向量之间的变换吗?

中微子振荡是一种量子力学现象。实验发现,电子中微子、μ子中微子和τ子中微子这三种中微子之间是可以相互转化的,而这就是中微子振荡现象。

△图源:Quantamagazine
三个物理学家意识到,特征向量和特征值之间,可能存在更普遍的规律。

于是,教科书级别的公式被发现了:


通过删除原始矩阵的行和列,创建子矩阵。

子矩阵和原始矩阵的特征值组合在一起,就可以计算原始矩阵的特征向量。

简而言之,已知特征值,一个方程式就可以求得特征向量。

△图源:Quantamagazine


这个新公式有多牛?

数学天才、菲尔兹奖得主陶哲轩评价道:
新公式的非凡之处是,在任何情况下,你不需要知道矩阵中的任何元素,就可以计算出你想要的任何东西。


别被上面的话吓着了,其实很简单,我们用一个naive的二阶对称矩阵试一试就知道:

先用传统的方法求解特征值:
可以得到:
然后使用这个公式可以算得:


证明过程


陶哲轩和Peter Denton、Stephen Parke、张西宁三位物理学家一起发表了论文,论文给出了两种解法,

一种给出一个Cauchy-Binet类型的行列式公式作为引理,构造式证明方法比较巧妙;

第二种证明是借用了伴随矩阵的思路。

ps:小编还在啃论文,希望能给出一个通俗的过程解释。

这一发现的意义:


在现实世界中,无论是在数学、物理学还是工程学中,许许多多的问题都涉及到特征向量和特征值的计算。

图像处理中的PCA方法,选取特征值最高的k个特征向量来表示一个矩阵,从而达到降维分析+特征显示的方法,还有图像压缩的K-L变换。


再比如很多人脸识别,数据流模式挖掘分析等方面。在力学中,惯量的特征向量定义了刚体的主轴。惯量是决定刚体围绕质心转动的关键数据。


在谱系图论中,一个图的特征值定义为图的邻接矩阵A的特征值,或者(更多的是)图的拉普拉斯算子矩阵, Google的PageRank算法就是一个例子。


在量子力学中,特别是在原子物理和分子物理中,在Hartree-Fock理论下,原子轨道和分子轨道可以定义为Fock算子的特征向量。相应的特征值通过Koopmans定理可以解释为电离势能。在这个情况下,特征向量一词可以用于更广泛的意义,因为Fock算子显式地依赖于轨道和它们的特征值。

在神经网络中,深度神经网络本身可以看成是一种对特征向量空间的转换过程。因此是否可以在神经网络每次作转换的时候,根据特征值(奇异值)大小来表示每一维特征的重要性大小,从而调整相应权重的大小,这样是否会使得训练过程更加高效。


论文地址:

https://arxiv.org/abs/1908.03795

https://arxiv.org/abs/1907.02534

    您可能也对以下帖子感兴趣

    文章有问题?点此查看未经处理的缓存