查看原文
其他

遇见独角兽 | Vicarious发表机器学习突破性论文

被投公司新闻 丰元创投 2022-12-13


A

BOUT VICARIOUS



Vicarious基于脑科学的视觉模型,使用CNN的千分之一量级的超少数据,实现比现有深度学习模型,实现更快的模型训练、更好的适应性、并能够比当今常用的深度学习方法更广泛地推广。近日发表一篇关于深度学习图谱的论文,该图谱可以对高阶序列进行建模并处理不确定性。


公司随处可见的使命“Our Frontier, Human-Like AI"


了解更多信息,请访问 https://www.vicarious.com/。





 前言 


Vicarious研究团队成员Dileep George、Antoine Dedieu和Nishad Gothoskar等发表文章:《使用克隆HMM对高阶序列进行建模》。


本文编译自该文章节选,查看原文请点击最下方"阅读原文“。




我们的新论文阐述了如何对变量序列结构进行建模,加强"仿生物模型生成“的稀疏结构可以缓解HMM中的信用扩散问题。这是深度学习与脑神经科学交汇的重要成果,我们认为未来CHMMs也可以适用于对其他脑组织的序列建模,例如海马体。


- Dileep George, Ph.D

Vicarious联合创始人







变量序列模型是人工智能和自然智能中的一个重要问题。虽然过完备的隐马尔可夫模型(Hidden Markov Models,HMMs)在理论上具有表示长期的瞬间结构的能力,但它们往往无法学习并收敛于局部最小值。通过使用受生物学启发的简单稀疏结构来约束HMMs,我们可以使它有效地学习变量序列。我们将此模型称为克隆HMM(CHMM),因为稀疏结构强制让许多隐藏状态确定性地映射到相同的发射状态。具有超过10亿个参数的CHMMs可以在GPU上进行有效训练,而不会受到标准HMMs的信用扩散问题的严重影响。与n-gram和序列记忆器不同,CHMMs可以在任意长距离处建立时间依赖性模型,并识别其中不完整的语境。与递归神经网络(Recurrent Neural Networks)及其长期的短期记忆扩展(Long Short-Term Memory extensions,LSTMs)相比,CHMMs是可以原生处理不确定性的生成模型。此外,CHMMs可以反馈回一个高阶图来表示数据的时间结构,可用于社团发现和构建分层模型。我们的实验表明,CHMMs可以在字符级语言建模任务上战胜n-gram,序列记忆器和LSTMs。在某些需要变量序列建模和处理不确定性的任务中,CHMMs可以用来替代上述这些方法。


序列建模是一个基本的现实问题,具有广泛的应用。递归神经网络(RNNs)是目前序列预测建模中的首选,因为它们能够模拟长期和可变的顺序依赖性。然而,RNNs在若干应用中也有缺点,因为它们不能原生地处理不确定性,并且具有不可预测的内部表征。 


像隐马尔可夫模型(Hidden Markov Models,HMM)这样的概率序列模型具有更多可解释的表征和处理不确定性的能力等优势。尽管具有比观察到的状态更多的隐藏状态的过完备的HMMs在理论上可以模拟长期的时间依赖性,但由于信用扩散,训练HMMs依旧具有挑战性。因此,对于语言建模这类任务,简单且不易改变的n-gram模型优于HMMs。为了克服信用扩散问题,人们已经提出了用于HMMs学习的张量分解法,但是现有的方法不适用于跃迁矩阵和发射矩阵的满秩需求没有满足的过完备设置。最近,人们对更高阶依赖性的过完备HMMs训练这一主题产生了兴趣,期待稀疏结构有可能会缓解信用扩散问题。


在本文中,我们证明了发射矩阵中的特定稀疏结构可以帮助HMMs利用标准期望最大化算法(Baum-Welch)及其在线变体转化来学习高阶时间结构。我们将此模型称为克隆HMM(CHMM),因为稀疏结构将多个隐藏状态(克隆体)确定性的映射到相同的发射状态,而标准HMM中的发射矩阵是密集的,允许任何隐藏状态传递出任何发射状态。基本思想起源于一种流行的压缩方法,称为动态马尔可夫编码(dynamic Markov coding,DMC),其中一阶马尔可夫链的时间依赖性会通过“克隆”状态而逐渐增加。同样的思想已经在不同的领域中被多次反复发现。大家推测,鸟鸣中的高阶序列表征的背后是克隆的隐藏状态,皮质环路的层状和柱状组织的特定方面反映了这种克隆结构。研究人员尝试使用起源于一阶马尔可夫模型的贪婪状态分裂算法来学习这种结构或部分可观察的马尔可夫模型。而我们认识到克隆结构可以被初始化为HMM的稀疏发射矩阵。HMM预先为每个符号分配最大分割容量,并让学习算法决定如何利用该容量。与贪婪状态分裂方法相比,这会带来更大的灵活性。



我们利用CHMMs来学习使用各种英语文本数据集的英语字符级模型,来测试CHMMs的功效。我们的实验表明,CHMMs在其中一些任务中胜过标准HMMs,n-grams,序列记忆器和LSTM-RNNs,并且可以有效地训练和推断。 CHMM学习的模型完备系数达到1000倍,非常稀疏。与n-grams不同,CHMMs可以模拟任意长期的时间依赖性,而无需预先指定顺序。当预测语境包含不影响预测的无关符号时,n-grams和序列记忆器将需要更多的训练数据才能使用语境进行预测,但CHMMs可以有效灵活地处理这些序列。作为生成模型,它们可以自然模拟不确定性,并且可以回答训练目标之外的问题。CHMM学习的跃迁矩阵是生成过程的稀疏图,并且该图的结构分析可以显示出帮助进行分层建模和规划的社团。


尽管CHMMs在我们目前的许多环境中都优于LSTMs,但我们预计LSTM的性能在针对较长的数据集时会更出色。此外,我们知道LSTMs可以很好地处理大型词汇集,而这方面对CHMMs来说还有待考证。尽管如此,CHMMs还是序列结构学习的良好模型,特别是当我们需要理解生成结构,或当结构相对稀疏,或当我们需要处理不确定性的时候。值得注意的是,一些现在最常使用的深度学习的语言模型只能处理有限的语境,无法处理某些序列所需的任意长段的记忆,而CHMM可以对这些序列进行建模。


我们的工作为未来的研究开辟了几个方向。由于CHMMs的表征思想起源于生物学,因此研究新皮层和CHMMs中序列表征之间的映射将是未来研究的一个有趣的方向。



参考资料:

[1] Learning higher-order sequential structure with cloned HMMs

https://arxiv.org/abs/1905.00507




您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存