查看原文
其他

量子NLP已来?一英国创企:实现迄今最大规模量子自然语言处理

林檎 数据实战派 2022-01-14



用电子计算机执行自然语言处理任务,已经取得诸多进展。但是,如果是用量子计算机呢?

英国时间2021年3月2日,一家名为Cambridge Quantum Computing (下文简称CQC)的创企宣布,他们在量子计算机上实现了有史以来最大规模的量子计算自然语言处理
任务(Largest Ever Natural Language Processing Implementation on a Quantum Computer)。


“多个独立实验强有力地证明了,量子自然语言处理触手可及”,在一份声明中,该公司如此介绍道。

与该成果相关的研究论文QNLP in Practice: Running Compositional Models of Meaning on a Quantum Computer则已刊登在预印本网站Arxiv上。该论文详细介绍了这些实验,展示了NLP任务是如何在量子计算机上实现的。


文中写道:“总而言之,本文的贡献如下:首先,我们概述了在量子计算机上训练和运行NLP模型的过程、技术和挑战;其次,我们提供了一个强大的概念证明,即量子NLP(QNLP)即将到来”。


QNLP实验

本次成果中,硬件上使用了IBM的量子计算机完成,而CQC则负责将句子实例化为参数式的量子线路,并根据句子语法结构,将单词含义嵌入为“纠缠”的量子态。

量子计算提供了一种革新计算机的方法,量子计算机可以利用量子理论、叠加和纠缠的特性来进行与经典计算机完全不同的计算。使用量子计算机加速AI算法的训练是一种具备前瞻性的方法。

量子自然语言处理处理,便是在量子硬件上运行NLP模型。

CQC团队在论文介绍,他们根据Coecke等人提出的意义组成模型的形式相似性和量子理论,创建了具有与量子电路自然映射关系的句子表示形式,然后在NISQ计算机上进行实验结果,使用了包含超过100个句子的数据集进行训练。结果证明,这些表示成功训练并实现了两个NLP模型,可以解决基于量子硬件的简单句子分类任务。

CQC团队使用了两种不同的数据集。第一个数据集含130个句子,由一个简单的无上下文语法自动完成,一半的句子与食物有关,一半的句子与食物有关,面向二元分类任务。另一个数据集含105个名词短语,提取自RELPRON数据集。而模型的目标是,预测名词短语是否包含基于主语或基于宾语的相对从句,即再次执行二进制分类任务。

最终,在先前的概念证明工作的基础上,模型对所使用的数据集实现显著收敛。对于未来的进一步研究方向,CQC团队称,可以考虑两种扩大实验规模的方法:句子数和词汇量。

NISQ时代


值得一提的是,这次实验使用的量子计算机是NISQ计算机。

在量子计算的美誉、争议与炒作混作一团的时候,相较于“量子优越性”,NISQ其实是一个更能够帮助我们理清现状的概念。

这个概念由加州理工学院理论物理学家John Preskill在2017年12月5日的量子商业计算机大会上提出。NISQ,Noisy Intermediate-Scale Quantum,表示“带噪声的中型量子计算”。这里“中等规模(Intermediate-Scale)”指的是,现在可以获得的量子计算机的尺寸大小:可能大到足以执行某些高度专业化的任务,超出了当今超级计算机的能力范围。“噪声(Noisy)”,则强调对量子比特的控制仍不非常完美,这导致小的误差会随着时间积累,计算时间太长,答案的可靠性也就越来越低。

建造一台性能优于经典计算机的量子计算机,被认为是本世纪重大挑战之一。在这个目标实现之前,必须处理一些关键问题。其中,最重要的一个问题是噪声导致的退相干,人们可以使用纠错算法校正退相干,但是挑战在于操作一个容错量子位可能需要数千个物理量子位。

所以,我们目前所说的量子计算,正处在一个叫作“NISQ”的时代。

而CQC团队认为,即便是在NISQ时代,量子算法的开发依然刻不容缓。他们此次实验的目标之一,便是描述量子自然语言处理(QNLP)及其结果,使之能够被NLP研究人员及从业者理解,从而为NLP社区进一步参与语言处理的量子编码铺平道路。

CQC首席科学家兼该公司QNLP项目负责人Bob Coecke称:“这是CQC一项雄心勃勃的项目,旨在利用量子计算机,从成本高昂的NLP黑盒机制转向一种范式,在这个范式中,我们在计算机科学领域会变得更有效、更精确、更可扩展。我们在NLP‘量子原生(quantum-native)’这个方向上已取得了进展。在之前研究的基础上,我们将致力于与IBM、霍尼韦尔(honeywell)、谷歌等量子计算硬件公司提供的时间表同步开发的应用程序。”

公开资料显示,CQC成立于2014年,是英国一家量子计算软件初创公司。

早在去年4月,CQC曾宣布他们在量子计算机上执行的自然语言处理测试获得成功,且为全球首次成功案例。在那之后,CQC研发的首款量子计算机通用
系统Deltaflow.OS诞生。2020年12月,CQC完成了4500万美元的融资(约合人民币2.9亿),投资方包括Honeywell Venture Capital、IBM等。在这之前,量子计算领域的投资主要围绕量子硬件公司进行。


Refrences:
https://arxiv.org/pdf/2102.12846.pdf
https://arxiv.org/pdf/2012.03756.pdf
https://www.quantamagazine.org/john-preskill-explains-quantum-supremacy-20191002/


 往期推荐 

计算机界论资排位的老字号 CSRankings,为何被密歇根大学教授 “嫌弃”?
巧借 “他山之石”,生成信息量大、可读性强且稳定的摘要
一家图灵奖得主背书创企的陨落,暴露了 AI 弱国 “恒弱” 的困境?
女性和少数族裔,正成为无监督预训练模型偏见的 “受害者”
巧借 “他山之石”,生成信息量大、可读性强且稳定的摘要
从本体论到知识图谱, 著名学者 Pascal Hitzler 长文回顾语义网 20 年发展
丨吴恩达团队新研究:在 ImageNet 上优化的模型,真的能更好胜任医学影像任务吗?
华为 AI 水军被推特封禁的背后,谁应为 AI 应用的边界负责?
果蝇能学会 Word Embedding 吗?丨麻省理工联合团队 ICLR 2021 论文
发明现代概率的男人:他如何发现 “不可能” 对人类事务的影响?

关于数据实战派
数据实战派希望用真实数据和行业实战案例,帮助读者提升业务能力,共建有趣的大数据社区。

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存