查看原文
其他

剑桥量子发布全球首个量子自然语言处理工具包和库

光子盒研究院 光子盒 2022-07-04
光子盒研究院出品
 
10月13日,剑桥量子(Cambridge Quantum, CQ)宣布发布世界上第一个量子自然语言处理(QNLP)工具包和库。该工具包被称为lambeq(或λambeq),以已故数学家和语言学家Joachim Lambek的名字命名。
 

 
lambeq是世界上第一个QNLP软件工具包,能够将句子转换成量子电路。它旨在加速实际的QNLP应用程序的开发,例如:自动对话、文本挖掘、语言翻译、文本到语音、语言生成和生物信息学。
 
lambeq是在完全开源的基础上发布的,受益者包括全球量子计算社区以及快速发展的量子计算研究人员、开发人员和用户生态系统。lambeq与CQ的TKET无缝合作,TKET是世界领先、发展最快的量子软件开发平台,也是完全开源的。这为QNLP的开发者提供了最广泛的量子计算机访问权限。
 
lambeq由剑桥量子首席科学家Bob Coecke领导的CQ牛津量子计算研究团队构思、设计和工程化,高级科学家Dimitrios Kartsaklis博士担任平台的首席架构师。坦白来讲,lambeq和更广泛的QNLP是一个持续十多年的研究项目的结果。今年3月初,他们实现了有史以来最大的量子自然语言处理任务。
 
Coecke说:“我们的团队一直在从事基础性工作,探索如何利用量子计算机解决人工智能中一些最棘手的问题。这项工作是基于最初由我、现任CQ人工智能主管Steve Clark(DeepMind前高级研究科学家)和其他人贡献的开创性成果。NLP是这些成果的核心。”
 
该团队已经证明,QNLP是“量子原生”的,这意味着支配语言的组成结构在数学上与支配量子系统的结构相同。
 
lambeq支持并自动化了剑桥量子科学家之前描述的成分分布(DisCo)类型的NLP实验的设计和部署。lambeq从对文本结构进行编码的语法/语法图,转移到用TKET实现的(经典)张量网络或量子电路,以便为机器学习任务(例如文本分类)进行优化。
 
lambeq采用模块化设计,因此用户可以在模型中交换组件,并在架构设计上具有灵活性。
 
lambeq消除了专注于人工智能和人机交互的从业者和研究人员的进入壁垒,这可能是量子技术最重要的应用之一。TKET在全球范围内拥有数十万用户。lambeq有潜力成为量子计算社区寻求参与QNLP应用的最重要工具包,QNLP应用是人工智能最重要的市场之一。
 
在剑桥量子的官方报道的中,他们指出,根据行业分析师预测,到2028年,全球自然语言处理(NLP)市场的价值将达到1272.6亿美元,复合增长率近30%。另外根据Fortune Business Insights报告,在全球范围内,NLP应用最广泛的领域包括银行、金融服务和保险,高科技和电信,零售,汽车交通,以及医疗保健等。
 
 
自然语言处理应用领域
 

简单来说,lambeq使用QNLP将句子转化为量子电路,以便在量子硬件上实现。
 
QNLP原理图
 
但是实现起来是一个复杂的过程。第一步,把句子中的单词变成计算机能理解的东西。通过这个过程,句子被转换成一种叫做语法树的逻辑格式。接下来,软件分析语法树,然后将其组织成词类。一旦词类被识别出来,它就会被转换成一个字符串图。经过编码后,使用TKET实现的张量网络或量子电路就可以为机器学习任务(如文本分类)进行优化。如下图所示:
 
 
句子解析为语法树→编码为字符串图→重写字符串图→参数化生成量子电路或张量网络→经过优化实现特定任务输出
 
具体到lambeq中,第一步是分析一个句子,对于选定的组合模型,在统计组合范畴语法(CCG)解析器的帮助下生成语法树。下一步是将解析树转换成字符串图,一个字符串图表达了句子的语法结构。例如,“We are explaining how lambeq works”这句话在字符串图格式中变成:
 
  
lambeq使用Python库DisCoPy作为后端来存储和操作这些字符串图。
 
在此基础上,可以通过应用重写规则简化或转换字符串图。例如,使图表更容易转换为适合当前可用量子硬件的电路。然后,根据选择是在量子计算机上还是在经典计算机上执行,将重写的字符串图转换为实际的量子电路或张量网络。这种转换取决于用户对ansätze的选择——这是工具包中提供的预定义选择。
 
例如,“We are explaining how lambeq works”这句话的量子电路是:
 
 
然后,这个输出可以通过量子编译器(如剑桥量子的TKET)被引导到量子模拟器或越来越多的可用量子计算机。对于经典实验的张量网络,可以将输出引导到诸如PyTorch或Jax之类的机器学习(ML)库。
 
lambeq已经在GitHub上作为常规Python存储库发布。目前,lambeq生成的量子电路已经在IBM量子计算机和霍尼韦尔H系列设备上执行和实施。
 
lambeq库:
https://github.com/CQCL/lambeq

目前,量子语言处理的研究还处于实验阶段。它还需要数年时间才能发展到能够在大型生产环境中部署。但是,lambeq为研究人员打开了使用和改进QNLP实现独特应用的大门。

参考链接:
[1]https://cambridgequantum.com/cambridge-quantum-releases-worlds-first-quantum-natural-language-processing-toolkit-and-library/
[2]https://medium.com/cambridge-quantum-computing/quantum-natural-language-processing-ii-6b6a44b319b2
[3]https://arxiv.org/pdf/2110.04236.pdf
[4]https://www.forbes.com/sites/moorinsights/2021/10/13/cambridge-quantum-makes-quantum-natural-language-processing-a-reality/?sh=6b3a21513ce8
 
—End—

相关阅读:
CQC实现有史以来最大的量子自然语言处理任务
2021年值得关注的10家量子机器学习公司
京东探索研究院首次提出量子并行处理框架QUDIO
人工智能发展史上的114个里程碑
全球最强量子硬件和软件公司合并!预计2021年底上市
抢人大战!量子计算公司挖来了阿尔法狗的缔造者
量子机器学习的里程碑!CQC证明量子计算机可进行推理

#诚邀共建国内首个量子垂直招聘平台#

光子盒将为中国境内的研究机构和企业提供一个免费的垂直招聘信息发布渠道,欢迎有需求的机构或企业直接联系光子盒。(微信:Hordcore)

你可能会错过:

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存