京东云,对话生成AI冠军!
近日,京东云旗下言犀在国际上影响力最广泛的任务型对话数据集MultiWOZ上以103.4的分数斩获端到端任务型对话生成排行榜第一。
MultiWOZ数据集端到端任务型对话回复生成榜单
(榜单自下而上)
关于MultiWOZ
MultiWOZ数据集是国际上影响力最广泛的任务型对话数据集,由剑桥大学提出,聚焦大规模多领域多轮次的任务型对话。MultiWOZ数据集中70%的对话是包括2-5个领域的多领域对话,是自然语言处理领域最经典,挑战性最高的数据集之一。言犀本次参与的是端到端任务型对话生成任务。
由于其具有挑战性的设置,MultiWOZ任务型对话数据集一经发布吸引了全球众多高校和科研机构的参与,包括来自清华大学,香港科技大学,微软研究院,亚马逊,DeepMind以及Salesforce等多个研究小组。
本次言犀团队提出的Mars模型,创新性地利用语义感知的对比学习方法来增强对话上下文表征与对话状态和对话策略之间的关系建模,从而使对话系统更好地完成任务。除了总评分,Mars模型在三个分项评价指标Inform, Success和BLEU也分别以89.9、78.0、19.9排名第一。
这一成果是基于京东言犀在任务型对话生成方面的丰富实践。作为业内首个大规模商用的智能客服系统,言犀支撑了京东客户服务全链条和全生命周期,日均生成1000万对话,服务京东5.8亿用户和17.8万商家。
2022年被称为AIGC(AI Generated Content)元年,生成内容也从单一的文本、对话生成扩展到了语音、代码、图像、视频、数字人、数字孪生等领域。作为一家新型实体企业,京东云旗下言犀坚持产业AI的推进路线,旨在将前沿的AI技术与数智供应链上广阔的产业相结合,扎实布局AIGC并进行融合创新,带来真正意义上的产业价值。
在文本生成领域,言犀目前可以实现短文、长文的生成,依靠领域性大模型K-PLUG,可以实现短文本和长文本的自动生成。目前言犀商品文案生成模型已经覆盖了京东的3000多个三级品类,累计生成文案30亿字,应用于京东发现好货频道、搭配购、AI直播带货等,累计带来超过3亿元GMV。
在语音生成领域,言犀使用基于端到端网络结构的声学模型,对于音调,音量,时长等信息进行了显式建模,同时使用了基于对抗神经网络的神经网络声码器,可以合成非常自然的并且高质量的语音,只需要30分钟训练数据可以生成定制化精品音色,同时只需要10句话就可以实现高质量的小样本音色克隆。目前言犀语音合成API日均调用量超过20亿次,支持中文、英文、泰语,广东话、成都话等各类方言、音色。
音频中王师傅、烧肉酱、采购专员均为编辑生成
过渡平滑自然
在数字人生成领域,言犀面部动作方面通过自研的3DNeuralRender神经渲染器,可以高保真地合成主播面部细节。动作上,言犀研发的动作合成方案,基于RIFE插帧多插入点的快速动作过渡,可以让数字人的动作更加流畅自然;互动中,2D及超写实、高精度3D数字员工驱动方案,可以实现音唇精准同步。作为AIGC的集大成者,言犀目前拥有100+数字人形象,广泛的应用于政务、金融、零售直播等领域。
在数字孪生领域,京东云利用数字孪生技术对产线和制造工艺进行仿真优化,缩减现实世界中的调优试错环节,进而降低产业成本,提升产业效率。
未来,京东云将秉承开放共生的理念,将“更懂产业”践行到底,将“产业AI”扎根到底,激发更多的新模式、新业态,为各行业的高质量发展注入新动能。
参考文献
Haipeng Sun, Junwei Bao, Youzheng Wu, and Xiaodong He. Mars: Semantic-aware Contrastive Learning for End-to-End Task-Oriented Dialog(点击阅读原文查看)