DMSM 的「看图说话」能力:「Jen-Hsun Huang, Xiaodong He, Jian Sun et al. that are posing for a picture.」(黄仁勋、何晓冬、孙剑等合影留念) 在 2016 年初微软研究院举办的技术节(TechFest)上,何晓冬也在自己的「摊位」向微软 CEO Satya Nadella 展示了这项工作。
「在微软研究院,你可以做任何研究;但是如果想放大,就要选择场景,选择合适的产业和行业。中国互联网服务的天花板更高,服务量更大,应用场景更广,后来我们想到,比如京东的人工智能技术很多就是在实践中打磨的,某种意义上说,京东的智能客户服务场景,可能是国内在客服领域最佳的 AI 实践场景。」 2017 年到 2018 年间,几位 AI 领域的知名学者陆续加盟京东。他们的初衷是相似的:将学界最先进的技术带过来,在产业中真正用一用。 全面向技术转型之后,京东内部曾就「走哪种 AI 发展路线」进行过一番探讨和规划。他们得出的结论是,要从技术、产品、生态三方面启动搭建。 2019 年底至 2021 年初,京东云经历了两次组织架构上的调整。第一次是京东云与人工智能、IoT 三大事业部整合为京东云与 AI 事业部,第二次是京东将云与 AI 业务与京东数科整合,成立京东科技子集团。 三年两次的架构调整,伴随着的是京东在 AI 落地经验上的不断深化。大家的共识逐渐清晰:一定要更懂产业,在产业服务上做文章。 据统计,京东体系目前用于技术研发的投入超过了 800 亿,京东科技 60% 以上的员工都是技术和产品人才,何晓冬、郑宇、陶大程、梅涛 4 位科学家入选 IEEE Fellow,此外还包括 40 + 位全球顶级科学家。迄今为止,京东累计申请专利 4635 个,在国际 AI 顶级会议共发表近 500 篇论文,获得了 25 项国家 AI 竞赛冠军。 几年过后,京东在 AI 技术上的积累愈发深厚。更重要的是,京东可以提供基于最佳实践的解决方案,通过产品为客户创造价值,客户不需要是有经验的开发者,用户只需要做出商业上的决策。 如何成为「最懂产业的云」 来到京东之后,何晓冬延续了此前在对话式 AI、多模态等领域的研究,并带领团队将一系列研究成果迅速转化,应用在京东的智能服务业务中,包括知识融合的预训练模型 K-PLUG、长文本阅读 Read-over-Read 模型、数值推理 OPERA 模型、时序知识图谱 TSQA 模型等。 其中,基于领域预训练 K-PLUG 的商品文案生成模型已经覆盖了京东的 3000 多个三级品类,人工审核通过率 95% 以上,媲美优秀的人类写手,目前共生成文案 30 亿字,已应用于京东发现好货频道、搭配购、AI 直播带货等,累计带来超过 3 亿元 GMV。
一键生成 3000 + 品类文案。 同时,何晓冬还牵头搭建了京东内部大规模对话式 AI 系统的搭建工作。 和国外主要针对 To C 业务的「闲聊机器人」相比,京东的智能对话系统以 To B 为主,往往是来自真实场景的具体问题或任务驱动型的对话。京东积累了大量与真人沟通的场景数据,为智能人机对话与交互等前沿技术的落地提供了最好的实践场。 技术上的差距已经不构成绝对挑战,但到了落地应用又是另外一回事。拿对话式 AI 来说,比较常见的技术壁垒包括口语不流利、话语权决策、鲁棒性这三个问题。 业界一直在寻找好的破解路径。在今年 5 月的谷歌 I/O 大会上,为了解决语音背景噪声、用户说话磕巴、语句断断续续产生的问题,谷歌宣布 Google Assistant 已经进一步优化了神经网络模型,可以对非连续的对话进行理解。 京东云遇到此类问题的时间要比谷歌早,形成了有效解决方案的时间也更早。 2020 年底,业界首个大规模商用的智能对话与交互系统「言犀」应运而生。针对上述的问题,言犀给出了自己的解决方案。 以口语不流利的问题为例,我们都知道,口语化表达经常包含磕巴、语句断断续续的情况,还会有大量的重复、停顿、自我修正等表述;不同文化背景、不同地区的方言习惯也存在不同的呈现方式。此外,几乎每年都会出现大量互联网新词汇。这些都会对下游的语义理解造成干扰。 言犀采用序列标注模型对句子中的每个字进行分类,从而识别句子中需要删除的冗余成分,达到口语顺滑的目的。面向为了缓解模型对于标注数据的过度依赖,言犀采用自监督学习的方式,通过对大规模的书面流畅文本进行插入、删除等操作,从而生成大量的不流畅文本。同时,还联合语法判别任务,对于输入的文本,从整个句子层面判断是否语法正确。 还有一个问题是怎么学习「接话」问题。对于智能对话系统来说,判断在合适的时机接过话语权,并且在听者和说话者之间流畅、自然地转换,是个有些超纲的问题。 对此,言犀引入了多模态技术,不再单凭语音信号来判断是否接过话语权,而是分别使用语音、语义以及时间三种不同纬度的特征来判断是否切换话语权。
从场景中来,到场景中去。凭借 19 年来高效、创新、可持续的跨越式发展,京东已经验证和凝练了一套完整的能力体系。对话式 AI 落地再难,京东的科学家们也早已准备好了答案。 用何晓冬博士的一句总结:「如果想走得更远,AI 必须要成规模的覆盖低频、长尾的场景。将单点的、最先进的科研模型在产品上综合落地,这是真正能够拓展 AI 价值边界的事情。」 最先进的人工智能算法,服务最接地气的场景,就是京东云的本色,也应该是产业 AI 发展的本色。