他在京东每天做1000万次图灵测试
△ 电影《模仿游戏》,改编自《阿兰·图灵传》
本文转载自 量子位 公众号|一千人眼中有一千个哈姆雷特,从阿兰·图灵(Alan Turing)博士第一次提问 “机器会思考吗?”并设计出图灵试验算起,70年来AI领域涌现的杰出人物灿若繁星,像推动最近这一轮AI复兴的深度学习三巨头Bengio、Hinton、LeCun,以及创造了AlphaGo的Demis Hassabis等。几代学者接力棒般地努力,将人工智能从科学猜想一步步推向现实,呈现给大众。
在MEET2022智能未来大会上,京东的何晓冬来到了活动现场,讲述了京东在技术方面的进展,以及在各产业的应用。
何晓冬在量子位 MEET 2022演讲
作为一家新型实体企业,京东自2017年初全面向技术转型以来,已在技术上累计投入近750亿元,展示了京东对于技术和人才的重视,并将内部沉淀和打磨多年的技术全面向社会开放,帮助外部合作伙伴实现数字化升级。
此外,依托丰富的场景和在智能供应链方面的优势,京东也吸引了众多优秀的科学家加盟。
何晓冬便是其一。
他在自然语言处理、多模态智能等领域深耕多年,有着众多研究成果,并将这些成果大规模的应用在京东和产业界。
活动结束后,我们还聊了聊他经历的AI复兴往事。
01 最早一批投身
深度学习的AI科学家
在加入京东前,何晓冬就职于微软雷德蒙研究院(MSR Redmond),任首席研究员(Principal Researcher)及深度学习技术中心(DLTC)负责人。雷德蒙研究院是微软全球八大研究院之首,位于微软总部。
在这里,不仅有海量高影响力学术论文诞生,还有众多学术研究成果被转化到微软产品中去。比如微软在隐私保护方面的机器学习算法、DNA存储数据系统的开发,都是雷德蒙研究院的成果。
此前举办多年的微软研究院技术节(TechFest)也是在这里举办,对微软乃至整个业界都有着举足轻重的影响。
在学术界这些年,何晓冬提出多个基础方法和经典模型,推动和启发了众多国内外科技创新。
在自然语言处理、语言与视觉多模态智能等领域,他发表论文200余篇,谷歌学术引用3万余次;其中前10篇代表作的引用超过15000次,并多次获得ACL杰出论文奖、IEEE SPS最佳论文奖等奖项。
何晓冬的谷歌学术主页
比如在2014年,他与深度学习三巨头之一Yoshua Bengio等人给IEEE TASLP投稿的《Using RNN for Slot Filling in Spoken Language Understanding》,提出了基于深度循环神经网络的口语理解模型,为口语理解领域带来突破。
六年之后,该论文获得2020年度IEEE 信号处理协会 (IEEE SPS)最佳论文奖。跟一般顶会的最佳论文奖不同,这个奖是从过去6年里发表于IEEE SPS的所有论文里评选,相当于经过了时间的检验。
何晓冬还为此感慨道,AI领域发展很快,这个工作萌发idea的时候,这些作者里还只有一位IEEE Fellow,获奖的时候,作者群里已经7位Fellow加一个图灵奖了。
ICASSP 线上举办的颁奖典礼
又比如2018年,何晓冬与沈向洋、李笛等人在中国工程院刊FITEE发表论文《From Eliza to XiaoIce: Challenges and Opportunities with Social Chatbots》,深度探讨了构建先进人机对话系统的设计原则,获得业界广泛关注,并获得2018年度优秀论文奖。
基于其对自然语言理解和语言与视觉多模态信息处理的贡献,2018年底何晓冬当选IEEE Fellow。
此外,他还曾担任IEEE西雅图分会主席及多个顶级学术期刊编委。
在今年清华-中国工程院知识智能联合研究中心推出的AI 2000人工智能全球最具影响力学者榜单中,何晓冬同时入选自然语言处理、语音识别、信息检索与推荐3个领域。在这个榜单里,跨3个及以上领域入选的学者全球只有61位。
二十载学术生涯中,何晓冬的研究贯穿了语音识别、语言理解、图像与语言多模态信息处理等领域。也正好在这一时期,深度学习及人工智能技术迎来新一轮爆发。
02 深度学习爆发的
见证者、参与者
这一点在何晓冬身上也有印证。
站在当下这个节点上,何晓冬回望走过的路,何晓冬对我们讲述了自己亲历的深度学习发展中的几个片刻。
关于这个故事,还要从2006年说起。
当年,深度学习三巨头之一Geoffrey Hinton在顶刊Science上发表了一篇论文,名为《Reducing the Dimensionality of Data with Neural Networks》。
虽然当时人们认为这篇论文并不好懂,但现在回头来看,这篇论文可以称得上是这次深度学习浪潮的起点。
而彼时何晓冬考虑的,却是另外一个问题:需要什么样的算法才能在像大规模语音识别、机器翻译这类硬核的AI任务上产生真正的突破?
在他看来,很多算法、理论确实够前沿新颖,但当真的用到实际问题中时,效果却差强人意。
之后在2008年的机器学习顶会NeurIPS(当时叫做NIPS)上,他和当时微软的同事邓立便举办了一场语音语言研讨会(NIPS Workshop on Speech and Language: Learning-based Methods and Systems),同时也邀请Hinton来做报告。
之后邓立还邀请Hinton去微软“做客”,期望将他提出的最新理论,拓展应用到公认很难的大规模词表语音识别任务中去。
而就是这一次合作,让大规模语音识别这件事在2010年,第一次出现了非常明显的进步。
具体而言,深度学习将大词表语音识别性能突破性提升了20%,可以说是开启了后来一系列人工智能硬核任务上的突破。
以Switchboard数据集上的语音识别性能测试为例,在此之前,基本错误率都高到没法在实际场景中大规模用起来。
而从2010年开始,大词表语音识别的错误率每年都在迅速下降。
到了2017年,在Switchboard上的错误率被降低至5.1%,这也是首次在这个数据集上AI达到了人类职业速记员的水平。
但实际上,2010年那次深度学习在语音识别上取得突破的影响,远不止于此。
重点是它让大家对深度学习、神经网络看法发生了改观——“原来这是条可行的路”。
于是,在这扇大门敞开之际,深度学习领域与之相关的各项研究都开始遍地开花。
比如图像识别方面,以ImageNet项目为例,在2012年Hinton和他的学生研发的深度学习模型将物体识别的错误率降低了1/3。并且随后每一年识别错误率都在持续大幅下降。
在2015年,深度学习模型在ImageNet数据集上把识别错误率降到了3.57%,首次超越了人类的5%错误率的水平。
而且不单是对语音和图像的识别,理想中的AI应该是能像人一样去理解语言背后更深层的语义,就是说AI需要从感知智能进化到认知智能。
在此理念之下,何晓冬等人投身其中,探索从自然语言中提取出抽象的语义并将它投影到一个语义空间,以此来帮助搜索、推荐、分类、问答等实际应用。
具体而言,他们在2013年提出了深度结构化语义模型DSSM(Deep Structured Semantic Models),将多样化的自然语言所表达的含义,表示成为一个多维度连续语义空间中的向量。
值得一提的是,该模型产生的影响可谓深远,不仅仅在学术界被引用过千次,在工业界也极具适应性。
时至今日,几乎所有做搜索推荐场景的大厂仍在使用DSSM及其衍生模型,其影响力度可见一斑。
除了语言之外,在2015年的一个工作中,他们将知识也用向量、矩阵等方式来表征并投影到高维连续语义空间中。
更进一步,语音、语义或图像上的突破还只是单一领域的智能,而人类的智能更为复杂丰富。
比如就像我们人类看下面这张图一样,很自然就能够get到图片中人物的活动,并用语言去描述出来,而不只是简单的检测出图中的人和物。
何晓冬等在CVPR2015发表的关于视觉和语言多模态图像描述的论文
03 回国,加盟京东
售前咨询对话的一个案例
更多了解