(本文阅读时间:12分钟)
编者按:NeurIPS 2021大会刚刚结束。在今年的大会上,微软亚洲研究院共有22篇论文入选,而其中的8篇都有微软亚洲研究院首席研究员秦涛的参与。自加入微软亚洲研究院以来,秦涛已在 NeurIPS、ICML、ICLR、IJCAI、AAAI、CVRP 等业界顶级期刊、会议上发表了100余篇论文,他所带领的团队也在2018年将中-英机器翻译提升至人类专业水平,在2019年国际机器翻译大赛上获得8项冠军,并且还开发了迄今为止最强大的麻将 AI 系统 Suphx,所研发的语音合成技术被广泛应用于微软 Azure 认知服务、Windows 等多个微软核心产品和服务中。如何持续不断地产出高质量的科研创新成果?或许你可以从秦涛的科研经历中获得一份“锦囊”。
在 NeurIPS 2021大会上,微软亚洲研究院首席研究员秦涛博士参与的论文有8篇被收录,成为本届大会收录论文数最高的研究员之一。其中一篇论文重新审视了深度学习中广泛使用的 Dropout 算法,针对其训练和测试阶段的不一致性提出了改进算法 R-Drop;另一篇摈弃了传统生成式建模中由一个过于简化的边缘(先验)分布加一个条件分布来确定两个随机变量联合分布的做法,提出了由两个条件分布来确定联合分布的理论,从而避免了使用因过于简化而与实际不符的边缘分布,并基于此理论提出了一个全新的生成式建模模式 CyGen。R-Drop 的论文体现了科研人员对已有技术的反思与独立思考能力,而 CyGen 的文章则更具原创性,反映了科研思维的深度。秦涛说,“做研究时,碰到别人习以为常的事情,我们需要思考那样做是否有道理,是否可以改进,从而培养自己独立思考、深度思考的习惯。”
微软亚洲研究院首席研究员秦涛
事实上,不仅是在今年的 NeurIPS 大会上秦涛和团队“盆钵满盈”,自加入微软亚洲研究院以来,秦涛已在顶级期刊、会议上发表了100余篇论文。同时,他所带领的团队近年来也在学术界、产业界屡获佳绩,不少科研成果已被广泛应用。
究竟是怎样的“魔力”可以让秦涛在研究中另辟蹊径,不断提出新问题,应对新挑战,创造无限可能?
2008年,秦涛正式加入了微软亚洲研究院,但在此之前他已经是这里的一名“老员工”了。2003年,还在读硕士的秦涛来到微软亚洲研究院实习,一直到博士毕业。期间,秦涛还曾作为优秀实习生受邀到比尔·盖茨家参加活动。“微软亚洲研究院是当时国内最好的计算机科学研究机构。五年的实习时间已经让我体会到了研究院自由的研究环境和学术氛围。”秦涛说,“这里拥有众多优秀的研究人员和实习生,与其单打独斗,研究院更鼓励我们共同合作创新。所以毕业后,我没有考虑其他选择,毫不犹豫地加入了微软亚洲研究院。”
2007年微软亚洲研究院优秀实习生合影(右一:秦涛)
从实习生到正式的研究员,秦涛的研究方向发生了多次转换。实习初期秦涛主要从事图像检索方面的研究,利用 SVM、Boosting 或决策树等技术处理人工设计特征(比如直方图、纹理分布、SIFT 等)。2005年,微软意识到了互联网搜索的发展前景,开始布局搜索引擎业务。于是,秦涛和团队开始集中精力于互联网搜索的研究。全情投入很快得到了回报,在同年信息检索领域的顶级学术大会 SIGIR 收录的75篇论文中,有15篇来自微软亚洲研究院,占比20%。“我们每个人都穿着同样的T恤,合影时不断引来大家的关注和称赞,‘你们(微软亚洲研究院)来了这么多人呀‘”,回忆起当年参会的场景,秦涛依旧难掩兴奋之情。这次经历让秦涛倍感荣耀,也让他感受到了微软亚洲研究院在全球计算机科研界的实力与位置。互联网搜索工作的持续进步,以及与产品团队的深入合作,让秦涛又将目光对准了互联网广告的研究。不同于互联网搜索中只对网页进行正常排序,互联网广告则需要将优质的广告和用户的查询词按相关度排序,以提升用户的体验。于是秦涛和同事们开始着手于广告点击率预测的相关研究,并拓展到广告拍卖机制的设计和改进,以实现必应(Bing)广告业务的优化。其实无论是图文检索、互联网搜索,还是广告排序,都是机器学习技术的应用,这些积累也让秦涛及团队看到了深度学习、深度神经网络等技术的潜力,为后来秦涛团队在机器翻译、语音合成、语音识别、强化学习等领域的突破性创新奠定了基础。随着对机器学习技术的深入研究,秦涛团队发现很多实际应用中的机器学习任务的输入输出互为对偶,比如机器翻译中的中翻英任务和英翻中任务,语音处理中的语音合成任务(从文本到语音)和语音识别任务(从语音到文本),图文处理中的“看图说话”任务(从图像生成文本)和基于文本的图像生成任务。利用这种机器学习任务之间输入输出的对偶属性可以对无标注数据进行学习,提升机器学习算法特别是深度学习算法的性能。这就是由秦涛团队2016年提出,今天已为业界所熟知的机器学习新范式——对偶学习。对偶学习思想最关键的地方在于,给定一个原始任务模型,它的对偶任务模型可以给其提供反馈;同样的,给定一个对偶任务的模型,其原始任务模型也可以给该对偶任务的模型提供反馈,从而这两个互为对偶的任务可以相互提供反馈,相互学习,共同提高。最初,对偶学习只为解决机器翻译任务,后来逐渐应用于更广泛的领域,包括机器问答、语音识别、语音合成,甚至是图像风格的转换,比如将图像从梵高风格转换成其他画家的风格,将山水画转变为油画,等等。对偶学习还可以用于智能代码生成任务,同时提高代码注释与代码生成的性能。对偶学习从技术上讲并不是特别困难,而在于换个角度看问题,把具有对偶属性的两个任务放在一起联合学习,利用两个模型的输入输出形成反馈闭环,这不同于传统的单任务学习范式,也不同于近年来的多任务学习。秦涛总结到,“更重要的是创新性思维,能否从一个全新的视角看问题,做到这一点就不难发现一片新的天地。”让秦涛拥有成就感的研究项目不少,但其中有一项工作意义尤为特殊——低资源机器翻译。就在前不久,微软翻译突破了百种语言和方言大关。“要突破100种语言的契机和灵感来源于奥运会,”秦涛介绍道,“我们发现2020年东京奥运会的官方网站上只提供了7种语言支持,而参赛的国家却有200多个。若要在语言翻译方面更加充分地体现奥林匹克的共赢精神,还需要技术的进一步助力。”虽然机器翻译的水平随着人工智能技术的进展在不断提高,但纵观市面上的翻译技术和产品,大多专注于训练资源更加丰富大语种,而忽略了低资源的小语种。但事实是,使用小语种的国家和人群属于经济欠发达行列的占比更大,他们更需要获取新信息、新知识、新技术。“我们的目标是‘一个也不能少’,希望所有奥运参赛国的运动员和受众不仅可以在机器翻译技术的帮助下更好地参加和观看奥运会,还可以了解到世界上更多的前沿信息。这个项目可能并不能带来巨大的商业价值,我们也不是为了发表论文,我们更希望的是我们的技术可以帮助小语种使用者打开视野,打破人类语言交流的障碍,这类研究非常有意义。”将想法付诸于行动后,秦涛和研究院以及产品部门的同事们一起利用对偶学习、预训练等技术,克服了小语种使用范围小、学习语料少的困难,在近期为微软翻译又添加了14种语言和方言翻译,包括美尼亚语、阿塞拜疆语、藏语、高棉语、蒂格里尼亚语、阿姆哈拉奇语、老挝语、缅甸语、尼泊尔语、土库曼语、蒙古语(西里尔文字)、蒙古语(传统文字)、维吾尔语和乌兹别克语(拉丁文字)。目前微软翻译已支持103种语言和方言的翻译。
除了将机器学习的强大优势应用在语言翻译方面,秦涛和团队还积极探索机器学习在语音合成上的更多可能性。尽管深度神经网络近年来已被学术界所认可,应用在语音合成方面也有不错的效果,但秦涛和同事们发现模型的运行非常慢,即使使用 V100这种在2019年性能最佳的 GPU 也达不到实时的效果——一句5秒钟的话,机器却无法在5秒内合成语音。而通过不断增加 GPU 来完成任务,其成本是无法承担的,因此用户也无法受益于最新的机器学习技术。为此,秦涛团队和浙江大学联合推出了 FastSpeech 算法,将梅尔谱的生成速度提高了近270倍,让端到端平均合成一条5秒钟语音的时间达到0.18秒,单 GPU 上的语音合成速度达到了实时语音速度的30倍。如今,FastSpeech 算法已经在微软的产品中大范围应用,包括 Teams、Skype、Windows、Azure 中的所有语音合成服务,现在微软的语音合成(TTS)服务已支持超过110种语言和270多种语音。从2003年的实习生,到2008年的正式研究员,再到今天的首席研究员,角色的变化让秦涛感受责任的不同。“在实习期间,我主要集中精力于做实验、写论文;而成为正式的研究员后,我思考的更多的是研究的价值和意义,如何与同事们一起完成‘顶天立地’的研究。”秦涛解释道,顶天就是要做最前沿的研究,例如研究院近年来鼓励的 AI+科学的交叉研究方向;立地则是要做有用的研究,希望我们的技术能够通过改进微软的产品,造福所有用户。在微软亚洲研究院工作的18年让秦涛愈发感受到了开放、协作、多元、包容文化对创新型研究的促进作用。为了推动跨领域交流和交叉学科的研究,微软亚洲研究院引入了各领域的优秀人才,同时还会不定期地组织交流分享活动。秦涛负责组织的“大师论坛”会邀请公司内外部专家分享跨领域的专业知识和洞察。“在与不同专业背景的同事合作研究的过程中,我们会有不认同、质疑对方的时刻,但是很多新的思想正是在碰撞中产生的;对于一致认同的想法,我们会共同让想法落地;对于新的观点,也会尝试验证,提出新的算法、范式,不断推进研究工作。”在秦涛看来,求同存异对于研究创新至关重要。
秦涛与团队成员开会探讨研究进展(右三:秦涛)
此外,当有实习生提出新想法时,秦涛会鼓励大家从一开始就将想法提炼成一两页的书面文档。这样做不仅能理清思路,为后续研究工作形成论文打好基础,更重要的是可以把想法在初期就分享给其他人,及时获取反馈、建议和质疑,从而确保工作在起步阶段就可以站在巨人的肩膀上。秦涛还强调,做研究并不是为了发论文,发论文是为了做更好的、有意义的研究,只有好的研究工作才值得发论文。业余时间,秦涛喜欢读书。为了拓宽自己的视野,他读书的范围并不局限于专业领域。最近秦涛正在读《后疫情时代的中国经济》和《人类进化史》两本书。秦涛认为,虽然这些书对自己的专业研究没有直接的帮助,但却可以让自己看得更远、更深,和微软一起更好地承担起社会责任。