丹棱君有话说:问世 30 多年来,Windows 已经成为全球亿万人工作、生活、创作时不可或缺的绝佳伙伴。2021 年 10 月 5 日,微软产品大家庭正式迎来了最新成员 Windows 11。在如今混合办公、远程协作成为新常态的背景下,新一代 Windows 11 创新的功能设计、高效易用的体验、丰富精彩的内容,将更好地帮助用户提高生产力、发挥创造力。而在 Windows 11 个性化、智能化功能的背后,既有微软产品团队努力的成果,也离不开微软研究部门的技术支持。那么,这些丰富实用的新功能是如何实现的?微软亚洲研究的基础研究创新成果又是如何转化到一线产品中的?
2021 年 10 月 5 日正式发布的 Windows 11,小到“开始”菜单、任务栏的位置、图标和字体的设计,大到自动化推荐、语音控制等功能,都让用户与之所爱更近一步。在更智能化、人性化的 Windows 11 系统中,多个基于微软亚洲研究院的技术创新实现的功能,为用户带来了全新的使用体验。
在这些技术创新中,除了底层的技术支持之外,还有一些用户熟悉的功能,比如从 Windows 7 开始,Windows 产品部门就基于微软亚洲研究院提供的算法,不断提升中文、日文、韩文的手写识别功能。而在最新版本 Windows 11 的“新闻与兴趣(News and Interests)”和“语音访问(Voice Access)”两个功能上,研究院又进一步优化了底层模型,对算法进行了创新,这背后是微软亚洲研究院在推荐算法、深度学习、自然语言处理等领域深耕多年的积累。
深度学习与自然语言处理的融合,让 Windows 11“新闻与兴趣”知你所需
新闻推荐属于一种特殊的个性化推荐,相比于商品、电影等内容的推荐,新闻事件每时每刻都在更新,对于系统来说每条新闻都是全新的内容,这就使得系统无法获得足够的用户交互数据来训练推荐模型,因此,必须从新闻本身出发,加强对内容的理解。尽管之前也有针对新闻推荐的算法模型,但那些模型给用户推荐的往往是同质化的新闻,极易造成用户反感,难以精准匹配用户对新闻的实际需求。
微软亚洲研究院首席研究员谢幸表示,“新闻内容本身和阅读新闻的用户其实都可以用文本表示,推荐的准确与否本质上都可以看作是对这些文本语义理解的深度。过去的推荐系统要么没有使用深度学习技术,无法学习样本数据的内在规律,要么基于深度学习却没有结合自然语言处理(NLP)技术,无法对语义进行更深的理解。”因此,微软亚洲研究院将最新的深度学习与 NLP 技术集成到了对用户和新闻的建模中,大幅提升了推荐模型的性能和准确率。基于此模型,Windows 11 “新闻与兴趣”功能实现了多样化、个性化和更精准的新闻推荐,现在用户可以通过 Windows 11 中的小组件等多种方式随时看到他们最感兴趣的新闻内容。
第一层是针对当前新闻内容本身文本的理解,实际上就是对自然语言的理解。这一层主要基于微软图灵通用语言表示模型,其核心模型和算法采用了研究院最新的统一语言预训练模型 UniLM 和多语言预训练模型 InfoXLM,这两项技术在语言理解、生成和翻译任务上都取得了领先的结果。第二层是对用户的理解,也就是围绕用户所展开的一系列文本理解,但又不只是简单的文本整合。虽然可以将用户看成一个已经浏览或阅读了新闻的文本集合,但不能将所有文本简单地进行拼接,系统还需要了解用户阅读的先后顺序,以及由此形成的用户兴趣群组、对兴趣重要性进行区分等等,这些都是对用户的建模过程。当考虑这些因素时,用户就由原来一系列标签化的表示,转变为在深度学习中的向量表示,从而极大地提升准确率。举例来说,我们可以按照不同的属性类别给某个用户打上诸如男性、本科毕业、居住在北京等标签,这样当一条受北京男性喜爱的新闻出现时,系统就会将其推送给相关用户。然而,这种推荐方法只做了简单的匹配,因为这些标签并不能准确地描述个人特征,比如无法明确说明他真的是北京人,也不知道用户真正的兴趣爱好是什么。但深度学习则可以抛开标签,将每一个人变成数字,也就是向量,通过计算向量之间的相似性来推荐内容。按照此方式,每个人都可以被看作是高维空间中的一个点。新闻则是同一空间中的另一个点,这样就可以直接比较用户和新闻间的距离。我们可以想象,在一个空间中同时包含了众多的用户和新闻,与其中一个用户比较近的自然就是他喜欢的新闻。最后一层是排序。理论上可以将新闻推荐看作是对高维空间中用户与新闻内容距离的计算,但实践中还有更多的因素需要考虑,例如新闻推荐的多样性、公平性、可解释性等等。通过将深度学习与 NLP 集成到新闻推荐系统中,Windows 11 可以更好地满足用户对新闻的需求。数据显示,在所推荐的新闻上,用户的实时点击率得到了提升,浏览时长也有所增加。
历代 Windows 版本都虑到了无障碍增强功能,为不同类别的残障人士提供支持和便利。而 Windows 11 中新增的辅助功能Voice Access(语音访问),则让包括行动不便人士在内的所有人都可以通过语音控制他们的电脑,编辑文本内容,如操作 Windows 系统的应用程序、浏览网页、编写邮件等。
微软亚洲研究院主管研究员吴俣说,“Voice Access 功能使用的是一种端到端的 ASR(Automatic Speech Recognition 自动语音识别)技术。它将声音模型与语言模型融合成统一的模型,不仅可以更准确地识别出用户的指令,快速完成相应的任务,更重要的是降低了对计算资源的需求,更适合在笔记本电脑等终端设备上部署,即使在没有互联网的情况下,设备也能支持快速语音识别。”如上图所示,Voice Access 首先会将桌面的项目进行编号,然后通过如下的语音指令进行控制。 | |
| “Show numbers” 或者 “Show numbers here” |
| “Click [number]”, 比如“Click 1”, “Double click 1”, “Right click 1” |
| |
早在 2019 年,微软亚洲研究院就已和微软 Azure 团队的语音组合作开展了相关的语音识别研究。最初的 ASR 模型是声学模型和语言模型的混合体,先由声学模型把输入的语音转换为发音的最小单元音素,再用音素结合语言模型产生语音识别结果。由于模型体量较大,当时相关技术主要以 SaaS 模式部署在微软 Azure 云平台上供用户使用。随着研究员们对 ASR 技术的不断探索、提升,微软的产品部门希望升级后的 ASR 技术可以更多地应用在产品端,以支持弱势群体更方便地使用相关产品。 然而,直接将大规模 ASR 模型部署在终端设备上并不现实。除了要将模型本身轻量化、提升运算速度外,在与 Azure 团队语音组合作的过程中,研究员们也意识到在将技术转化为产品时,优化模型不仅要聚焦准确率,还要以用户体验为第一优先原则。正如微软亚洲研究院高级研究员刘树杰所说,“我们做基础研究的时候往往会把一些问题抽象出来,思考如何在一个点上发力把技术做到更好、更优。而产品部门的同事更多的是站在用户的角度思考问题,比如用户在什么情况下对产品的满意度更高,使用感受更好。” 在对端到端的 ASR 模型测试时,研究团队和产品团队就遇到了不同思维的相互碰撞。刘树杰介绍到,研究员们注重的是客观指标,会在大数据集上做客观指标的测试,而转化为产品后,产品经理更加注重的是使用者的主观感受。因此,当 Windows 11 在微软 Surface 以及各 PC 厂商的电脑上运行时,ASR 模型也要做相应的优化和适配。开发过程中,微软亚洲研究院与 Azure 团队语音组和 Windows 产品部门紧密合作,反复沟通,通过不断迭代,使得 ASR 模型在多设备上的测试结果都达到了人类正常说话时的水平。尽管目前模型只支持美式英语的语音识别,但该模型具有跨语言通用性,后续只需利用不同语言的数据对模型展开训练,就能够实现跨语言的语音识别与操控。得益于深度学习的发展和充足的语料支持,自动语音识别 ASR 在大语种上取得了非常优异的性能。然而,世界上还有很多语言缺少语料数据,这些小语种、地方方言的使用人数较少,收集相应的语言数据会耗费大量的人力和资源,给相应 ASR 的实现造成了一定困难。为了解决这一问题,微软亚洲研究院提出了一种极低资源下语音识别的新方法 WavLM,尤其是针对 ASR 的预训练模型,其各项指标一直在 SUPERB 评测数据集排行榜上位列第一(https://superbbenchmark.org/leaderboard)。WavLM 在 SUPERB Leaderboard 上的表现一直以来,微软始终重视无障碍(Accessibility)方面的建设,目的是让产品、设备、服务和环境的设计更加方便地为残障人士所使用。下一步,微软亚洲研究院还将联合微软的产品团队将类似的技术扩展到更多的产品和应用场景中,打破沟通与使用障碍,予力每一人。焕然一新的桌面、简洁的设计、舒适的布局和灵活的体验,无一不彰显新一代操作系统 Windows 11 的高效与创新。无论是面向工作、学习、生活、游戏,还是艺术创作、编程开发,Windows 11 都为用户提供了一个更适合的模式。面对混合办公新常态以及新的用户需求,微软亚洲研究院也会持续将最新的科研成果输出到微软的产品中,帮助更多用户提高生产力,激发创作灵感!
了解更多: