从个性化推荐到语音识别,微软亚洲研究院为Windows 11注入新智能
The following article is from 微软研究院AI头条 Author 微软亚洲研究院
(本文阅读时间:11分钟)
编者按:问世30多年来,Windows 已经成为全球亿万人工作、生活、创作时不可或缺的绝佳伙伴。2021年10月5日,微软产品大家庭正式迎来了最新成员 Windows 11。在如今混合办公、远程协作成为新常态的背景下,新一代 Windows 11 创新的功能设计、高效易用的体验、丰富精彩的内容,将更好地帮助用户提高生产力、发挥创造力。而在 Windows 11 个性化、智能化功能的背后,既有微软产品团队努力的成果,也离不开微软研究部门的技术支持。那么,这些丰富实用的新功能是如何实现的?微软亚洲研究的基础研究创新成果又是如何转化到一线产品中的?
2021年10月5日正式发布的 Windows 11,小到“开始”菜单、任务栏的位置、图标和字体的设计,大到自动化推荐、语音控制等功能,都让用户与之所爱更近一步。在更智能化、人性化的 Windows 11 系统中,多个基于微软亚洲研究院的技术创新实现的功能,为用户带来了全新的使用体验。
在这些技术创新中,除了底层的技术支持之外,还有一些用户熟悉的功能,比如从 Windows 7 开始,Windows 产品部门就基于微软亚洲研究院提供的算法,不断提升中文、日文、韩文的手写识别功能。而在最新版本 Windows 11 的“新闻与兴趣(News and Interests)”和“语音访问(Voice Access)”两个功能上,研究院又进一步优化了底层模型,对算法进行了创新,这背后是微软亚洲研究院在推荐算法、深度学习、自然语言处理等领域深耕多年的积累。
新闻推荐属于一种特殊的个性化推荐,相比于商品、电影等内容的推荐,新闻事件每时每刻都在更新,对于系统来说每条新闻都是全新的内容,这就使得系统无法获得足够的用户交互数据来训练推荐模型,因此,必须从新闻本身出发,加强对内容的理解。尽管之前也有针对新闻推荐的算法模型,但那些模型给用户推荐的往往是同质化的新闻,极易造成用户反感,难以精准匹配用户对新闻的实际需求。
微软亚洲研究院首席研究员谢幸表示,“新闻内容本身和阅读新闻的用户其实都可以用文本表示,推荐的准确与否本质上都可以看作是对这些文本语义理解的深度。过去的推荐系统要么没有使用深度学习技术,无法学习样本数据的内在规律,要么基于深度学习却没有结合自然语言处理(NLP)技术,无法对语义进行更深的理解。”因此,微软亚洲研究院将最新的深度学习与 NLP 技术集成到了对用户和新闻的建模中,大幅提升了推荐模型的性能和准确率。基于此模型,Windows 11 “新闻与兴趣”功能实现了多样化、个性化和更精准的新闻推荐,现在用户可以通过 Windows 11 中的小组件等多种方式随时看到他们最感兴趣的新闻内容。
个性化新闻推荐的技术流程
第一层是针对当前新闻内容本身文本的理解,实际上就是对自然语言的理解。这一层主要基于微软图灵通用语言表示模型,其核心模型和算法采用了研究院最新的统一语言预训练模型 UniLM 和多语言预训练模型 InfoXLM,这两项技术在语言理解、生成和翻译任务上都取得了领先的结果。
第二层是对用户的理解,也就是围绕用户所展开的一系列文本理解,但又不只是简单的文本整合。虽然可以将用户看成一个已经浏览或阅读了新闻的文本集合,但不能将所有文本简单地进行拼接,系统还需要了解用户阅读的先后顺序,以及由此形成的用户兴趣群组、对兴趣重要性进行区分等等,这些都是对用户的建模过程。当考虑这些因素时,用户就由原来一系列标签化的表示,转变为在深度学习中的向量表示,从而极大地提升准确率。
举例来说,我们可以按照不同的属性类别给某个用户打上诸如男性、本科毕业、居住在北京等标签,这样当一条受北京男性喜爱的新闻出现时,系统就会将其推送给相关用户。然而,这种推荐方法只做了简单的匹配,因为这些标签并不能准确地描述个人特征,比如无法明确说明他真的是北京人,也不知道用户真正的兴趣爱好是什么。但深度学习则可以抛开标签,将每一个人变成数字,也就是向量,通过计算向量之间的相似性来推荐内容。
按照此方式,每个人都可以被看作是高维空间中的一个点。新闻则是同一空间中的另一个点,这样就可以直接比较用户和新闻间的距离。我们可以想象,在一个空间中同时包含了众多的用户和新闻,与其中一个用户比较近的自然就是他喜欢的新闻。
最后一层是排序。理论上可以将新闻推荐看作是对高维空间中用户与新闻内容距离的计算,但实践中还有更多的因素需要考虑,例如新闻推荐的多样性、公平性、可解释性等等。
通过将深度学习与 NLP 集成到新闻推荐系统中,Windows 11 可以更好地满足用户对新闻的需求。数据显示,在所推荐的新闻上,用户的实时点击率得到了提升,浏览时长也有所增加。
该推荐算法具有较高的通用性,涉及到个性化搜索和推荐的领域,如微软广告、必应(Bing)搜索等场景都能应用。另外,基于推荐算法的研究,微软亚洲研究院还与微软新闻团队联合发布了迄今世界上最大的英文个性化新闻推荐数据集 MIND,为新闻推荐的研究建立了相对权威的评测标准。而且在2021年的 ACL 大会上,双方团队还合作构建了第一个可以离线评测个性化新闻标题生成方法的基准数据集 PENS(PErsonalized News headlineS)。
历代 Windows 版本都虑到了无障碍增强功能,为不同类别的残障人士提供支持和便利。而 Windows 11 中新增的辅助功能Voice Access(语音访问),则让包括行动不便人士在内的所有人都可以通过语音控制他们的电脑,编辑文本内容,如操作 Windows 系统的应用程序、浏览网页、编写邮件等。
微软亚洲研究院主管研究员吴俣说,“Voice Access 功能使用的是一种端到端的 ASR(Automatic Speech Recognition 自动语音识别)技术。它将声音模型与语言模型融合成统一的模型,不仅可以更准确地识别出用户的指令,快速完成相应的任务,更重要的是降低了对计算资源的需求,更适合在笔记本电脑等终端设备上部署,即使在没有互联网的情况下,设备也能支持快速语音识别。”