AI 如何像人一样聊天、唱歌不走调?微软小冰首席科学家揭秘背后的技术
小冰表面古灵精怪,背后蕴藏大力量
- shenzhenware -
从学习人说话,到自主学习,微软小冰走向「自我完备」
作为一个主打 EQ、由闲聊机器人起家的人工智能,微软小冰在对话式 AI 技术方面有着许多领先业界的创举:最早提出全双工语音对话技术,发展至今,平均对话轮数(CPS)达到世界领先的 23 轮;第六代小冰升级共感模型,融合全双工和实时视觉,让 AI 也能「察言观色」;第七代小冰实现了从「平等对话」向「主导对话」方向的跨越。简单来说,小冰在培养越来越接近人类的交流能力。
微软小冰首席 NLP 科学家武威用「Self-Complete」(自我完备)这一个词语概括微软小冰近几年来的研发成果。具体来讲,Self-Complete 需要 AI 自主学习、自主管理、自主关联这三种能力。
自主学习
对话机器人学习分为两个层次,第一个层次是从人类的对话中学习说话,这是目前对话式 AI 正在主攻的方向。这次,武威重点谈到第二个层次,机器之间的互相学习,也是微软小冰的一个新探索方向。
机器之间的的互相学习,道理其实就类似人类的「你有一个思想,我有一个思想,我们交换一下,一人就有两个思想甚至更多」。
「术业有专攻」,跟人类一样,每个机器人也都可能有自己的领域知识。微软小冰团队研发出了 Co-teaching 算法,让 AI 的两个不同检索模型在训练过程中互为师生、相互学习。结果表明,两个模型对比以往的学习路径都有了显著提升。
自主管理
自主管理即 AI 能管理说话的内容、走向,典型的应用就是微软小冰第六代公布的共感模型。
在共感模型中,包含两个模型,一个回复生成模型,即决定说什么。第二个为策略决定模型,即怎么说。两个模型相结合,将微软小冰从原来基于上下文直接产生回复的模式,转变成了基于上下文产生策略,从而产生相应的对话,譬如主动引导一个话题、提问、确认、或者是无意识、简单的回复。
在日本、美国,微软小冰基于知识库,通过对上下文对话理解,做到了帮助用户挑选所购买商品,达到了 68% 的转化率。这是微软小冰共感模型在商业落地上的其中一个应用。
自主联结
自主联结,指的是机器人能够将包括搜索引擎、文档、图片、视频、知识图谱等分散在各地的多模态知识,联结起来,进行消化、吸收,形成自己的输出内容,内容也不限于文本、图片等任一形式。
今年 2 月,微软小冰面向未来的多模态交互感官已在日本完成公开测试:通过手机 APP 应用和手机摄像头,小冰可综合文本、声音和图像等信息与人类交流。比如在日本的一项测试中,用手机摄像头充当眼睛,小冰可以在陪用户一同逛水族馆,对所见所闻(鱼)挑起对话、评论。
模型+数据,让 AI 学唱歌比学说话要难得多
在本次 Workshop 上,微软首席语音科学家栾剑,首次系统披露微软小冰歌唱能力背后的技术。
栾剑提到,相比说话,唱歌具有门槛高、情感表达更丰富的特点。此外,唱歌具备发音、节拍、旋律三大基本要素。因此,AI 唱歌技术可以沿袭过去的语音合成技术,同时也存在额外的技术难点。
传统的 AI 唱歌模型主要包含单元拼接、参数合成(隐马尔可夫模型)这两种主流的方式,但也都各有短板:单元拼接易导致唱腔过渡不自然、生硬,参数合成因声码器的关系会损失音质。
微软小冰采取参数合成的方式,加以模型改良,避免出现上述情况。在模式上分别对声谱参数、节奏序列、音高轨迹(即唱歌的三大要素)进行建模,为协调三个参数的耦合性,微软用一个预测参数模型同时预测三个参数,但按照目前技术水平处理上有不小的难度。栾剑表示,卷积神经网络近几年的快速发展,让三个参数同时建模成为可能。
众所周知,深度学习需要大数据的训练来支持。栾剑坦言,AI 唱歌技能养成的一个大难题是严重缺乏清唱的数据。对此,小冰与唱片公司合作,在混杂各种音轨、伴奏的歌曲中,将人声部分的时间戳进行标注、发音的起始结束时间、音高轨迹进行提取,给小冰训练出更丰富的演唱风格。
谈谈比喻句创作、绘画生成:AI 要有理解能力,也要懂常识
文本创作、绘画作为微软小冰人工智能创作的重点技能,也在巩固的基础上持续突破新的技术难点。微软小冰首席科学家宋睿华为大家讲解了其最新的进展:学会造比喻句,跨模态理解。
不同于人类常用的「像……一样」的手法,微软小冰通过输出「解释」的方式创造比喻句,重点关注本体和喻体之间的联系。
对此,微软小冰团队从诗歌中抽取了 120 个主题,挑选了 6 大类,96 个常用比喻的概念,随后从 1000 个常用词中选取 3000 个最常用的形容词扩充小冰的比喻能力。例如将爱情、心、世界、梦想、生活、快乐等抽象概念,提取出相关信息,相互之间关联产生合理的比喻。
小冰已有的合格比喻句作品有:
爱情跟脂肪联系造成的比喻句:「爱情就像脂肪,是点点滴滴的积累。」 灵魂与球迷联系造成的比喻句:「灵魂就像球迷一样,在无声的呐喊。」
跨模态理解
用跨模态的方式去理解文本,是微软小冰训练理解能力的一个课题。
目前,业界已经有类似 Text-to-Image、Text-to-Video、Story-to-Image 这样一些旨在挖掘 AI 理解能力的课题。以 Story-to-Image 为例,微软小冰希望能模仿人类,理解一句话背后暗含的意思,以及常识。
不同于单一检索,Story-to-Image 以故事为基础输出图像,关系到上下文的连贯性,图画细节是否与故事匹配(match),此外,鉴于以往 one to one 训练数据,一句话只能输出一张图像,往往无法展现语句的所有信息量。
对此,微软小冰创新性地提出 one to more 的训练算法,让 AI 针对一句话、一个故事线输出数张图片。
比如「有一个老太婆养着一只母鸡,它每天下一个黄灿灿的金蛋」。one to one 的模型只输出一张老奶奶的图片,而 one to more 的模型,能在这基础上再输出一张鸡蛋图片。
另外,人类普遍具备的「常识」也是人工智能需要提升的一个能力。例如,人类都知道「北极熊是白色」的事实,因此不会在写作中特意加上「白色的」这样一个前缀来描述北极熊。
相应的,在「画饼充饥」Story-to-Image 的训练中,小冰在创作的绘画中表现出了父母找到丢失小孩是「激动」的心情,是一种理解人类情绪的常识的表现。
做一个通用型的 AI Being:技术要有挑战,成果要能被接受
谈到人工智能,我们目前大多接触到的是实用性的语音助手,鲜少有人体会和理解像小冰这样情感、才艺型的 AI,它们会朝着什么样的路径发展。
在接受采访过程中,栾剑、宋睿华均表达了的微软小冰在 AI 技术研究上的立场。
就技术而言,微软小冰首先瞄准具有挑战性的研究方向,但也必须以目前技术能够达到的程度为前提。其次,要做出大家能够广泛接受的产品和成果,反之群众接受度不高,不利于收集反馈数据,以及推进研发的进展。
对于技术能够产生怎样的商业价值,不仅仅是市场团队,研发团队本身也在挖掘。以基于跨模态理解的绘画生成技能为例,未来将有可能应用在儿童绘本创作中。以唱歌为例,目前原创词曲是稀缺资源,日后微软小冰如果能在这方面有建树,也将会有巨大的想象空间。
微软小冰团队进一步表示,只有技术成果达到理想状态,才会推向市场。回到今年第七代微软小冰发布 AI beings 完整框架 Avatar Framework 时所传达的宗旨,让微软小冰的能力形成一个通用型的平台,帮助厂商打造各种各样的 AI,「孕育出一片 AI 森林」。■
微信号:shenzhenware
主笔、编辑:莱恩 / 深圳湾
快到「湾」里来
深圳湾正在招聘:
真知灼见的科技记者
四通八达的运营编辑
才华横溢的市场策划
技能爆表的活动运营
热情四射的社区达人
简历传送门:
Lynn@shenzhenware.com
● ● ●
深圳湾(公众号 ID:shenzhenware)连接全球硬件创新者,连接硬件生态链上下游,连接跨界产品的设计、技术、生产、渠道、商业、创新。深圳湾持续关注「AI+硬件」带来的场景和交互创新,以及与平台和应用相连的全产业链升级,欢迎相关团队与我们联系,微信私人客服:小炫(ID:warexx)。