机器如何理解人类
The following article is from 中读黑板报 Author 刘畅
丹棱君有话说:全民抗疫,微软Carina团队利用微软深度学习和自然语言处理等技术,为市长热线场景带来降本增效的智能客服解决方案。机器直接理解人类的语言和意图,从而扩展人类自身能力,已变得习以为常。
智能客服
2月5日,武汉“封城”两周后,微软的研发工程师冬雨辰接到一个省会城市的求助信息,他们的市长热线遭遇疫情冲击,每个接线员每天要不停歇地接三四百个电话,工作量较往日增加近三倍。接线员被问诊、询问定点医院的问题淹没,更多的市民则因为拥堵的电话线路而错失询问的机会,他们亟须人工智能的帮助。
市民平日拨打市长热线主要集中反映停水停电、油烟污染、违规违章等问题,智能客服需要在理解市民的完整诉求的同时,识别出地名等专有名词,然后记录并生成工单,由后台派单员人工审核后派发给相关的市政部门,具体的街道办或职能部门接到诉求后,再回访和后续处理。人工智能像个3D打印机,扔给它模板和材料,就能制成成品。微软利用Carina设计多种市民频繁询问的话务流程,把人工接线员的语音数据录入记忆库,训练语音识别系统,使人工智能“熟悉”当地的方言口音。
机器“理解”上下文
当智能客服上线时,电话一头是机器已不会令人惊异。机器能够直接理解人的语言和意图,已变得习以为常:手机上的智能助手发出拟人的声音,通信营业厅、银行的客服电话也都是先由机器接听,而在各行各业内部,理解人们意图的人工智能技术,或是帮助人们比对合同,或是为制造商从互联网的大海中打捞用户的评价,并分析哪些是夸,哪些是骂。
微软亚洲互联网工程院副院长、首席科学家姜大昕博士
姜大昕博士凭借数据挖掘的能力,来到微软负责研发搜索引擎。“相比20多年前,现在的数据量起码要在‘万’的后面再加上个‘亿’。”作为智能市长热线所应用到的自然语言处理技术的主要研发者之一,他告诉本刊,智能客服涉及人工智能领域最难的技术,因为相比搜索引擎,它是多重技术的组合,既需要语音识别,又需要理解意图,还涉及到多轮对话的策略,以及语言的自动生成。
“当深度学习的浪潮开始后,最先突破的是感知层面的视觉和语音识别领域。如今从一堆图片中分辨出猫狗,或是在实验室的情况下把人声转换成文字,机器已经能与人类打平,后者甚至已能超越人类。而自然语言处理属于认知层面的智能,被誉为人工智能皇冠上的明珠。”姜大昕博士说,目前业界一般把自然语言处理分成形态、语法和语义三层。形态就是构词法、同源词、词素词缀等内容,侧重于词本身的构成和内涵,语法是研究一个句子的结构和句子中各成分之间的关系,而语义则是文字所要表达的意图和意义。
人工智能对自然语言的理解尚不能达到识图和语音识别那般自如,它需要人类为其划定场景,明确特定的目标。可是场景并不互通,许多数据之间也并不相关。一个公司若想应用这些技术,只能逐一设计不同的模型,或是借用已有的模型。二者不是面临漫长的设计时间,就是有兼容的问题。姜博士说,以研发技术平台闻名于世的微软,为此打造了基于云计算的Carina人工智能+自然语言处理平台,将人工智能的技术能力以工具台的形式转移给客户。“平台涉及自然语言的全部三个层面,人们可以在上面训练、测试、调试、发布符合自己需求的模型。比如语言在形态上、语法上甚至语义上有共性,但某一个领域有专业词语需要机器识别,业务部门只需要定义专业的词汇,就可以令通用算法适应一个特定的领域。”
不过,人工智能只是在寻找关联,并非像人一样真正理解一个词句的意义,它通过大量数据和时间的训练,才能“知道”毫不相关的两个词意思相近。直到2018年,人工智能“理解”上下文的能力才有了一个突破性的进展。
“就像马克思说过,‘人的本质是一切社会关系的总和’。一个词的本质,是所有与它一起出现的词的总和。机器可能不会像人类一样,通过字典里的定义理解一个词,但机器可以把一个词出现时的所有上下文全部记下来,以此作为语义。比如‘纯净水’和‘矿泉水’这对近义词,看上去只有一个字相同,但机器记下包含这两个词的所有文本后,会‘发现’这两个词出现的上下文非常相似,它就学会了这两个词之间可能存在关联,虽然它不知道这个关系是什么。”姜大昕博士说。通过从海量文本的上下文理解词的语义,发现词的语义关联,被称为“预训练”技术。在预训练模型的基础上再进行下游的自然语言处理任务,目前已经成为自然语言处理的新范式。
2019年8月31日,WAIC 2019世界人工智能大会,微软AI展区的人工智能少女小冰吸引众多市民关注,大屏幕播放着微软公司创始人、视窗操作系统Windows之父比尔·盖茨的视频
机器与人的距离
从那时起,用机器“欺骗”人类的尝试便从未停止。Eliza面世时,正处在第一次自然语言处理技术发展浪潮的末期,人们发现无法用规则的方法处理语言,而随着计算机算力的提升,统计机器学习的方法在80年代兴起,却又因为专家设计模型需要强大的经验和知识,面对大数据时,又难以自动找到其中蕴含的规律,最终到达一个瓶颈。直到如今的深度学习,使机器可以自动学习表达语言的特征。
可是,即便自动学习的机器成为一个“黑盒”,研发人员也只能获得机器得出的一个结果,而不知道它得出结果的原因,甚至机器给出的回答可能出乎意料,仍没有逼近图灵测试的理想。
“因为自然语言处理技术虽然能轻松地把大英百科全书里的知识全部记下,却没有‘树一般比草高’一类的常识;而且人工智能没有举一反三发现规律的能力,很难自动通过观察发现‘马路上红灯亮车就停’的现象。”姜大昕博士列举人工智能目前的局限,“把勾股定理作为一段文本输入计算机,再给它一个具体的直角三角形,它也不具备自己算出斜边长度的推理能力;而抽象的概念如何使用,对机器更是天方夜谭。人和机器对话,由此只能限定在固定的领域和模式,一旦进入开放领域,机器仍不知所云。”
不过以目前的发展程度,寻找合适的场景便能发挥人工智能的威力,目前最成功的场景是搜索、广告和推荐。诸如隐私泄露和信息茧房等技术伦理的问题,也在这些地方最为突出。
“像目前的邮件自动回复功能,机器可以根据用户往来的邮件,做简单的回复,或是提醒用户哪些重要的邮件需要及时回复。这项技术在欧洲应用时遇到了一些用户的反馈,他们为隐私是否被侵犯感到担忧。尽管这项功能严格遵守欧洲的用户隐私保护规定,用户仍会隐隐感到不安。”姜大昕博士说,类似的担忧是人工智能融入人类生活后必然产生的副作用,而实际上,微软内部设有人工智能伦理道德委员会及法务部门严格监督技术的伦理边界。同时,面对信息茧房,研发人员也会在设计算法时,考虑更多的层面。“比如必应搜索引擎的一大特点就是对观点性的问题做客观呈现,把各方的不同观点都在结果中并列显示。做个性化推荐时也会做一些随机推荐,以突破信息茧房。”
而就像在人声里嵌入只有机器能识别的“指纹”,可以防止语音模拟被滥用,技术的风险也可以用技术来抵御,技术的伦理从不会阻挡技术发展的进程。姜大昕博士预测,5到10年内,机器能够具有跨语言、多模态的能力,可以更好地翻译小语种语言,自动为足球比赛配音,为聋哑人自动生成电视的手语翻译,甚至能获得一定的推理能力。“想象一下,如果把高中课本输入计算机,它的理科就能在高考中拿满分,那时的世界将变成什么样?”
了解更多:
微软上线语音评测功能:赋能口语学习的教与学 预见未来丨机器学习:未来十年研究热点 全新内容时代,知识生产如何拥抱人工智能? 我在微软做研发 | 刘铁岩:探究机器学习的简单与复杂 观点 | 洪小文:帮助机器和人类共同学习
后台入驻微软小冰
如果你很萌,请跟她一决高下!