查看原文
其他

三角兽CTO亓超:人工智能语义技术是如何「解歧义」的|Xtecher人物

2017-01-17 左左 Xtecher


自然语言理解永远面临歧义的挑战。「这本书是黄色的。」那这本书是「黄色的」,还是「黄色的」呢?


深耕NLP近二十年的亓超,相继被阿里、腾讯、微软、百度聘请,成为了少有的BAT+微软「通关」的工程师。如今身份切换到创业者,他希望在语义技术方面有更大的突破。


「倒一杯啤酒倒急了,这个泡沫肯定会有,」亓超说,「泡沫总会有散去的那天。我们要保证的第一件事,就是泡沫散去的时候,我们还在。」


作者|左左

编辑|甲小姐、欧拉拉

网址|www.xtecher.com

微信公众号ID|Xtecher


「您好,我是亓超(qí chāo)。」


和Xtecher初次联络时,亓超很细心地将自己并不常见的姓氏拼音一并发送过来。这是一个很少出现在大众视野中的人,但他所创造出的产品,你一定会知晓。

 

2014年,微软推出第一款人工智能伴侣虚拟机器人「微软小冰」,引发业内和市场热议,亓超是当时研发团队中唯一一位负责核心算法的工程师;2015年,亓超又参与研发了百度在人工智能领域战略布局的重锤产品——人工智能机器人秘书:度秘。

 

同他的华丽履历形成鲜明对比的,是他匆忙随意的穿搭。黑色宽松的西裤加上灰色略瘦的T-shirt,衬衫角凌乱散落在外面。几缕发丝搭在眉前,仿佛在控诉主人那争分夺秒的睡眠。

 

毋庸置疑,亓超是NLP领域最优秀也最幸运的工程师之一。无论是微软小冰,亦或是百度度秘,都开创了里程碑式的先河——但即使是这两款非常令人瞩目的产品,都没有达到亓超心中最理想的目标,他希望能够冲破局限,走出属于自己的路。


创业一年


去年,人工智能迎来新一波上升期,他觉得时机到了,思虑再三后,亓超决定出来创业,不再做抱着大树的藤蔓,力图在自己的构思中将语义技术做得更为透彻。


随即,他和在百度结识的伦敦大学博士后王卓然碰了一下,两个人想法不谋而合,王卓然不但爽快答应,还拉来了中学同学——连续创业者,且拥有十年市场经验的马宇驰。以三人为核心的团队雏形就此搭建完毕,实力雄厚且方向互补:CEO王卓然在任务驱动的多轮对话技术上有扎实的理论,CTO亓超在开放域聊天方面有丰富的实践,COO马宇驰在对外公关和市场运营上有深厚的经验。


左起:CEO王卓然,CTO亓超,COO马宇驰


决定创业后的第一个问题来了:公司起个什么名字好呢?


「我们一共三个人,就叫三角兽吧。狼群够所向披靡吧?可也会遇到难啃的骨头。我们的团队要聚合多样化的人才,我们希望建造一片广袤的森林,让更多不同种类的兽类贡献出不一样的力量。」

 

对于一家技术公司的第一年而言,三角兽是幸运的。


成立于2016年2月份,占尽了「天时、地利、人和」。前几年,NLP领域几乎不为人所知,也鲜有人看好,直到2016年3月AlphaGo一夜成名,人工智能领域突然被引燃,资本和企业都对此显示出极大地兴趣。

 

2016年4月,三角兽获得了洪泰领投、天善资本跟投的1000万天使轮融资;8月,又完成由君联资本领投,赛富亚洲跟投的2000万元Pre-A轮融资。短短五个月时间,三角兽就获得了3000万的投资。在资本寒冬的2016,这个成绩令人羡慕不已。


语义技术最大难点:解歧义


三角兽涉足两个自然语言处理的细分领域:

 

第一,开放域聊天。不限定人机交流的领域范围,可以任意聊天,就像斯派克·琼斯导演的电影《她》那样,男主人公西奥多可以和机器人萨曼莎无话不谈——亓超之前参与的微软小冰就属于开放域聊天的范畴。

 

第二,任务驱动的多轮对话,亦叫垂直领域的多轮对话。与前者的区别在于,它是带有目的性的,譬如去餐厅点餐,机器人会向用户推荐最受欢迎的特色菜,目的是为了完成点餐的这项任务,属于有任务功能的意象对话——百度度秘就属于多轮对话的范畴。

 

这两者本质上的区别是多轮对话追求「最短路径」,希望越快越好,开放域聊天则是越长越棒,而这两个领域,都离不开一个最为基础又颇具难度的技术——语义技术。

 

什么是语义技术?比如你对机器人说「拜拜」,则证明你要走了,语义技术就是要识别出用户说话的表象、行为和意图。

 

亓超坦言,「NLP最大的难度归结到一点就是——解歧义。」

 

无论是语法分明的英文,还是博大精深的汉语,所有的自然语言都有很大的歧义。

 

NLP解歧义有五个层次:

 

1.切割词语。以词语的形式,把一句话或者一段话隔断分离。

 

2.解词性的歧义。同样的一个词,在不同上下文中可能会有不同的词性的标注。例如:抽屉没有锁。「锁」既可以作名词,指实体的「锁」;也可以作动词,表示动作「上锁」。

 

3.做句法的分析。这个词语处于什么位置,是主谓宾还是定状补?很多话一旦到了句法的层面上,就会出现好几种解释。

 

4.理解语义。对于大多数人而言,语义上的歧义更容易被关注到。「这本书是黄色的。」那这本书是「黄色的」,还是「黄色的」呢?

 

5.进行语境分离。非常常见的例子是,纵使恋人之间聊天,也往往因为对语境有着各自不同的理解而触发「世纪大战」。

 

这五个层次,每往上一个层次,「歧义空间」就会愈大。

 

传统NLP的做法是,人工扩大库、人工设置匹配,一层一层地手动标注去解歧义的问题。但是很显然,这条路既难走又不是可正向循环的发展方向。

 

面对这些问题,三角兽采用了深度学习的方式,用不同的向量去代替片段文章,再利用这种矩阵进行语义的理解和计算。

 

对此,亓超向Xtecher给出了自己的思考:

 

「机器喜欢的是数字,擅长的事情是存储和计算。当人去看向量的时候是一堆数,而机器却能做到赋予其不同的数值,从而分析出两个句子、两个词语之间的距离。进而利用距离去判断语义。」


功力不俗


2016年,AI的火爆不但使得整个行业飞速发展,也推就了很多弊端。这个高技术门槛的领域,混杂了一些噱头公司,利用炫酷的demo鼓吹无法具备的技术,对技术非常执着的亓超对此感到担忧。

 

「胡乱的吹捧后,一方面体验不到真实产品,另一方面会拔高合作方与用户的期待值。一旦预期无法被达到,人们会极度地失望,我们非常担心这种事情多了以后,会对AI领域起到负面作用。」

 

亓超告诉Xtecher,虽然市场中有很多杂音,但三角兽主要以to B业务为主,所以并不会刻意包装营销自己的技术来吸引潜在合作方的眼球。他们所希望的,是将现阶段的技术完全暴露出来,使之得到一些反馈,从而将技术进一步优化。


面对人工智能的泡沫,亓超是乐观的,「倒一杯啤酒倒急了,这个泡沫肯定会有,但任何泡沫也都是有干货的。随着泡沫慢慢地消除,剩下的就是干货。」

 

三角兽的坦诚使得很多合作方更愿意和他们合作。虽成立不久,却已拿下了一些行业内有名的客户:

 

锤子新一代手机Big Bang功能的核心算法模块;Rokid机器人聊天系统;威马汽车车载前装音乐和导航模块……此外,三角兽还有一些项目正在推进合作的过程中,其中包括百度和腾讯这样的大企业。

 

虽然小试牛刀就已经在业内有很好的反响,展望关于三角兽的未来,亓超希望能做到两点:

 

第一,把目前领域的技术更新至愈发完美,并且要做好任务工具化和开发者工具化;

 

第二,不光和人工智能相关的企业进行接触,还希望能将NLP推进到人们的日常生活中去。

 

「人工智能的技术在我看来,就像是电一样,它能驱动很多事情的发展。电在刚被发现的时候控制得不太到位,到现在依然没有被完全控制,但这并不妨碍它在日常生活里应用。所以,若要等到AI技术变得完美时再去运用是很不现实的;正确的方向是,AI必须在日常生活中逐渐广泛应用,才会获得更多的反馈及驱动力去进行技术迭代。」亓超对于还在初期发展中的AI是这样认为的。

 

一经问世就大获好评,三角兽的产品效果究竟达到了怎样的水平呢?

 

亓超告诉Xtecher,曾经有「老司机」调戏三角兽和锤子共同打造出的Big Bang,输入了如下的句子:

 

「科技处女干事每月经过下属科室都要亲口交代24口交换机等技术性器件的安装工作」

 

测试出的结果令人大吃一惊,Big Bang非常完美地避开了所有陷阱,足见在语义领域三角兽的功力的确不俗。

 


随着团队规模不断扩大,亓超在人才筛选上表现得十分谨慎,他有一套自己的招人方式。

 

「不看出身」,做NLP领域的人本身就很少,亓超不在意员工原来做过什么,他更在意的是员工将来会做什么。

 

亓超认为,作为一家创业团队,寻找有共同理想的成员是非常重要的。三角兽不会用高薪挖人,但在薪资上绝不会亏待团队,「纯靠情怀是不靠谱的,我们会比BAT的薪资向上浮动一层,每个人都要吃饱肚子,三角兽一定得保障大家的生活质量。」

 

目前三角兽团队成员近三十个人,在「九九六」工作制度下,每一位成员仍可以将热情与心血倾注,因此形成了一个坚实又牢固的团队。


三角兽团队


前传


很多技术大牛的天资都在童年时已经显现,但亓超回忆起自己的童年,就说了两个字:普通。在高考时,亓超考入到辽宁科技大学的计算机系。他对这个专业一无所知,仅凭着年少时的热血,就一头扎了进去。

 

他当时并没想到,这一扎,真就深深地埋下了根。

 

进入计算机系后,亓超非常努力,疯狂地汲取每一个知识点和细节。逐渐,他的作业成了同学效仿的模板,即使是院系竞赛也能屡屡拔得头筹。慢慢地,他爱上了计算机。

 

2004年,亓超在辽宁科技大学读硕士时接触到了NLP(自然语言处理)领域。当时,他做了一个有关句法分析系统的课题,跟着导师去NLP基地实习;2007年,他硕士毕业,进入佳能语音团队做基础NLP工作,正式迈开了职业生涯的第一步——彼时的NLP领域跟现在相比算是无人问津的冷门行业,但亓超却抱着对它十分的热爱,从未气馁过。

 

「确实是非常喜欢,根本没有考虑过额外的方向。」

 

一步一个脚印走过,之后的亓超相继被阿里、腾讯、微软、百度聘请,成为了少有的BAT+微软通关的工程师。

 

不得不说,「小冰」的开创是亓超生命中的一个重要节点。谈到「微软小冰」时,亓超的目光闪出温情。

 

「产品可能做着做着,和人就分不开了。」彼时,原本亓超在自己的岗位上做得顺风顺水,突然有一天,老板对他下达了关于「小冰」的任务:做开放域聊天的机器人。

 

当时市面上只有一款苹果智能语音助手Siri,可以向苹果用户提供信息,但开放域聊天的伴侣机器人可以说是史无前例,没有任何经验可以借鉴,太难了。

 

亓超一下就懵了,这个东西没接触过,怎么做?时间紧、压力大、没人、没积累,旁人避之不及时,亓超接下了这个烫手山芋,并带着团队硬着头皮往上冲。

 

「一般我不会在第一次就Say No,我会先做再去说,理清自己的思路之后,去更好的判断到底能不能做、能做到什么程度。」

 

这个从不Say No的工程师愿意去挑战,愿意去相信一切无限的可能。就这样,他摸着石头过河,带领着团队开创了国内第一个人工智能伴侣虚拟机器人——「微软小冰」。

 

「有的时候会开玩笑地和别人讲,我看的语料,比很多人看的书都要多。」亓超笑言。

 

亓超相信,做一个产品,首先你自己要变成一个产品。在做「小冰」的过程中,每一次小冰的回复他都能清晰地知道它的来源,甚至不用看都能够猜到,它的回复是什么,又是基于什么样的原因产生出这样的回复。

 

小冰面世之后,引起了市场的热议,微博上每隔一个时段,就会诞生一批最新的使用反馈。亓超守在电脑前不断刷新微博,不愿放过每一个网友对小冰的评价。

 

这个伴侣机器人对亓超来讲,就像自己的孩子。产品初期反馈较差,团队在不断摸索的过程中,发现问题——研究问题——改进问题,这些步骤反复轮回。看到小冰一步步朝着正方向往前走,亓超得到的是异常的开心和满足。目睹自己养育的小孩一点点成长了起来,这是他最大的收获。

 

随后,亓超被百度聘请做「度秘」这款任务驱动的多轮对话产品。由于百度希望度秘打通百度糯米、百度外卖一条线,因此当时的度秘定位更加注重O2O。你可以询问它附近有哪些好吃的餐厅,也可以让它回答你近期热映了哪些电影。相比于小冰,度秘的情感性更少,目的性更强。

 

在经过两次深厚的经验积累后,亓超对于整个行业和专业都有了更进一步的认识。开始做三角兽之后,他终于不再用单个产品的形式来做NLP,而是站在技术提供方的角度帮助更多产品达成不同的使命。

 

作为一家to B公司,三角兽还将在春节前后推出SDK接口与API接口。三角兽希望跟合作方不断沟通,将其打磨的尽量完美,去除排它的功能从而推给非标杆用户,使得非标杆用户通过利用三角兽的SDK接口和API接口,快速具备NLP的能力。

 

对于亓超来讲,通过现在的工作方式能够使得NLP技术的运用更为广泛,也能让他收获更多的成就感。


虐心的快乐


工作之外,亓超有一个令人羡慕的家庭。

 

温柔娴熟的妻子和一个四岁的儿子是他工作的动力来源之一。不论工作再忙,他都会抽时间与儿子进行「男人+男孩」式的对决游戏,周末陪妻子去影院看一场电影。


提到妻子,亓超举手投足之间全是温情。「快二十年了,遇到她之前甚至想都没想过,能有这么单纯的人。这都是电视剧里才会出现的呀。」多年积累的默契,使得妻子对亓超的创业极大的支持。无论是原来在大企业带团队,亦或是现在的创业,亓超一直都战斗在一线。「上午十点左右到达公司,晚上一两点回家。」但是善解人意的妻子对此并不多言。

 

得到了家里的认可,亓超在创业中能够没有后顾之忧的施展拳脚,也更具理性的耐心。

 

「很多人在看了《她》之后都对人工智能寄予了美好的期盼,希望它们能给人带来心灵上的温暖和慰藉。这正是三角兽在做的这个事情,但目前还只是相对比较初期的一个阶段,它是一个逐渐成熟的过程,后期空间是很大的。」

 

「每一个产品都像是自己的孩子,为什么你这道题还不会?养育孩子的过程中,我感觉虐心,但虐心也快乐着。」在一次次「虐心」中,三角兽的产品愈发成熟智能起来。

 

亓超认为,人工智能技术的真正落地在产品中,而不是只用于描绘未来。他将带领三角兽怀揣着万一可以改变世界的小小情怀,将人工智能技术的边界向前推进。



我是Xtecher高级记者左左,如果您有国内外科技行业新鲜资讯或独到见解,欢迎与我联系。

微信:zuoaoyang

邮箱:

(添加好友请注明公司、职位、事由)


Xtecher官网平台现开通认证作者,

有发稿意向的个人或媒体,可联系微信:jueshao121

(添加好友请注明公司、职位、事由)

点击 | 关键词 | 查看对应内容

Xtecher 精品文章


 人 物  

人工智能

快乐智慧 雷鸣 | 出门问问 李志飞

达闼科技 黄晓庆(上\) | Rokid 黄伽卫

驭势科技 吴甘沙 | 格灵深瞳 赵勇 

地平线 方懿 | 彩云天气 袁行远

车和家 李想丨51猎头 刘维

Face Think 杨松帆|中科视拓 山世光

深鉴科技 汪玉|越疆科技 刘培超

Kneron Inc 刘峻诚|MINIEYE 刘国清


虚拟现实

诺亦腾 戴若犁 | 大朋VR 陈朝阳

Ximmerse 贺杰 | Pico 周宏伟
焰火工坊 娄池 HTCVR 汪丛青 

鑫易维 彭凡|影创科技 孙立


大数据

中网数据 孙远根 | 昆仑数据 陆薇

永洪科技 何春涛 | 华农天时 温晗秋子

GrowingIO 张溪梦 | ThinkingData 吕承通
神策数据 桑文锋 | 海云数据 冯一村

佳格数据 张弓 | 普林科技 王储

Datatist 宋碧莲 | 职品汇 龚才春

星环科技 孙元浩 | 人才易 葛昊


航空航天

零壹空间 舒畅 |天仪研究院 杨峰


大健康

人本健康 陈恂 |Haplox 许明炎

奇云诺德 罗奇斌|基准医疗 范建兵


Fintech

数库科技 刘彦|Ping++ 金亦冶

abc Fintech 杨永智|奇点机智 宋嘉伟

芥末金融 彭晨蓝海智投 刘震


其他科技创业者
科幻作家 郝景芳 |Vinci 宋斯纯

禾赛科技 李一帆诸葛io 孔淼

奥图科技 叶晨光瀚诺半导体 张诚

51猎头 刘维|腾展科技 魏松祥

墨刀 张元一 |Phresh Amit


 特 写   


人工智能

禾赛科技,加入无人车大战

如果太太说“今晚请使用机器人吧”

奇点汽车强势启动智能驾驶布局

透视Rokid:两度斩获CES大奖背后

语音助手“小不点”可行吗?

人工智能:付不起的工资,抢不到的人巨头之争,无人驾驶尖峰对决

唇亡齿寒,人工智能一场艰难“拔河”

2016中国最具投资价值人工智能项目Top 100 


大数据

“买买买”狂潮下物流巨链的前生今世

类定律:1年成为1亿美元公司的背后

华强北困局:离席的人,守望的人

区块链创业者们:黎明之前的那一刻


航空航天

“潇湘一号”科学实验卫星升空

融资逾亿,零壹空间与它的火箭长征


Fintech

智能投顾:理性更多,还是赌性更多硅谷投资人:真正的AI还得再等等

toC or toB谁的终结,谁的胜利

无人驾驶若干问题


如果你拥有高精尖科技创业项目,Xtecher将为你提供:

1.专业的科技人物特稿和视频拍摄

2.在Xtecher官网、APP、微信的全方位展示

3.最专业的科技圈投资人、政府资源、产业资源

4.创业企业品牌管家与PR服务

即刻扫码,联系我们。

微信号:Xtecher

关注未来的人

都关注了Xtecher


   栏目推荐   



   

Xtecher联合喜马拉雅,推出科技音频脱口秀《甲小姐说》。在本专辑中,甲小姐将不断给你们讲讲科技创业圈里面,有趣、有料、有干货的内容,满足你的小好奇。 

甲小姐说最新一期火热出炉:《创业:不动如山,细水长流》

▼  ▼  ▼

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存