查看原文
其他

在 AI 创业的好时代,初敏结束 8 年阿里生涯加入思必驰 | 专访

2017-08-28 王艺 机器之能

这位声音爽朗有力的女性,曾带领团队向阿里巴巴各条业务线输送语音相关技术,从识别、合成,到理解、交互。十年前在微软亚洲研究院工作时,初敏的团队还曾促成微软唯一一个完全放在中国运营的业务——语音合成。告别大公司职业生涯,作为研究者、领导者,她为自己的「后阿里时代」选择了一条怎样的线路?


撰文 | 王艺

编辑 | 刘燕


机器之心获悉,初敏已于一周前正式加入思必驰,任思必驰北京研发院院长。

 

从大公司加入创业公司的人工智能专家,初敏不是第一个。她说:「做研究的人是有心结的,他们希望自己做的东西有影响力,而不是仅仅停留在纸上。」

 

和大部分国内早期从事语音方向的研究人员一样,初敏博士毕业于中科院声学所,后加入微软,一呆就是十年。在微软的最后两年,初敏转到王坚组下。2008 年,王坚加入阿里巴巴,一年后,初敏也来到了阿里。彼时,以现在的体量回望,阿里还处在爆发的前夜。初敏表示,加入阿里,与王坚博士「很有一定关系」。

 

一个月前,初敏从工作了 8 年的阿里巴巴离开。离开时,她的职位是 iDST 语音团队负责人。业界纷纷猜测她的去向,这位声音爽朗有力的女性,曾带领团队向阿里巴巴各条业务线输送语音相关技术,从识别、合成,到理解、交互。不仅如此,十年前在微软亚洲研究院工作时,初敏的团队就曾促成微软唯一一个完全放在中国运营的业务——语音合成「木兰项目」。要知道,微软曾经在美国曾启动过语音合成相关技术的研究,但因成效不佳转而选择使用第三方的合成技术。正是由于初敏团队效果喜人,微软才决定自研。

 

曾经的工作成果代表初敏的实力,作为研究者、领导者,她会为自己的「后阿里时代」选择一条怎样的线路?如她自己所说,她在哪里工作,都挺长久的。

 

初敏正忙于组建团队,她表示,将大量招收语音方面的人才,争取在一年之内组建一个 50 人左右的从基础研究到应用落地的「研发」团队,为思必驰拓展新的业务路线。

 

思必驰于 2007 年成立于英国剑桥高新区,创始人均来自剑桥,2008 年回国落户苏州;是国内唯一拥有人机对话技术,国际上极少数拥有自主产权、中英文综合语音技术(语音识别、语音合成、自然语言理解、智能交互决策、声纹识别、性别及年龄识别、情绪识别等)的公司之一,其语音识别、声纹识别、口语对话系统等技术曾经多次在美国国家标准局、美国国防部、国际研究机构评测中夺得冠军。

 

2012 年,思必驰获得联想之星、启迪等数千万投资。 2016 年,思必驰获得来自阿里巴巴的近 2 亿元人民币 B 轮融资,时隔半年完成巨额 C 轮投资,目前估值数十亿人民币。其主要产品 DUI 是思必驰于 2016 年底封闭开发的一站式语音对话定制平台,意在将其语音技术赋能开发者,同时对平台上的优秀开发者及上下游内容供应商提供基金和补贴支持,营造人工智能良性生态圈。据悉,思必驰 DUI 平台将于 月 日北京正式发布。



在初敏加入思必驰的第五天,机器之能对她进行了专访,与她就加入思必驰的故事、对语音技术的解读展开探讨,以下为未改变原意的采访内容整理:


过去,你的经验主要集中在巨头公司,决定加入思必驰这样的创业型公司,背后有哪些考虑?

 

其实我一直都很向往我的研究能够实实在在被人们使用,这从我换公司的路线就看得出来,一步步地向产业落地靠近。最开始在微软的时候我们的生活是很单纯的,就是做研究。当时每年的计划都是自己定的,瞄着哪几个会议、做哪几个题目。其实微软亚洲研究院在微软内部已经是非常重视产品落地的部门了,但和阿里比还差很多。

 

我到阿里之后发现,这家公司特别的接地气,回头再看微软,真的是一个非常漂亮的象牙塔。后来阿里爆发式发展,变成了如今的科技巨头。

 

现在业内能够看到,未来的 3-5 年,对这一次人工智能热潮来说是一个非常重要的窗口。拼的是整体效率,这里包含技术本身也包含场景落地。从技术,到应用,到落地场景,再到数据与体验的反馈,这个圆环谁转得快,谁就能赢。思必驰是以语音技术为生的公司,成败都在语音。这一点和阿里不一样,阿里不靠语音为生,语音只是个锦上添花的东西。

 

市场上语音创业公司不止思必驰一家,为何选择思必驰?

 

坦白说,确实有很多大公司都在联系我,也曾考虑过,但最终还是觉得思必驰更契合。市场上语音公司很多,但大家的切入点和细节还是不太一样。虽然所有人都在说,相信语音技术能够为人类的生活带来根本性的改变。但从大家做的事情上,大概能够察觉到各家的心思放在什么方面。思必驰是比较坚定的做语音交互的公司,他们真的认为语音交互很重要,目标就是要做好交互技术,再以平台的形式对外开放,让本身不是这个领域的公司也具备语音交互能力。这一点来说我跟老高(思必驰创始人兼 CEO 高始兴)还有俞凯交流得比较深,发现大家在这件事上有很多共鸣,对未来的看法也很一致,这在我看来是非常重要的。如果说几个人都很能干,但想法不一致的话,真正做起事情会比较困难。

 

另外,我看到思必驰有一个很好的搭档,就是俞凯老师在交大的实验室。公司本身和这个实验室有着非常紧密的合作,这意味着从研究层面有源源不断的刺激。虽然业内也有很多家成立了联合实验室,但就我观察来看,只有起步阶段的科大讯飞和现在的思必驰是在以这样紧密的方式进行高校合作的。


加入思必驰之后你的工作会集中在哪些方面?

 

因为思必驰总部在苏州,北京办公室只有几十个人,而且几乎没有从事底层研发的核心技术人员。但是北京又是人才的聚集地,所以思必驰计划在北京成立一个研发中心,我来做院长。我是非常重视应用的人,所以成立的是研发中心,不是研究中心。这个团队会包含从底层技术的研究,到产品设计再到产品的实施各个环节,包括最后一公里的最 Dirty 的工作都有会由这个团队协力完成。我们会重点专注做新场景和新技术的落地。同时,我们也会精进语音、语言、深度学习相关的底层技术。我们期盼着在一年内招到 50 人,两年内招到 100 人左右,最终让整个团队配合完成整个应用场景的打通。


语音是和硬件强关联的学科,要想真正让技术得到落地的话,单单提供 API 是不够的,但思必驰的产品是一个平台,这一点你怎么看?

 

确实,现在的语音环境还远远不能达到像网页时代,你注册个网页自己回家就能「玩得溜转」,大规模部署的阶段。这件事我跟俞凯也是有共识的。在现在这个市场环境下,落地这件事情确实是需要专业语音公司到客户方去帮助个性化定制以及部署的。所以前期我们会有一些技术支持人员为客户服务。后期我们计划打造一个生态系统,通过合作、培训的方式来向外辐射语音技术落地的能力。前段时间思必驰、上海交大和苏州市政府联合成立了一个人工智能研究院,就是为了搭建一个平台,吸引更多相关的企业和团队参与。这样一来,思必驰就能专心推动语音交互这件事情。


你想为思必驰带来怎样的改变?比如思必驰在技术架构等方面是否存在需要进行调整的地方?

 

我觉得思必驰已经走过了很艰难的创业阶段,接下来会进入发展阶段。在以后的快速成长中,会遇到很多 Growing Pain(成长痛)。从思想认知维度、到技术、方方面面,可能会有人跟不上。发展得越快,这个成长痛就会越强烈。

 

技术架构方面,其实任何一个东西在成长过程中都是不完美的,当时可能会因为各种各样的原因最终没有在每一步都做出最完美的决策。那在接下来的发展过程中,发现哪一个点阻碍了项目的继续进行,就处理哪个点就好了。如果没有阻碍到项目进展的话,虽然发现有些地方是不完美的,我也不会太纠结于此,等它阻碍了项目或者自动退休就好。我们做项目是有目标的,要完成项目结果,而不是把系统变完美。目前,从我的经验角度,我没有看到思必驰的系统有任何严重的问题,但是我相信,经过时间的推移,一定会被我翻出问题来的。我这个人做事很严格的,如果我发现有一个阻碍项目进展的问题没有得到解决,就算负责人不是我手下的人,我也会不停地推进他让他处理掉。


在语音行业,一些入局较晚的新公司,与科大讯飞这样做了 18 年的公司相比,技术积累方面会稍显被动吗?


其实技术层面都差不多,说实话,十年前的技术都淘汰掉了,剩下都是最新的技术。但是在数据层面会有差距,虽然每个公司都在搜集自己的数据,但是科大讯飞数据收集的维度比较宽,覆盖面广。一般来说像 BAT 在自己着重突破的方向上,跟科大讯飞不相上下,但是科大讯飞做得比较全,覆盖的行业多。就思必驰而言,多年专注在智能硬件/物联网领域,在家居、车载等实际应用场景中积累了大量数据,更有针对性,实用性也更强。


你认为现在语音行业正在面临哪些问题?


首先识别层面虽然我不认为已经完全搞定了,但技术已经很好了,更多的是效率的问题,其实已经没有什么可以玩了。我觉得语言理解是一个很重要的问题,现在市面上不管哪个语音助手聊天机器人,你跟它聊几分钟你就知道它有多傻了,离真正的理解、对话、交互还差得远,这里有很多事情要做。

 

然后我觉得是系统场景适应的能力,现在不管是识别也好,理解也好,都只能在垂直领域进行训练。你给医院做的系统想要卖给法院用,这其中的转化目前还很困难。这其中涉及到了技术和工程结合的能力,不能说换一个场景七八个月出不来结果,那一年你才能做几个客户?大家现在都在讲迁移学习,但其实迁移学习本质上也需要新场景的数据来做模型调优,只是降低了数据的需求量。在未来,谁系统的场景适应能力强,在大规模工业化的时候就能取得先机,谁未来就有市场。

 

最后,我觉得现在非常缺少产品设计方面的人才。之前说人工智能技术人员很欠缺,现在产品人员更欠缺。现在如果你想做一个人工智能产品,如果你自己没有技术,外接第三方的技术都能满足。所以在这种情况下缺的是什么样的人呢?是能将各个技术的各个应用信手拈来的人,知道技术的局限在哪里,能够扬长避短,以客户的角度思考问题,设计产品的人。


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存