【新智元百人会】七高手纵论人机交互与终端智慧化现状与痛点

原创 2017-07-24 张易新智元

【新智元招聘】AI 盛夏，星舰启航。《新一代人工智能发展规划》发布之际，新智元也正式入驻融科资讯中心 B 座，整装待发。天时地利，星辰大海，我们召唤你——新船员的加入！COO、总编、主笔、内容运营、客户总监、客户经理、视觉总监（兼职） 7 大职位招聘全新启动。点击文末 阅读原文 查看详情。

简历投递：jobs@aiera.com.cn HR 微信：Dr-wly

1 新智元整理

整理：张易舒畅

【新智元导读】新一代人机交互技术在终端智慧化中扮演什么角色？语义交互技术、智能音箱技术挑战何在？近期中国能否推出一种在市场上能够形成主导地位的、或者至少被消费者所广泛接受的音箱？在新智元和安卓绿色联盟、中科院自动化所合办的 6 月百人会闭门论坛上，多位学术和产业界专家的深刻讲解和思维碰撞，也许能为你带来一定启示。

智能终端与哪些技术息息相关？新一代的人机交互技术在其中扮演什么角色？语音交互技术的挑战何在？人工智能下一阶段的发展趋势如何？智能家居中控应该给用户提供什么价值？把语音识别、麦克风阵列等各家的技术串在一起，就能做出理想的智能音箱了吗？近期中国能否推出一种在市场上能够形成主导地位的、或者至少被消费者所广泛接受的音箱？

为了尝试解答这些问题，新智元在和安卓绿色联盟、中科院自动化所合办的 6 月百人会闭门论坛上，邀请了多位学术和产业界专家，从技术、应用、难点、价值、商业模式、前景展望等多方面就人机交互与终端智慧化议题展开探讨，力求使与会者对新一代人机交互的发展脉络和趋势有一个全方位的把握，并获得一定启发。

参与讨论的专家包括（按专家发言顺序排序，下文同）：

张宝峰，华为 CBG 软件工程部 VP，终端智慧工程部部长

陶建华，中科院自动化所模式识别国家重点实验室副主任

赵峰，海尔家电产业集团副总裁兼 CTO

孙富春，清华大学智能技术与系统国家重点实验室副主任

黄伟，云知声联合创始人兼 CEO

丁衣，物灵联合创始人

程骉，微软亚太研发集团创新孵化总监

百人会由新智元创始人杨静女士担任主持人。

杨静女士曾任法国阳狮集团实力传播 (Zenith Media)媒体购买及咨询副总监（2002-2010）、中国经济网经营顾问（2010-2014）。2014年策划主持了“奇点临近”、“算法帝国”、“大数据时代的社会人与机器人”等系列人工智能、大数据主题研讨会。2015年3月与机械工业出版社联合主办“新智能时代论坛”，受邀担任2015年5月中国科协年会智能社会科技专家论坛、2015年机器人世界杯产业峰会、世界机器人大会“人工智能开启机器人新纪元”分论坛主持人。2015年9月创办新智元，2016年3月出版专著《新智元机器+人类=超智能时代》，2016年10月联合主办世界人工智能大会，并出版《中国人工智能产业发展报告》。

在杨静女士致欢迎辞后，华为 CBG 软件工程部三方测试部部长、安卓绿色联盟代表赵虹也致了热情洋溢的欢迎辞。

张宝峰：AI 吓尿指数与终端智慧化未来的三大痛点

张宝峰，华为 CBG 软件工程部 VP，终端智慧工程部部长，负责终端AI软件的开发和交付。曾担任华为诺亚方舟实验室副主任，负责数据科学领域的中长期技术研究工作，研究方向为数据挖掘、机器学习和人工智能。中国核高基专家组成员和中国 CCF 大数据专家委员会成员。

张宝峰 1998 年加入华为，在信息科技领域有超18年的工作经验，有丰富的国际/国家标准组织活动经验，曾任国际电信联盟13研究组固定移动融合课题的报告人，中国通信标准化协会网络与交换技术工作委员会副组长。

在 6 月百人会上，张宝峰详解了终端智慧化未来的三大需求——理解用户，主动服务，终生学习，以及三大痛点——端侧智能，产品线实测，深度学习。他说：“对于手机终端智慧化的未来，我谈谈我的认知和理解，大家可以看看，哪些东西是对的，哪些是错的。”也许，他的认知和理解，正是理解终端智慧化产业方向的一把钥匙。这篇讲话 + PPT 分享，可以点击《 AI 吓尿指数与终端智慧化未来的三大痛点》查看。

陶建华：语音交互技术会是移动终端很重要的接入手段之一

陶建华，博士，研究员，博士生导师。国家杰出青年基金获得者。现任中科院自动化所模式识别国家重点实验室副主任。1993年和1996年分别获得南京大学电子系学士和硕士学位，2001年获清华大学计算机系博士学位。他目前还担任IEEE Trans. on Affective Computing Steering Committee Member、ISCA SIG-CSLP副主席、HUMAINE学会执行理事、中国计算机学会常务理事、中国人工智能学会理事、中国中文信息学会理事、中国声学学会理事、中重中文信息学会语言资源建设与管理工作委员会秘书长等职务。先后负责和参与国家级项目（863重点、国家自然科学基金、发改委、科技部国际合作）20余项，多次担任国家自然科学基金和863等国家项目会评专家。在SCI或EI期刊或会议上发表论文150余篇，申请国内发明专利15项，国际专利1项，编著学术著作2部。研究成果多次在国内外重要学术会议上获奖，两次获得北京市科技进步二等奖。在国内外著名的学术会议上担任程序委员会委员或主席，包括ICPR，ACII，ICMI，IUS，ISCSLP，NCMMSC等等。他目前还担任Journal on Multimodal User Interface 和International Journal on Synthetic Emotions编委。

人工智能 2.0 五大核心技术

在人工智能这个大概念下，还有很多方向可以探索。

简单回顾一下人工智能的发展历史，人工智能技术历史有过几次高潮，也有过几次低谷。2010 年以后，人工智能技术跟深度神经网络结合，确实给我们带来很大的机遇。尤其是近几年，业内提的人工智能 2.0 包含什么样的内涵？人工智能 2.0 是基于重大变化的信息新环境和发展新目标的新一代人工智能，包括新环境、新目标、可升级的新技术，研究对象也发生了很多变化。这里面最重要的一点，大数据智能、跨媒体智能、自主智能、人机混合增强智能、群体智能，是未来发展很重要的工作，这些构成了人工智能 2.0 五大核心技术。”

注意力机制、记忆能力、迁移学习、强化学习、半监督无监督学习是未来人工智能技术发展的主要关注方向。现在我们主要看到的都是深度神经网络方法。我们认为在人工智能技术未来的发展过程当中，很多新型的学习方法依然会得到很多关注，比如通用人工智能技术，现在过去想都不敢想，现在可以初步进行一些探索。在有限的短时间内解决这个问题是很难的，但是可以进行初步的探索。

把问题展开来看，针对大数据的智能，是目前大家普遍比较关注的。尤其是在国家的战略布局当中，把云计算和大数据都作为一个独立的方向来进行布局。这个相关工作很容易理解，尤其支撑着像智慧交通、智慧城市一系列的应用。

跨媒体智能是人工智能技术方面新的研究内容。现在互联网多媒体的数据越来越多。终端和云端之间，很难说具体的界限在哪里，越来越做更深层次的融合。文本、图象、语音、视频交互属性将紧密混合在一起，构成跨媒体的特性。如何用语义相通的内容，把这个人不同的跨媒体信息更紧密地融合，这个是未来人工智能当中需要着重解决的跨媒体智能的问题。这在互联网应用，以及很多安全领域当中，都有很多的应用。

还有人机混合增强智能。未来人机之间的界限慢慢开始出现模糊。人机混合增强智能，一方可以增强人的本身能力，另一方面可以让人和机器之间通过紧密配合实现更为高级的智能体。

群体智能方面，多种不同的智能体混合在一起，构建更高层面的群体智能，这方面将会成为新的关注点。

自主智能系统涉及到智能技术，有很多的工作需要去做。

从三大层面看人工智能 2.0 大体的发展脉络

人工智能技术在人工智能 2.0 中大体的发展脉络，我们分成三个大的层面来看，一个是基础支撑层面，第二是关键技术层面，第三是应用场景层面。

在基础知识层面，包括构建的一切跟人工智能技术相关的智能传感器、芯片，包括人工智能方面，无论是深度学习的加速芯片，还是感知芯片——感知芯片是把常见的感知算法固化到芯片里面去，还有数据的资源以及软件支撑的平台软件系统构成的基础支撑体系。

关键技术包括机器学习，机器学习里面包括深度学习，我们现在认为深度学习已经是传统的方法了。同时这里面还包括了强化学习、对抗学习等等一切工作，还包括其它像视觉、语音、图像、人机交互、大数据、云计算等等关键技术的支撑。

在应用领域，可以看到，人工智能不断向不同的领域进行渗透，它的应用包括机器人、智能驾驶、无人机还有一系列可穿戴式设备的智能终端，最近普遍比较关注的是智慧医疗、智慧安防、智能金融、智能工业等等，人工智能技术有可能会产生一些比较大的或者突破性的应用点。

智能终端相关技术——增强现实技术、三维声场技术、语音交互技术

智能终端体现的形式非常多样性，过去几年时间，我们除了常见的、随身携带的手机、PAD 之外，还有头盔或者智能眼镜。智能终端过去一段时间里面国内外出货量非常之大，市场非常大。从整个智能终端看，这几年随着智能技术的发展，已经呈现出爆发性的发展趋势。新型的穿戴式智能终端正在快速发展，并且改变人们的生活。

增强现实技术

在智能终端里面，有一些蛮有意思的应用，比如增强现实技术。目前我们认为，它在智能终端里面，可能会成为重要应用之一。这个目的是什么？我通过不同的穿戴式智能终端或者手机的智能终端，通过摄像头的方式或者通过语音的方式，采集到周围场景，叠加相应的信息。相应的信息构成对周围场景不同的解释，更有甚者可能利用这样的场景图片信息进行定位。大家觉得定位需要图片信息吗？通过 GPS 就可以了。其实可以在室内或者 GPS 不能覆盖的地方，同样可以通过图片的方式进行定位。增强现实技术未来在终端里面有很大的发展空间。

三维声场生成技术

还有一个有意思的针对移动终端的工作，叫做三维声场生成技术。我们过去用终端，经常有很多人骑自行车或走路时塞个耳机，听的音乐都是立体声，但是实际上说的立体声并不是真正意义上的立体声，只是左耳和右耳通过音量大小的控制来协调音效的表达，我们也把这种叫做立体声，实际上它只是解决了一个平面声场的问题。有没有可能在听音乐或者看影视节目的时候能够产生真正的三维声场，而且用一副耳机而不是环绕立体声系统。环绕立体声系统是在一个环境里面布置了很多扬声器，能够产生这样的效果，我就用一副耳机能否实现这样的效果？这个也是蛮有意思的工作，这个工作我们已经做了相当不错的 demo，可以把音乐、人声根据人的360度范围、包括上下左右前后都有比较好的区分，听者感觉起来，是前面就在前面，是后面就在后面，跟普通的立体声感觉很不一样。

语音交互技术

过去我们一直都说，语音交互技术会是移动终端很重要的接入手段之一，我们现在主流的交互手段无外乎几种方式，触摸、键盘输入、手写、语音。语音交互这几年发生了很多技术上的变化，语音技术无论从它的识别率还是周围环境声场对降噪的性能上，都达到非常好的能力，语音技术的接入越来越市场化。过去大家做语音降噪的时候，比较好的做法是，手机当中经常用多麦克风系统，能够达到比较有效的硬件降噪。现在用深度学习的方法，完全可以用单麦克风就可以做到比较好的声音降噪，人工智能技术的发展解决了过去很多的问题，使得语音交互的技术变得越来越鲁棒。

即便如此，我们还是有很多的工作没有进一步去完成，今天提出来供大家思考。最典型的是三维声场问题，三维声场模拟人的耳朵，人的耳朵都是有耳廓的，耳廓绝对不是摆设，正是因为耳廓的存在才知道这个声音是从前面来还是从后面来。三维声场通过耳机构建了耳廓的模型，因人而异，每个人不一样，个性化没有得到很好的解决。

另外，在语音交互方面，刚才已经提到了，语音识别合成技术使得语音交互性能获得很大的提高，仔细来看，这里面还是有很多工作。说话人的声音不能太自由，现在已经比过去稍微强了一点。虽然目前的语音识别系统能做到不错的程度，但是被识别的声音不能过于口语化；第二，个性化处理依然不够强。多语言混合的语音识别也是一个很重要的难点。

从移动终端和人工智能技术相结合角度的侧面来看，人工智能和移动终端实际包含的方面比较多。在这里面，我们做了一定的初步探索，新的工作完全结合了深度学习以及大语料库相结合的技术，才能把人机交互过程当中，人的更深层次的参数信息表征出来或者生成出来，这里面还有很多工作需要进一步去努力。

时间原因，不一一展开，今天的报告就到这里。移动终端所做的工作，无论是增强现实、个性化三维声场、情感语音交互，还是精确三维视觉交互融合在一起，都是未来移动终端发展蛮有意思的应用场景，不能说移动终端都必须具备这样一些技术，但这的确是蛮有意思的应用场景。这里面包括很多的工作，比如数据接口方面的工作。移动的终端，利用刚才所提到的语音交互、视觉交互，可以在智能家居和移动办公场景方面产生很多用途。

孙富春：人工智能是不是改变世界的“第三个苹果”？

孙富春，清华大学计算机科学与技术系教授，博士生导师，清华大学校学术委员会委员，计算机科学与技术系学术委员会主任，智能技术与系统国家重点实验室常务副主任。兼任担任国家863计划专家组成员，国家自然基金委重大研究计划“视听觉信息的认知计算”指导专家组成员，中国人工智能学会认知系统与信息处理专业委员会主任，中国自动化学会认知计算与系统专业委员会主任，国际刊物《IEEE Trans. on Fuzzy Systems》，《IEEE Trans. on Systems, Man and Cybernetics: Systems》《Mechatronics》和《International Journal of Control, Automation, and Systems (IJCAS)》副主编或领域主编，国际刊物《Robotics and Autonumous Systems》和《International Journal of Computational Intelligence Systems》编委，国内刊物《中国科学：F辑》和《自动化学报》编委。

人工智能是不是改变世界的“第三个苹果”？

尊敬的各位嘉宾，大家好！很感谢新智元给我这个交流机会，今天的题目是认知时代的人工智能和机器人。大家将 2015 年定义成机器人的元年，后来我们又看到，有人说人工智能的元年是 2016 年，这里面 IBM 公司提出 2016 年是认知时代的开始。

未来五年里面，影响人类社会最显著的五个技术是什么？2016 年是视觉、触觉、嗅觉、味觉和听觉。我们清华从六年前开始做视觉处理和听觉方面的工作了。前几天华为提出触感时代。触感是非常重要的，尤其在机器人的操作过程里。

网上购物时，物品的照片总有一个角度看是最好的。东西拿到手，发现它质地等各方面并不是太好，这就需要触觉帮助。我们需要视觉来说话，更多是语义的理解。前面讲到的可解释，视觉是最重要的部分，人就是视觉的大脑。另外，还有听觉和味觉。母亲如何在小孩的声音中听出小孩的诉求？不到1 岁的小孩还不会讲话，他语言表达的意思是如何被母亲理解的？另外还有嗅觉，能够闻出疾病等等方面。

过去人和家用电器也好，和物品之间是一个单向关系，好用不好用我自己试，加了智能化以后，形成智能机器，本身就具有认知能力，可以跟你交互，不光人理解机器，机器也要理解人。

昨天在天津电视台采访龚克校长，我点评了一下，说认知时代的教育是双向的，过去都是单向的，教育部制定大纲，如何学生考试不合格就不能毕业。智能化时代，大纲定的怎么样，几十万乃至几百万的学生学的情况的大数据分析可以评判出这个大纲定的对不对、好不好？认知时代的很多东西开始具有了智能，现在可以触手可及，过去到餐厅吃饭停不了车，那你得在车里等着，现在不用了，车就放在那儿，车载电子系统可以自动检测到哪里有车位，泊车自动过去。美女看到别人提的非常漂亮的包，可以打开网上搜索查找，这个包是哪儿的，质量怎么样。特别重要的一点，我去年在澳大利亚国立大学访学，他们在盲人身上做了第一个人造视网膜实验，盲人通过人造视网膜技术看到了物体的黑影。还有安防领域，每一个人从离开家到单位，进入北京地区的一类和二类摄像机，基本都会记录在案，北京已经做到了车牌识别，你的车开到什么地方天网系统应该都能检测到的。前几年，我们承担了日本一家公司的多摄像机跟踪课题，研制的系统可以跟踪公司的员工，甚至把他们一年当中在大楼里的运动轨迹记录下来，作为评判他的工作表现的一个指标。

为了战争很重要的是一个特点就是平台具有认知能力。如美国的蜂群无人机，他们使用的是非常小型化无人机，小型无人机的集结需要很强的通信和识别技术。

美国做的下一代新概念作战武器，有非常强的认知能力。美国人工智能主要是大公司在推动。其实“智能”这个词是中国最早提出来的，荀子讲“能有所合、谓之能，”认知能力是人固有的；“知有所合，谓之智”通过社会实践，产生智慧，创新也是人固有的本能，人有所合，在社会实践中产生才华，用认知能力去改造变革社会，这就是智能。

人工智能的思想基础很重要。怎么判别机器有智能，我不多说了。第二个重要的是物质基础，一个是计算机，一个是网络。最近 5G 的推出也为人工智能下一步的发展奠定非常重要的基础，人的记忆，特别是基于经验的云端学习没有网络是不行的，包括美国的无人机之间的高速通信技术。如果按照一千美元的计算能力来讲，那么2040 年计算机超过人类。如果按照生物产品，每个记忆单元里面所提供的浮点运算能力来讲，机器很快就会超过人类。

人工智能是不是改变世界的“第三个苹果”？亚当和夏娃是改变世界的第一个苹果，砸在牛顿头上的苹果是改变世界的第二个苹果，图灵桌子上的苹果是改变社会的第三个苹果。未来时代显著的特点是人和机器共存，机器有智能，有认知能力，可以跟你交互，只有到这个时代，第三个苹果的时代，人和机器的关系才是双向的，过去都是单向的。

人工智能下一阶段的发展是是神经机制驱动的脑认知

人工智能下一阶段的发展是是神经机制驱动的脑认知。人是视觉大脑，从眼睛感知到最后 V1 区，直到 V4 区。

现在深度学习都是一层一层的，层与层之间没有反向连接，视皮层里面，同层之间有反向连接，利用这个机理改造深度学习网络就会出现大家意想不到的东西。我们实验室的相关工作在四个数据集上做出比较好的结果。

强化学习。谷歌收购了 DeepMind，后来做了 AlphaGo，用的是深度学习和强化学习的原理估值采用的单次评判和估值网络的综合评分。

另外，脑科学研究离不开仪器，美国哈佛大学使用的电子显微镜能做30纳米的切片成像，老鼠在做游戏的时候，通过扫描可以把切片做出来，看到神经元的放电，识别它的编码。这些仪器对脑科学乃至未来人工智能发展很重要。

最近这两天超限学习比较热。我做博士论文的时候，普遍认为神经网络是多层的，神经元的隐层参数是要学的。2013 年和 2015 年解剖学发现，这些隐层参数是人和动物与生俱来的，不用学。后来黄广斌教授等人在这个基础上，通过随机产生的办法设置隐层参数，提出了超限学习机方法，就是超限学习。这两年这个工作在和多核学习、深度学习结合。

机器人的发展。过去机器人更多的是研究机器人的骨骼，现在的机器人不光要研究骨骼，还要有传感，肌肉驱动，以及有像人一样的大脑，这样的机器人称为认知机器人，不光需要研究它的运动学、动力学的关系，还要研究感知信息怎么传感的，多模态信息如何表征与融合，如何让肌肉运动产生各种复杂的操作。

人和机器的结合，类生命体机器人是很重要的概念，在细胞分子层面来研究类生命体材料，将来可能是癌症的克星，将来可能在血管里面攻克癌症。

2016 年 4 月份，机器人伴侣推出，引发了很多问题。

我们课题组也在做脑控机器人，通过脑控制的机器人可以在场外运动。

这是我们做的第三代皮肤状态机器手。在今年的新加坡国际机器人与自动化大会上做了大会特邀报告，我们现在对人工皮肤的理解不是做一块皮贴到受伤。而是像人手的手指一样有表皮，还有真皮。表皮是电子式的，可以测量纹理、滑觉，真皮测量正压力。在视触觉编码，包括他们的融合方面，也做了很多工作。

机器人发展依赖人工智能的发展，人工智能离不开生命科学和脑科学的发展，这三个之间已经形成了一个闭环。

机器人恰恰是展示人工智能的载体，堪称是黄金搭档。情感和思考的能力，下一代机器人上都会有所体现，而推动它的就是人工智能。过去有一个机器三原则，人工智能发展到今天的时候，已经产生了某种恐惧，去年美国一百多名科学家在一起讨论人工智能未来发展，其中有一条很重要，人工智能将来是不是会伤害人类？人工智能必须有一个目标函数，要同人类社会的发展一起进化。

IBM 公司提出了人工智能三原则：第一，和人工智能系统建立互信关系，它要信任人；第二，透明度，了解人工智能系统由什么组成，究竟用什么样的参数学习；第三，人工智能平台与行业内人员合作。这是未来很重要的方面。

人工智能发展过程里，最可怕的是机器人产生自我意识，对意识的理解现在有各种各样的观点如记忆、量子纠缠和感知包。

人工智能应该是机器人的灵魂，机器人是机器+人，人用什么体现？人工智能。随着人工智能的发展，机器也在不断发展。人和机器人是两个系统，人是生命系统，机器人叫人工系统，人工系统和生命系统在发展过程里面总是在互相借鉴。人工系统是一个重要的实验平台。两个系统不断发展，互相借鉴，总有一天会交互，交会的地方也许机器产生以我意识的时候。

弱人工智能以大数据和深度学习为基础，代表型的如 AlphaGo，缺点是高能耗和高资源，高度专业化，功能单一，AlphaGo 只能下围棋，不能下象棋，它是就事论事面向特定场景、特定条件下的智能，不具有扩展性。

强人工智能，具有人类思维特点的通用人工智能。人在不完全信息下会推理会判断，毛主席四渡赤水的时候，不像现在有很多的观测工具和决策工具。毛主席当时四渡赤水为什么那么成功？首先他利用的根据对方指挥官指挥的行为特点，他的行为；第二他合理利用电报获得局部信息，才成功指挥了四渡赤水。

商汤科技自主研发的深度学习框架 Parrots，在 ImageNet 的分类任务上做到了1207层，用了 26 个 GPU，难道还要做三千层五千层，用 200 个GPU吗？肯定不是。深度学习也会犯错误，把熊猫识别错了，但是人没有这样的问题。这中间很重要的问题就是结构信息，这些东西怎么去挖掘？人有这方面的能力，这有待于脑科学的发展。

人工智能产业，未来算法产业和芯片产业很重要。

谢谢大家！

黄伟：麦克风阵列用 A，语音识别用 B，自然语音理解用 C，最后的产品就是一个笑话

黄伟博士：中科大博士，上海交大博士后，毕业后任职摩托罗拉中国研究中心资深研究员，期间开发出了世界第一款手机声纹认证系统。后出任盛大创新院核心高管，并创建了语音分院。2013 年底加入国内人工智能引领企业云知声任职首席执行官，负责云知声发展战略和运营管理战略规划。自1999年起参与项目研究至今已获得涉及医疗、管理信息系统、自然科学、语音、游戏等多个领域的产品成就，例如在2002到 2004 年间参与美国国家标准技术署说话人识别评测（NIST SRE）项目获SRE主任务第一名，并获得当年最高的“金星奖”，也是现如今唯一一位能够在 NIST 评测中连续两年做 keynote speaker 的华人。获 MIT TR35 2007 年度提名，2009 年获上海市十佳科技创业领军人才。

今年人工智能和去年不太一样。去年，无论是媒体还是市场，大家更多关注的还是在PR 层面，经常会看到各个大小公司称自己在某某评测上拿到 NO.1。今年大家基本不会再讲这样的故事，可能更多关注的是他的技术能够创造哪些用户价值以及商业价值。今天和前两次人工智能不太一样，当时受限于条件，在很多方面能力不足，今天的人工智能无论在听觉、视觉，包括医疗、金融等场景下，已经表现出碾压人的能力。三年后，全球范围之内，人工智能产业可能会达到千亿美金的规模，中国市场是成长最快的。

智能家居中控应该给用户提供什么价值？

智能家居是人工智能领域很重要的一个场景。智能家居包含的面非常广，在房地产领域也是一样，号称跟智能相关的房地产项目，从2002 到 2016 年只有 16 个，去年一年和智能化相关的对外项目就接近了 60 个。

我们讲到智能家居，不能忽视类似 echo 这样的产品。它们天然具有智能中控的形态，而且毫无疑问，它们非常有可能成为家电环境里用户信息的入口。对于这种趋势，不同人可能有不同的观点。一个观点认为，用户习惯不存在，中国很少有家庭喜欢听音乐；另外一个观点是说，我干吗通过音箱控制家电？我可以用手机控制。不过想想看，当你回到家，打开手机APP开关灯这个行为不傻吗？

今天这种产品的量还不大，我第一份工作在摩托罗拉，我在摩托罗拉的六年见证了摩托罗拉和诺基亚如何从巨头下滑，又见证了苹果如何从不太大的公司成长为今天地球上市值最高的公司。

2007 年苹果推出第一代手机的时候，全球销量一百多万台，去年 Echo 的销量是五百多万台。苹果是怎么把摩托罗拉和诺基亚颠覆掉的？很重要的一点是多点触控，这种完全不一样的交互形态，从最底层把摩托罗拉和诺基亚颠覆掉。

我需要通过音箱来听音乐吗？争论的焦点不在这里，是不是音箱不重要，只能说也许当时亚马逊有音乐资源，所以选择了音箱这种产品形态来承载它的云端服务，比如Alexa。苹果和谷歌用 APP 替换 URL 一样，Alexa 用 skill 替换掉 APP，我相信这是趋势，在座的人三年之后会看到它的实现。

谷歌有Google Home，苹果在今年发布了HomePod，国内也有跟进的公司。苹手机果之所以成功是在用户体验上超越了以前的按键手机，APP之所以成功是体验上超过了以前的 URL。智能中控应该给用户提供什么价值？它具备控制连接家里智能设备的能力，这是最基本的，当不能连接不能控制的时候，再讲其它的智能完全是空中楼阁。

能够成为家里正常生活的助理，提供必要的基本的服务，有一些娱乐陪伴的功能，不光是工具化，还能拟人化，这是智能家居中控需要具备的几个要点。

智能音箱的技术挑战

用什么样的交互能力来传达这些价值？怎么能够让用户通过超越以前体验的方式来感受这种价值传递？我们并不是说去手机化，去APP 化，而是应该在手机 APP 之外补充其它的交互能力。

这种设备应该不受空间的限制，它可能在离你有两米、三米、四米、五米甚至更远的地方，也能够像人一样随时待机唤醒，做到远场识别，用人和人之间的语言来交互。不光能听到，还能听懂，不光听懂，还能把你想的东西给到你，这是传递客户价值比较关键的点。

理想很丰满，现实很骨感，相关技术很难实现，很少能见到让用户满意的产品。我们拿到 Echo 之后，发现它比较死板，现实和我们的想法还是有很大差距的。前段时间网上有一篇文章，叫《十步，智能音箱从入门到放弃》。

当我们意识到我们愿意尝试 Alexa、度秘这种产品的时候，第一步 OK，第二步、第三步发现太难做了，对很多公司来说这是不可能的事情，只好放弃。

今天很多人已经用了语音输入法，智能音箱不就是拿个音箱，接个SDK不就完了吗？不是的，这里面包含太多的技术环节，包括回声消除、降噪、语音唤醒、语音识别，包括云端识别，也包括低功耗的本地识别，根据用户喜欢、用户画像、知识图谱、推荐引擎包括整个对话逻辑以及最后用高表现力很自然的合成方式给用户反馈出来，这里面每个点都可以成就一篇非常伟大的博士论文。对公司来说，搞几个博士点恐怕不是那么简单。

技术一定要端到端打通，我们提出 AI 集成化的概念。有很多的技术并不是孤立的，每个技术之间不是黑盒子，一定要深入打通才能得到最终比较好的体验。

业内有人提出，在移动互联网的今天，我们所说的 AI 产品经理，和以前的产品经理完全不一样，今天的人工智能产品经理一定要精通技术，知道每个技术的优点和缺点。不是光有算法就够了，还需要麦克风阵列技术等等，跟智能家居企业打通。正如之前我们都习惯了GUI，基于同一界面，GUI 怎么设计，怎么跟设备互动，逻辑怎么设计？包括对接大量的第三方资源，歌曲的、音乐的、天气的、股票的等等，每个环节都很难做，都很重要。智能音箱不是接一个讯飞或者语音 SDK 就OK了。

今天有很多人会想，语音识别用一家的技术，麦克风阵列用一家的技术，其它技术再选用一家，串起来不就可以了吗？这个想法是不现实的。安静环境下和家里开着电视机的环境下，距离分别1米、3米、5米，科胜讯无论在安静还是噪音环境下，无论1米、3米、5米，指标都很稳定。怎么做到的？用不同厂商的麦克风阵列对接BAT 自己的识别引擎，科胜讯的“不好”非常稳定，只有百分之六十几，懂行的人都能够看出来。这说明科胜讯很稳定。但是科胜讯的技术不是为了识别做的，而是为了笔记本电脑上的通话质量做的，这种孤立的模块完全不行。国内某些公司自己做了麦克风阵列，去对接BAT 的识别引擎，效果一样差，甚至不如科胜讯。

我们再看一下讯飞做的或者云知声做的，我们很好地把麦克风阵列和 AI 技术端到端打通，性能指标上碾压式地超越它们，所以说 AI 技术一定要芯片化。前不久国内厂商发布了音箱，还是传统互联网产品经理的思维，麦克风阵列用 A，语音识别用 B，自然语音理解用 C，最后的产品就是一个笑话。最后的产品会让你崩溃。只要音箱一放音乐，2米之外要靠吼；放音乐的话，1米半以内基本唤不醒或者唤醒率最多5%、10%。把A、B、C 三个厂商的技术捏在一起，后果就是这样。

我们提出中控解决方案 Pandora，希望解决现在讲的这些困境，把麦克风阵列技术、AI技术等所有的技术端到端打通，解决前面说的行业问题。我们集成了4MIC 阵列降噪，5米远场语音识别，继承了 Echo、Google Home、HomePod 等音箱的特点，同时具备了很多它们没有的特点。除了智能化服务之外，还有一个很重要的技能——连接控制家里面所有设备时，我们对这些设备有一个最基本的要求就是速度。试想家里一个空调摇控器，按一下按纽，一两秒钟才反应，你不知道按了之后有没有反应，也许连着三下，最后也不知道开还是关了，按一下没反应，再按一下不知道那个状态是开还是关。一个机器人，也许它有非常强大的云端智能能力，但是反应特别迟钝，怎么办？它一定会让用户崩溃。我们提出一定要具备第一点，Pandora的所有系统通过云端提供认知和智能服务，同时支持终端的AI交互，以及在芯片终端感知和本地智能。

支撑 Pandora 的技术，第一是快。多快？闪电一样快。我们 Pandora 实现的技术能力唤醒时间小于 0.3秒。云端响应速度小于 1 秒。不光是说识别的反应速度，也包括一系列环节，包括云端识别，包括理解，包括知识图谱，包括服务召回，必须要真的从互联网产品经理的角度来打磨这个技术。

第二，准。要能非常准确地理解用户在说什么。实际上到今天为止，影响我们很多产品落地的一个很重要的原因，是很多技术指标只能局限于实验室环境里面，它可以拿标准的数据库跑到97%、98%的准确率，但在工业环境里面却一点价值都没有。

除了距离远之外，口音也是个大挑战。云知声今天凭借麦克风阵列和识别技术，能做到成为国内工业界唯一量产出货的厂商，没有之一，是唯一。无论跟国内哪一家厂商PK，我们唯一能做到，直接找带有口音的被测试人过来，不需要培训，不用教他怎么说，因为用户本身不知道怎么说；第二，他会直接把空调的风量开到最大。第三，直接说方言。产品开发的时候会遇到很多困难，产品想要量产的话，方言必须要解决。

工业量产还有一个很重要的指标是省。很多公司团队做一些PR 产品，性能还可以，上来搞一个 4 核CPU，几个 G 的内存，无法量产。云知声提出来一个观点——一定要省。最低主频低于 100兆；第二，内存小于 100K 字节。

还有一件重要的事情是稳。你在家里睡着了，音箱突然给你讲鬼故事，这样的产品是绝对不行的。要做到你叫它的时候它一定会答应你，不叫的时候绝对不答应。

用户也可以与我们的设备保持多轮对话，并在交互中随时打断，设备都可以灵活应对，实现如水般顺畅的流式交互。除了多轮对话，今年系统又放入了百科知识，机器人不仅是助理还是专家，对用户有更深入的理解和掌握。它会在使用过程中不断学习你了解你。我们的设备还有男声女声和童声，哪怕只有10分钟的数据都可以生成高表现力的声音。

通过中控方案，即使中控设备本身没有屏幕，也可以把家里所有屏幕都用起来，做到流式对话，让所有的用户行为习惯在各个设备之间无缝流动。我们的方案把所有合作伙伴的周期压缩到6个月以内，而且各个设备都可以使用。

丁衣：很多机器人产品把边界过度放大，这不会带来真正的销售和口碑变化

丁衣，前极路由、大街网的联合创始人。在品牌营销和渠道销售方面拥有丰富的经验和洞察。目前，负责物灵整体的市场销售和运营体系，致力于塑造一个世界级的灵性品牌，让物灵的产品走向世界各地。

物灵科技是一个新创立的人工智能科技公司，是由上市公司东方网力投资的，我们的定位非常清楚，就是做消费者品牌，做消费者产品，而产品主要是人工智能的机器人产品。

我们非常重视产品定义，做好交互和体验，这个对我们来讲非常重要。现在所有的消费者智能类的产品，除了 Echo，销量都不好。而我们要根据场景和需求来细化产品定义，做有实际价值的产品。现在市面上很多机器人产品把边界过度放大，对消费者来讲，提高了消费者的期望值，拿到以后，落差非常大，不会带来真正的销售和口碑变化。所以，我们认为如何定义产品本身和控制消费者预期很重要。

人目前都是通过机器来对接信息流和服务流的，这是通过人和设备之间的交互完成，我们的核心技术会专注在人机交互这件事情。最终的智慧来自于人和机器的共生的能力，共同进化，我们希望交互的方式从键盘到鼠标 GUI 时代，再到 touch 时代，再到现在并没有完全定下来的 BCI。大部分人现在会沉浸在 touch 终端。所有注意力都在屏幕上，而我们要做的设备是静默式环绕式的设备，这将是一种无处不在的智能化和计算力。

对于服务于家庭的机器人来说，家庭里面的两类人群——成年人和未成年人——认知方式和语言体系完全不一样。我们分成年人的产品和未成年人的产品。我们对产品的具体使用场景、具体功能产品的定义做了很强硬的限定，这样现在的 AI 技术边界不会达不到。最近我们正在招募我们第一款产品的天使用户，是一款儿童阅读养成机器人Luka，用计算机视觉技术可以读市面上的绘本书，在京东上正在预约，大家可以去了解下。

另外，我们联合了国内的三家上市公司、一家基金还有三家 AI 初创公司一起成立了万象人工智能研究院，希望把底层的算法和技术能够跟产业直接对应，研究员一开始研究的时候就知道谁来用，怎么用。我们的研究院是基金模式的，并且是全球化运营，紧密连接产业的。

我们物灵科技的新 Office 在望京的浦项中心顶层，还配备了专业的咖啡馆，可以进行百人左右的发布会，风景非常好，希望做成人工智能消费级品牌的体验厅、展示厅和大家聚会的场所，欢迎下次新智元的百人会来我们新的 Office 举办。

Panel：对现有智能音箱产品的分析，及对国内智能音箱市场的展望

杨静：今天我们Panel 的主题是《对现有智能音箱产品的分析，及对国内智能音箱市场的展望》。6 月初的苹果开发者大会上，智能音箱 Apple Homepod 面世，成为亚马逊 Echo 和谷歌 Home 的劲敌。包括海尔在内的国内多家厂商也已经或者即将于近期推出自己的智能音箱，BAT也有意或已经入局。战局背后，是人机交互技术发展的驱动和市场对新一代人机交互界面的真实需求。更自然的人机交互方式是智能时代的重要特征之一。以语音识别、语义分析、视觉获取、上下文感知、VR 等等技术为内核的新一代人机交互界面，将成为智能家居、自动驾驶等终端智慧化应用场景下直接决定用户体验的关键模块。今天想请在座的各位专家聊一聊，智能音箱的技术挑战在哪里？中国的智能音箱中，有没有哪款能做到接近 Echo 的水准？近期中国能否推出一种在市场上能够形成主导地位的、或者至少被消费者所广泛接受的音箱？我们首先有请张宝峰部长给我们分享一下。

张宝峰：家庭里面会存在一个智能入口，在未来的发展里，这是毫无疑问的。 Facebook 最新开发了贾维斯，也是一样的效果，交互是不是以音箱的形态出现，不一定。非常重要的事情是约束场景。我看过 Echo 的调研，有几个 TOP 应用，比如听音乐、设闹钟，有些应用使用的比例非常低。我们到底是做广做全，还是真正做出特定价值？这是非常值得思考的问题。

杨静：赵峰总有没有看好的产品？

赵峰博士，海尔家电产业集团副总裁兼CTO，曾担任微软亚洲研究院常务副院长，主要负责物联网、大数据、计算机系统及网络等领域的研发工作。赵峰博士毕业于麻省理工学院 (MIT) 计算机系及人工智能实验室，曾在位于硅谷的Xerox PARC担任首席科学家，创立了该中心的传感器网络研究，并先后任教于美国俄亥俄州立大学和斯坦福大学。赵博士是美国电机电子工程师学会IEEE Fellow，撰写了物联网领域第一本专著《Wireless Sensor Networks》，被多所美国大学选为教科书。

赵峰：对智能音箱来说，实际上更重要的是背后的语音助手。大家接下来更需要关注的，是智能音箱背后整个语音服务生态体系，它的硬件展现方式可能是在音箱上，但我认为，家里任何一个智能硬件都可以当成入口，智能音箱这个概念需要泛化，而不是简单的音箱形态。

现在大家对人工智能的期望远远高于技术能够实现和提供给用户的体验，这一点我非常担心。看了杨静总关于 2016 年人工智能的调研报告，里面讲到人工智能三起三落，我希望这次第三次不要再落下去。前面人工智能三起二落，第一波是刚开始的符号运算专家系统，第二波是神经网络，那时候没有大规模运算和数据的支撑，大家的期望值和现实之间产生了落差。这次第三波不一样，基于深度学习，大数据和大规模计算，语音识别和图像识别在有些领域已经能够达到体验上的一个阈值，大家能够接受这样的体验。以前不能达到这个阈值，十句话里面有三句话计算机是识别错的，大家感觉就非常差。在泛化的人工智能中，特别是没有限制的对话当中，要能够非常流畅地像人一样自然交互，现在还不能做到。我们要聚焦在几个垂直领域，把体验做好。比如在家庭场景里，把用户体验真正做到极致，使对话能够流畅，不管是连续说，还是多轮对话，还是背后知识库的支持，都能够建全，用户能真正得到她需要的服务。如果现在想做一个类人机器人，追求什么都懂，知识面像人一样全面，现在还没到那个技术水平，而且还会把人工智能带入死胡同，我不希望看到那个第三个“落”出现。大家的期望是，在现阶段把智能音箱体验做好，领域更聚焦一点，满足用户的刚需。听音乐是刚需，智慧生活、智慧家庭里音箱作为用户交互人口，作为智慧家庭一个中控，和各种智能硬件互联互通，通过交互获取服务，也是一个刚需。但如果短期内期望值无限高的话，对整个业界的持续发展实际上是负面的。

我就说这两点，第一是智能音箱更重要的是背后的语音助手，可以在音箱上展现，也可以在冰箱或电视上展现；第二是现阶段需要提升用户体验。

杨静：虽然看起来有点慢，但是智能音箱的确都在进步。请孙富春教授给我们预言一下，哪个智能音箱您比较看好？

孙富春：认知时代离不开语音的交互，一谈语音交互就是智能音箱，有非常清晰的理解，将来的市场非常大。现在教育一个最大的变化就是，未来的书已经不是我们掌上的电子书，不是大家在计算机里面看到的电子书，未来电子书一定是多媒体，要激发大脑的各种感知皮层形成共享效应，这样在多媒体环境下，学习效率将大幅度提高。另一方面，好的乐曲如果在电视里面放出来已经失真了，如果能跟音乐完美结合，那是非常美好的一件事情。诗歌朗诵如果用手机去放，丢掉很多东西，如果有非常好的音箱展示，那感受会变得更加美好。借用一句话，人工智能使我们的未来更加美好，使我们的生活更加美好，音箱在此是不可或缺的。包括笔记本内的音箱，我希望它将来越来越逼真，越来越好，有立体感。分布式音箱不光是一面有，可能是立体的几面都有，美妙的声音能够给我们留下深刻印象，使我们一天生活充满阳光。

杨静：群友提出了一个切中要害的问题，现在各个巨头都推出了自己的生态平台，让创业公司不好站队。比如开发算法，一会儿在这个平台，一会儿在那个平台，浪费精力，而且这也涉及到上下游的硬件或者销售等等问题。现在大家都在疑惑，加入哪个更好？

孙富春：音箱是一个硬件，需要软件的支撑，经过软件处理的声音将更加美妙。也可能同共享单车一样，需要背后腾讯或者阿里巴巴的支持。国内人工智能的大公司就是 BAT，国外就是谷歌、微软、Facebook，国内这些大公司在人工智能应用方面起了非常重要的作用。这几个巨头应该是不相上下，下一步谁能给我们带来最美妙的享受我们就支持谁。

杨静：黄伟，你能不能更尖锐一点，更坚决一点，说一下哪个更好一点。你也是创业公司，如果将来必须要对平台做出选择的话，你觉得哪个更靠谱一点？

黄伟：这是创业公司很可能面临的选择，这个问题不是需要双向选择的。我觉得BAT都有很大的机会，我更看重谁有数据，技术的要素对最后的成功不是最重要的。相信BAT 有足够的资源吸引一流人才，包括我09年从传统的IT企业去互联网公司，余凯去百度更晚，在之前这些BAT互联网巨头里面找不出几个博士，基本是个位数，后来很多人说老黄当时怎么没去BAT？那时候没有BAT，那时候是SBAT，盛大最牛，我去的盛大。盛大全公司的博士当时不一定有五个人，那时候的互联网公司更强调运营。今天可以看到有很多一流的科学家都在互联网公司里面，人才技术对他们来说不是最重要的瓶颈。当然还有一些问题，比如公司的基因能不能用好这些人。

数据的成本获取是最高的，看BAT或者哪家公司的原有业务数据大一些，谁的概率就更大一些。音箱是听音乐的，还需要音乐资源，那就是腾讯吧。亚马逊做音箱可能很偶然，当时亚马逊有音乐资源，所以做了音箱，这个音箱先用资源打通，但是光有音乐，Echo也没有成功，从几十万销量到一百万销量。把Echo和亚马逊商城打通，这些产品才是最成功的。作为创业公司，前面给大家展示的是目前阶段行业比较酷炫的技术，我们没有做单品，我们做方案。

杨静：智能家居里面，作为中控的智能音箱和其它智能家电设备通信问题的最优解决方案是什么？比如海尔有很多家电，中控是怎么跟它们通信的，用什么语言交流？

黄伟：这是行业里面很难克服的问题。行业里面有三股势力，三国混战。一个是BAT，有资源，也许会往下走，BAT也会做音箱，从上面往下走；还有一个是设备厂商，像格力、海尔，往上走，做 U+ 等等；第三个是创业公司。这里面存在很大的问题，我的产品非常好，我能控制窗帘开关，弄一个红外开关就可以了，但是我控制不了格力空调多少度，他们没有开放接口给我。这里面又出现博弈，用户量多了之后也许各方会坐下来谈，会有一个类似 WiFi 蓝牙标准协议，使得我们可以互联互通。如果这个标准没有的话，其实智能中控是实现不了的。他说的我能听到，我能听懂，但是无能为力。我想把空调设到 26 度，不好意思，格力不理我。

杨静：程总，请您点评几句？

程骉博士，微软亚太研发集团创新孵化总监，负责集团新产品、新项目在中国的孵化和落地。程博士拥有计算机科学专业的武汉大学学士，中国科学院自动化研究所硕士以及美国纽约州立大学布法罗校区博士学位。博士毕业后到美国硅谷工作十五年，先后加入两家初创公司以及在甲骨文（Oracle）公司总部负责大数据及商务智能产品开发十年。2010年回到中国，加入微软亚太研发集团。

程骉：先说两句题外话，今天上午才知道有这个活动，看见上次12月份在新智元一起分享的赵峰总和黄伟总在名单上，我想过来听听。另外，自动化所是我的母校，我硕士在这儿毕业，有一种回家的感觉。

相对于其他公司，微软采取的是不同的方式。今年五月份微软 BUILD 大会之前，微软正式宣布了和国际顶级音响制造商哈曼卡顿（Harman Kardon）合作开发 Cortana 智能音箱的计划。双方合作的这款音箱名叫 Invoke，同时具备哈曼卡顿极致的音响效果及 Cortana 的智能，可以用来实现播放音乐、管理日历和活动、设置提醒、检查交通状况以及推送最新新闻等功能，还可以作为智能家居的控制入口对家用电器进行控制，例如熄灭灯光或控制温度。从设计上看，Invoke 音箱的顶部有 Cortana 的蓝色光环，支持 360 度声音外放，而跟其它智能音箱相比的最大亮点就是能够继承 Skype 互联网电话服务，能随时进行语音对话和参加电话会议；所以，Invoke主要针对为工作竞争及家庭需求而忙碌的客户群体。Invoke 配备了哈曼的远场语音识别技术，音箱嵌入了 7 个麦克风，采用了哈曼的波束形成、回声消除和降噪算法，使其即使在高噪音环境中也能识别语音命令，从而完成语音任务。我非常期待它的早日上市。

杨静：国内的BAT您看好哪家？

程骉：我觉得都有机会吧。谁做好应用场景、谁掌握好数据，谁就会成为赢家。

杨静：今天的新智元百人会 6 月闭门论坛到此告一段落，我们期待 7 月份再次相聚，6 月 30 号新智元微信公众号的订阅户超过 19 万，7 月中旬我们就会搬到新家，新址位于融科资讯中心 B 座谷歌中国的楼上，谢谢大家今天的莅临，特别感谢几位讲者的分享。

* 本文为新智元原创报道，未经授权请勿转载。

【号外】新智元正在进行新一轮招聘，飞往智能宇宙的最美飞船，还有N个座位

点击阅读原文可查看职位详情，期待你的加入~

反向激励，在加速这个社会的黑化

老公经常嫖娼，老婆起诉离婚，法院判决：不能离！

指向自身的觉醒，只会导向新的困境

清华大学的113周年校庆：都这么创新了吗？

刚刚，司法部原副部长，在公安部工作过28年的省公安厅原厅长被查