「现场」探秘硅谷最神秘的AI明星公司——Vicarious | 英途
英途说
硅谷人工智能考察进行时!包括景林资产、中信产业基金、华米科技等企业的高管随英途潜入硅谷,探访多家标杆性AI创新公司。本篇文章将为你揭秘深度学习技术公司Vicarious,与联合创始人兼CEO Scott Phoenix展开对话,关于Vicarious的愿景?它跟Google对于深度学习技术的打法有何不同?
Vicarious愿景是:构建下一代人工智能算法,让autonomous intelligent agents(纯自动又智能的机器人)在我们的生活中随处可见。这听上去不是个短期内会“贴谱儿”的目标,但也并不妨碍Vicarious打动一众科技大佬(包括贝佐斯,扎克伯格,马斯克,彼得·蒂尔等等)为它倾注迄今总额逾7000万美金的风险投资。
CEO Scott Phoenix告诉我们,Vicarious对于AI有着非常特定和具体的理解,他们管这个叫AGI(artificial general intelligence,一般翻译为“强AI”或者“通用人工智能”)。说得再具体点就是——Vicarious正试图撰写一个程序,它可以通过“模拟”一个人从出生到成年的感官体验,像人一样学习到相同的概念并获取相同的能力。
我们泛指的AI通常是指“在输入和输出之间创建一个对应关系”。包括神经网络在内的很多主流技术都需要我们人为地对数据进行标注,告诉机器哪些是好的案例,哪些是坏的案例,哪些是猫,哪些是车,哪些是行人。然后基于这些标注,机器再进一步地深化分类或者进行决策。也就是说,你需要通过大型计算机或者云服务器向你的算法系统输入“大量数据”来训练你的模型,之后得到一个黑匣子(black box)——再然后,当你向黑匣子输入一些东东,它就可以输出一些分类的预测。
啰嗦了这么多,其实这就是现今机器学习领域的所谓最前沿技术的机理了!AlphaGo背后的Google DeepMind用得是这种机理,自动驾驶汽车识别行人背后也是这种机理。
“这是很伟大的技术,但是它跟我们在Vicarious做的东西是完全不同的。我们构建得是generative models(生成模型),它不仅仅是在好和坏的案例或者汽车和行人之间画出边界或者规则,更需要知道是什么让车被认为是车?两个轮子的就被算作是车吗?各式物体都是如何运动的?世间有哪些因果关系是可以学习的?—— 跟人类学习内容的复杂程度类似”,Scott说。
Scott还谈到Vicarious作为技术公司在定位上的独到性,“我们通过研究神经科学和认知科学获取足够多的‘归纳偏置’(inductive biases——即当机器预测其未遇到过的输入的结果时,会做出的假设的集合——可以理解为机器自身的想象力),然后把这个集合制成一个可以落地的扎实的函数框架,再反过来拿真实的数据集来测试和展现这个框架的优越性。说实话,我没看到很多其他公司做跟我们类似的事情,大部分试图盈利的AI初创企业更多的是投身在垂直应用领域,比如把深度学习应用于医学成像,帮助患者得到更精准的诊断。但是这跟我们做的底层基础研究不是一回事,我们研究的是什么让人类想其所想,而他们更多是将现有的深度学习技术应用于某个垂直领域。”
值得说明的是,现有的深度学习系统的一个重要短板是,它只能基于过去看到过的案例库,对新获取的案例进行分类预测。这也是Google自动驾驶车面临的挑战。你可以想象,在驾驶过程中,新的状况和出其不意的事情总会源源不断地出现,而每当出现这样一个新的scenario,Google的模型(就它目前的机理来看)就会很难适应这些未知的场景,因为它的根本逻辑是——根据以前的经验去预测场景分类。
“这也是Vicarious的存在价值,我们构建的生成模型(generative models)可以更灵活地掌握规则,它致力于让机器以更接近于人的大脑构造或者说是感知过程来学习,它不需要掌握很多数据,就像人的大脑也是反馈远多于前馈(而现有的卷机神经网络都是相反的,即前馈多,反馈少);此外,我们认为模型学习中的‘时间顺序’也很重要,类似于人,我们的系统是边学边跟外界互动,从而更快更有效地学习,而不是通过看一堆杂乱无序的图片来学习,” Scott说。
CAPTCHA竞赛的相关数据
如果一定要拿Vicarious跟Google的DeepMind比较的话,Scott表示,两者完全是两个技术流派,在底层构造上就截然不同;后者更适合数据量大且任务具体的事项,比如搜索引擎中针对广告点击率的这类分析,而Vicarious的模型可以在日常生活中有更多用武之地,哪怕就一两张图的案例库也可以帮助模型有效学习,就像1岁的小朋友学认ABC,他不需要看到成千上万种变异格式和不同字体的A才能认出A一样,Vicarious的模型也是这样。两年多前,Vicarious曾打败Google成为破解文字验证码CAPTCHA的黑马,Scott告诉我们,他们的模型只学习了每个字母的10个样本,就取得了这个成绩。
挂在会议室天花板上的装饰
本文为英途公司版权所有,未经允许不得转载。如需转载请联系zhoum@intoer.com
6月19-26日 硅谷&洛杉矶虚拟现实考察