人工智能方向的思考总结 - 百纳信息喻俨考察手记 | 英途
英途说
本文是途友喻俨在参加完刚结束的“英途2016硅谷人工智能考察”之后的思考总结。主要概括了人工智能的发展现状、深度学习在图像、文字等领域的最新进展,以及AI领域创业公司的制胜要素。
五月参加英途的人工智能活动到美国溜达了一周,拜访了十来个AI相关的公司,涨了见识同时收获不少。回国后把看到的内容和自己近期的一些思考总结如下:
AI(人工智能)、ML(机器学习)、DL(深度学习)这三个词有越来越被滥用的趋势,迄今为止还没有看到对这三者关系的一个标准定义,现在能看到的共识是:
AI是一个非常大的专业的科技/研究领域,这个领域包含了很多需要解决的子领域(从Wikipedia上拷贝过来有):reasoning,knowledge,planning,learning,NLP,perception and the ability to move and manipulateobjects。有时候我们平常说的AI也指机器所具有的某种智能化的“表现”。
ML属于AI的一个子研究领域,关注点在通过数据驱动的算法方面的研究。ML是用来实现AI的一种手段。
DL属于ML的一个分支,可以简单看作是ML算法中神经网络算法的分支,通过建立和模拟人脑神经网络来进行层次化的分析学习。
在语音、图像和视频领域,进展非常明显。对于简单的分类(识别猫猫狗狗)、检测和跟踪任务(无人机尾随)已经达到甚至超越普通人类的水平,可以开始大规模商用。
在文字和NLP领域的进展要略微落后于语音和图像,有一些应用正在慢慢成熟,比如文字的情感分析、不同语言之间的翻译、邮件智能回复、对话式购物等。
混合应用场景开始出现,推动AI应用场景的丰富,比如:给图片智能生成标题(图像+文字),看图回答/推理(图像+文字),视频字幕生成(视频+语音)。混合应用场景出现的部分原因是在于DL一些技术的成功转移,比如CNN从图像领域成功应用到文字领域。
Data(数据为王),数据特别是差异化的数据非常非常重要。因为对于一个基于 DL 的应用来说,技术层面主要是三大决定因素:算法、工具和数据。前两个因素:算法和工具,公开和开源是趋势,无论大小公司、学术界、工程界,大家都愿意积极参与贡献;而对于数据来说,基本上都是私有的,一来 DL 所需要的海量数据获取难度和代价都很大,二来出于隐私法规商业利益等角度,少有人愿意公开自己收集的数据。所以每一个AI公司都得在数据上尽早做布局。
Power(计算能力),DL在这几年取得的重大进展很大程度上也归因于硬件计算能力的突飞猛进,从CPU到GPU到FPGA到ASIC,比特币挖矿上的硬件系统演进看上去似乎正在DL应用上重演。随着DL应用领域的扩展,硬件的采用和布局也会是重要的一环。
Engineering(工程能力),在美国看到的不少创业公司人虽然很少,但都有非常强悍的工程能力,这种工程能力表现在从硬到软的技术栈全面性和对算法实现的工程优化能力。说到底,在算法和工具层面的竞争优势在今后会变得很小,相反在垂直领域的实际场景应用中,工程能力的强弱会变得很突出,一个优秀的能读懂算法论文又能最佳实现的工程师会变得非常有价值。
一句话概括:每一个App都可以powered by AI。
喻俨
百纳 研发副总裁
喻俨先生,浙江大学硕士,现任百纳产品研发副总裁。2007年任职于微软亚洲工程院;2011年加入百纳,负责业务线多个产品的开发、设计、运营和商业化工作,负责的著名出海产品——海豚浏览器,在欧美日韩等市场有超过2亿用户,先后获得了红杉、经纬、畅游的亿元投资。
本文转自星辰大海——途友喻俨先生的公众号
7月17日-24日
硅谷人工智能考察
一起对话最具创新性的:
人工智能技术公司、研究机构以及投资机构。
本次考察将重点关注:
机器学习、深度学习、计算机视觉、
机器自主系统、机器人及大数据
等众多前沿方向。
限邀20位相关公司高层