其他

2018-05-31

本文由混沌大学(ID:dfscx2014)授权转载。混沌大学是一所没有围墙的互联网创新大学,遍邀全球名师,拓展认知边界,奉献最专业、最实用、最顶级的互联网创新课程,陪伴这个时代最有梦想的人,早半步认知这个混沌的世界。

本文约4133字建议阅读9分钟。

本文是一份关于AI热门应用的案例集,包含了难点、窍门以及最新的研发方向,非常珍贵而又接地气,值得你反复研读和收藏。


机器学习未来的发展路径和前景就是从模块出发,构建一个复杂系统。

——邢波

邢波,师从机器学习泰斗级学术大咖 Michael Jordan ,卡耐基梅隆大学机器学习和医疗中心主任,2017年机器学习学术水平排名世界第一。同时,他还是生物化学与计算机科学的双料博士,创立了通用机器学习平台Petuum,并获得软银投资。


授课老师:邢波

卡耐基梅隆大学计算机科学学院教授

通用机器学习平台 Petuum 创始人

翻跟头、倒着飞、倒着转圈……想象一下,一个直升飞机驾驶员,他敢这么飞吗?事实上,如今,最好的直升机驾驶员其实是计算机,依靠的就是机器学习。那么,怎样写一个程序,让直升机这么飞?

我很好的朋友,加州伯克利大学的同学吴恩达博士,他的毕业论文就是用增强学习的算法,写出了飞行的程序。


他在模拟机上,不断随机模拟各种各样飞行的可能性、环境的可能性,用一个增强学习的程序,对模拟出来的环境和动作进行适应,然后不断评估、修正,并最终部署在真正的飞机上,实现神奇的特技动作。


其实,这个增强学习的算法,就是一个典型的机器学习的应用:有学习能力,可以根据大量的场景数据,不断修正方程里的参数,最后达到一个稳定的状态。


所以,从本质上讲,机器学习是传统编程的第二曲线,它是一个写动作的程序,而不是描述动作本身的程序。它是在学习一个方程,而这个方程的X和Y是一个函数、变量,并不是一个确定的值。


Tips:回看整个科学史,机器学习变革意义重大


牛顿定律,怎么发现的?靠的是“人肉智能”:开普勒和第谷积攒了很多行星运行的图表、数据,然后伽利略和牛顿分析以后,发现规律;


同样的道理,元素周期表是如何发现的?


16世纪、17世纪的时候,出现了对分子光谱的描述,某几个物理学家根据这些数据分析发现,氢族、氧族、硫族等都会有同样的光谱分布,从而发现了规律。


而现在,机器学习的出现,让数据分析变得非常高效,从而出现了非常多有价值的应用,计算引擎成了无名英雄。比如:


自动驾驶汽车可以实现自我导航;通过遗传信号可以推断人类祖先的长相……


机器学习这么厉害,我在哪里能买到呢?很不幸,机器学习现在更像一套秘籍,买不到。


接下来,我用一些具体的例子,再详细分享一下它的难点、窍门。


案例集一:自然语言处理


人读书,会有两个基本动作,能读懂,还能讲出来,同理,自然语言处理也包含两大类工作:理解自然语言生成自然语言


1. 理解自然语言


理解是怎么回事?背诵下来,是不是理解了呢?


因此,需要把理解划分为不同的具体任务,一旦具体以后,机器就可以找到切入点。


由浅入深,包括以下内容:


  • 文本分类


从分好类、有标注的训练数据出发,采用不同算法,训练一个分类器。


举个例子,分析一个文章,假如“白宫”出现多次,就可以判断,文章是讲政治的。防垃圾邮件的软件,用的就是这个原理。


  • 文本检索


这是Google等搜索引擎里的常用功能:通过关键字输入,输出根据相关度排序的结果,再高级点,还有个性化匹配。


举个例子,搜索苹果,结果可能是水果,或是手机。



如果搜索引擎对你一无所知,两个结果都可能靠谱。如果你是一位果农或者一位高科技白领,那么就能猜出你想要搜的东西。


也就是说,要实现个性化匹配,需要考虑你的生活习惯、行为特征、以及搜索场景。


  • 语音识别


将声音信号转化为文本信号的技术,涉及隐马尔科夫链、递归神经网络等机器学习模型,智能音箱、Siri等,都属于这类的应用。


  • 难点


在嘈杂,或是前后关联破碎的场景下,机器很难识别清晰,但是人可以,因为有常识、背景知识,比如人在信号很差的电话环境里,连蒙带猜,也能理解对方的话。


因此,人和机器要有一些互补。


  • 知识问答


几年前,IBM沃森在知识问答游戏Jeopardy里战胜了人,很轰动。

其实这个系统并不难,因为知识竞赛里的对话很简单,比如——


谁是美国的第一任总统?——乔治·华盛顿


所以,这个系统是一个纯工程,它跟人类智能不一样。


  • 举个例子


比如问这样一个问题:中国不在大河边上的第二大城市是什么?


小学生很容易就能回答,但你去Google或者百度,却找不到答案。为什么?


不是知识库里没有内容,而是它听不懂你问的是什么,于是它就懵了!


所以,在这里面,有一些关键问题需要大家特别重视:


  • 窍门


机器理解人的语言,相当有限,所以,如何提出更好的问题,非常关键。


大家天天在讲的问题,到底有没有价值?到底能不能体现出工程的进步、应用或者市场的需要?


  • 标准测试


什么是高级的理解?标准测试,比如,大学的入学考试,托福、GRE等


为什么人工智能不去做这种测试?因为比较难,比如:


①得真正看懂测试的问题;

②训练的时候,不能人为输入规则,而是直接把教科书交给机器学习,让它自己把规则、定理、原理、作业题都完全看懂;

③最后自训练,吃透了以后去考试;

④算法要能够给学生解答这个答案的意思。


  • 窍门:


教育里最难的一点就是出题库,然后训练学生做题。如果有一个人工智能系统,既能出题,也可以跟学生一起做题,甚至还可以给他解释,就会有很多价值。


在这样的做题程序中,深度学习的方法已经被淘汰,其他的机器学习手段得分也不高。下一步,再怎么往上走?还不知道。


换句话说,既能回答问题,又能提问题,这是人工智能最弱的方面,也是一个未知的空间。


我们现在正在做这样的尝试,让机器自动的问一些问题,从而达到自训练或者训练用户的目的。


2. 自然语言生成


这是人机界面中,主动来自机器的动作,是一个很好玩的题目,我重点介绍两个领域的应用:


  • 机器翻译


人在做翻译的时候,通常先听完好几句话,理解后,再用另外一种语言说出来,但是,机器翻译的主要手段是对齐,把两个语句做一一对应,很机械。


  • 机器对话


在对话系统中,也会有机器味。那么,什么才是有人味的对话呢?


一方面是对感情的把握,和对对方感情的理解;另一方面是对相关常识的引用和理解。


这在目前对话系统里,十分困难,因为没有一个很好的数学模型,对这些任务做清晰的定义。


  • 小结:新研究方向


大数据即使再大,还是体现不出人类语言中不言而喻的内容,该怎么办?


目前,比较新的研究方向是把生成模型和人的背景知识,进行数学层面上严格和自洽的融合,把深度学习的技术和人类逻辑学的知识,结合在统一的数学模型里


这样就可以把人的感情因素融入生成模型,从而让对话看上去更有人味。


案例集二:计算机视觉


计算机视觉是现在相当火爆的方向,大致可以分成两大类问题:图像感知视觉推理


1. 图像感知


它包含的是一些比较原始和低级的任务,比如:


  • 图像分割


把不同的色块,从背景里面识别出来。


比如一个花花绿绿的人,机器看到的只是几块颜色。


  • 语义分割


把不同的色块重新整合起来,构成有完整单元含义的目标。


比如,人和车,会被分割在比较自洽的边界内部,然后做标注。行人检测、安防里的刷脸等,用的就是这个道理。



  • 应用案例


在医疗上,图像识别应用于对X光、CT等做一个自动的诊断,实现精准医疗。


目前,在实践中,最大的困难不是对标准图片的识别,而是在自然工作环境下,对于自然图片内容的判断和理解。


比如,医疗影像中的噪音,误差,还有设备之间不同的标准,会造成很多算法的失灵,但这些问题很少被提及。


最近的一个有名的例子是,IBM沃森的癌症治疗软件,在美国最好的癌症研究所部署后,就遭遇了比较不幸的失败。所以,人工智能在医疗领域的应用,还是应该谨慎些。


  • 智能监控


现在,很多场合都安装了摄像头,但应用时,却总是在“事后诸葛亮”的场景:发生案件后,调集警察,人力检查摄像头,发现线索,抓到犯人。


这不是最理想的情况,最好是案件发生的时候,就能够找出情况,短时间,就能收集大量信息。


比如,从几小时长度的航空展览录像中,自动剪辑出飞机的起飞、动作、降落等画面;将几小时的行车记录仪数据,自动抽取出几分钟不一样的片段,这都是机器学习比较擅长的。


2. 视觉推理


同语言推理相似,视觉也可以进行推理。



举个例子,图中有人和帆板,那我们不单单能做标注,还可以猜想物体之间的关系,如这个人喜欢帆板,准备去海边运动。


人感觉这样的理解很简单,但对机器来说,非常复杂。


比如将物体识别出来,需要一套算法;然后把物体分类,又得需要一套算法;识别物体间的关系,又是一套算法……


但人类并不是用30个不同的大脑来发挥作用,我们就是一个人,一双眼睛就可以很清晰做理解。


  • 窍门


所以,人工智能跟人的思路其实不太一样,它是一个高度模块化,然后边界也很局限的工作,需要严格的定义任务,分开来单独做训练和调试。


  • 小结:新研究方向


计算机视觉2.0  模型结构自主学习


所谓视觉推理2.0指的是,一方面依靠图片内容,另一方面依靠从大数据以及背景环境里面,获得的先验知识。


当这些先验知识,进入图像识别的机制里后,机器对图像理解的水平就会提高很多,就不是一个很愚蠢的图像标注了。


实际上,图像标注是很假的功能,为什么需要机器去告诉人类,这个图里哪个是猫?哪个是狗?哪个是车?


人对这些东西都可以无视,但如果能够把图里面的内容和话外的内容搞清楚,更接近人的需求,这样的功能才会产生真正的价值。


比如这个图里,有一个女孩儿,穿着牛仔裤,拿着飞碟,后面在一个建筑物里,还站着一些人,最后推断,这可能是一个学校。



这是目前研究和研发很重要的方向,但很可惜,在公司或者媒体报道里,你很少见到类似的工作。


最后的最后,你需要深刻理解的未来AI发展路径

从模块出发,构建复杂系统


未来的AI应用大概会是这样的一个场景:


它会融合不同领域里面的很多基础知识或者先验知识,把不同的学习内容和算法整合起来。


对于实际的开发和生产环境,我们其实不是在谈某一个算法或是某一套数据,而是一个相当综合的体系。


现在,很多公司都面临着这样一个瓶颈:如果用封闭式的黑匣子来打造一个系统,它的延展能力很弱。一旦面对新任务,就会面临着开发周期的困境,或者进行部署的困境。


该怎么办?


我的建议是,机器学习未来路径和前景应该是:从模块出发,构建一个复杂系统。


这个复杂系统的方向不能是手工作坊的方法,从造一个小船变成造一个大船,而是要转变到更加工程化和科学化的方向——


模块化和标准化。

同一个算法应该有标准的实现途径,同一个数据应该有单一的供应源进行处理方法。


只有这样做,你的AI研发,才能更稳健,更靠谱。


本文根据5月19日邢波教授的课程整理而成。


 戳视频 ☟ 

2分钟动画帮你搞懂AI工程

https://v.qq.com/txp/iframe/player.html?vid=g0661d9g41l&width=500&height=375&auto=0

    您可能也对以下帖子感兴趣

    文章有问题?点此查看未经处理的缓存